본문 바로가기
Cloud/Google Cloud Study Jam

Dataflow: Qwik Start - Python

by 사향낭 2022. 6. 16.
 

Dataflow: Qwik Start - Python | Google Cloud Skills Boost

이 실습에서는 Python 개발 환경을 설정하고, Python용 Cloud Dataflow SDK를 가져오고, Google Cloud Platform Console을 사용하여 예시 파이프라인을 실행합니다.

www.cloudskillsboost.google

 

이번 lab에서는 Python 개발 환경을 조성하고, Cloud Dataflow SCK를 가져와 Cloud Console을 이용하여 예시의 pipeline을 돌려볼 것이다.

 

 

Cloud Storage bucket 하나를 생성한다.

 

python 3.7이 설치되어 있는 Docker container를 실행시킨 후 Apache Beam을 다운받는다.

 

예시로 주어지는 wordcount.py를 그냥도 돌려보고 Dataflow runner와 bucket을 지정해 돌려본다.

 

GCP Dataflow에서 데이터의 흐름을 시각적으로 확인할 수 있고, bucket에서는 output을 확인할 수 있다.

 

 

Apache Beam은 대략적으로 확인해 봤을 때, 데이터 전처리를 더 빠르게 해주는 (아마 병렬처리와 자원 관리를 잘해서?) open-source라 보면 될 것 같다.

 

 

[GCP] Apache Beam 사용하기

대량의 데이터를 전처리하는 건 많은 시간이 소요된다. Cloud 상에서 가용한 자원들을 동적으로 할당해서 좀 더 빠르게 해줄 수 있으면 좋은데, 병렬처리라는 게 또 공부하려면 만만찮아서인지 GC

medium.com

 

댓글