이번 lab에서는 Python 개발 환경을 조성하고, Cloud Dataflow SCK를 가져와 Cloud Console을 이용하여 예시의 pipeline을 돌려볼 것이다.
Cloud Storage bucket 하나를 생성한다.
python 3.7이 설치되어 있는 Docker container를 실행시킨 후 Apache Beam을 다운받는다.
예시로 주어지는 wordcount.py를 그냥도 돌려보고 Dataflow runner와 bucket을 지정해 돌려본다.
GCP Dataflow에서 데이터의 흐름을 시각적으로 확인할 수 있고, bucket에서는 output을 확인할 수 있다.
Apache Beam은 대략적으로 확인해 봤을 때, 데이터 전처리를 더 빠르게 해주는 (아마 병렬처리와 자원 관리를 잘해서?) open-source라 보면 될 것 같다.
'Cloud > Google Cloud Study Jam' 카테고리의 다른 글
Reinforcement Learning: Qwik Start (0) | 2022.06.20 |
---|---|
Dataproc: Qwik Start - Command Line (0) | 2022.06.17 |
Dataprep: Qwik Start (0) | 2022.06.03 |
Bayes Classifier on Dataproc (0) | 2022.05.08 |
Speech to Text Transcription with the Cloud Speech API (0) | 2022.03.28 |
댓글