Dataprep: Qwik Start

Dataprep: Qwik Start | Google Cloud Skills Boost

Google Cloud Dataprep은 데이터를 시각적으로 탐색하고 정리하여 분석할 수 있도록 준비하는 지능형 데이터 서비스입니다. 짧은 동영상 <A HREF="https://youtu.be/K3K9X9VaThE">Dataprep: Qwik Start - Qwiklabs Preview</A>

www.cloudskillsboost.google

Cloud Storage Bucket 만들기

Navigation menu -> Cloud Storage -> Browser

Create bucket

globally unique 하게 이름을 가지도록 설정해주고 CREATE

Cloud Dataprep 시작하기

Navigation menu -> Dataprep

Google Dataprep Terms of Service Accept

Agree and Continue & Allow

Cloud Dataprep에 로그인

Google 계정 액세스 권한 부여 허용

Trifacta Terms of Service 승인

default storage location을 만들기 위해 continue

flow 만들기

Flows -> Create -> Blank Flow

Rename the untitled flow

Datasets 가져오기

Add Datasets -> Import Datasets

Cloud Storage -> Edit path

'gs://spls/gsp105' 입력 후 Go

'us-fec/' 폴더 클릭

'cn-2016.txt' 파일 옆 + 아이콘을 클릭하고 'Candidate Master 2016'로 이름을 바꿔준다.

'itcont-2016-orig.txt' 파일도 동일한 과정으로 'Campaign Contributions 2016'으로 이름을 바꿔준다.

그 후, Import & Add to Flow 클릭

candidate file 준비

default로 'Candidate Master 2016' dataset이 선택되어 있다. 오른쪽 Edit Recipe 클릭.

grid view 형식으로 dataset을 확인할 수 있다.

dataset의 각 column의 이름, type과 분포를 확인할 수 있다.

Column5 그래프에서 가장 긴 막대를 누르자. (값이 2016년인 data들을 선택한다.)

오른쪽 패널의 Suggestions에 Keep rows 항목을 Add 해주자.

column 6의 빨간색 부분을 눌러보자.

1,270개의 mismatched values가 있다는 것을 알려준다.

type이 state인 반면 값으로 US를 가지는 row들이 있기 때문에 mismatch가 발생했다고 한다.

이러한 mismatch를 없애주기 위해 column 6의 type을 string으로 바꿔주자.

모든 data가 green으로 나타나는 것을 확인할 수 있다.

column 7에 대해 값이 'P'인 data들만 add하자.

dataset 병합

Join page에서 현재의 dataset에 다른 dataset을 추가할 수 있다.

Candidates file에 Contributions file을 병합하기 전 Contribution file을 수정해주자.

왼쪽 상단의 FEC-2016 클릭

Campaign Contributions 2016 파일을 클릭해주고 왼쪽 panel의 Add -> Recipe 클릭 후 Edit Recipe 클릭

오른쪽 위 Recipe 클릭 -> 오른쪽 panel의 Add New Step 클릭

'replacepatterns col: * with: '' on: `{start}"|"{end}` global: true' 입력 후 Add

New Step 클릭 후 'Join' 입력

Join datasets 클릭

Candidate Master 2016 선택 후 Accept

pencil icon (Edit icon) 클릭

column2 = column11 선택 후 Save and Continue

모든 column들을 선택한 후 Review, Add to Recipe

데이터 요약

New Step 클릭 후 'pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8' 입력

column2, column24, column8의 기준으로 column16의 값들의 합, 평균, 데이터 개수를 확인할 수 있다.

Add 클릭

columns 이름 바꾸기

New Step 클릭 후, 'rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']' 입력

Add 클릭

New Step 클릭, 'set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)' 입력 후 Add

저작자표시 (새창열림)

'Cloud > Google Cloud Study Jam' 카테고리의 다른 글

Dataproc: Qwik Start - Command Line (0)	2022.06.17
Dataflow: Qwik Start - Python (0)	2022.06.16
Bayes Classifier on Dataproc (0)	2022.05.08
Speech to Text Transcription with the Cloud Speech API (0)	2022.03.28
Entity and Sentiment Analysis with the Natural Language API (0)	2022.03.28

Life Story

Dataprep: Qwik Start

Cloud Storage Bucket 만들기

Cloud Dataprep 시작하기

flow 만들기

candidate file 준비

dataset 병합

데이터 요약

columns 이름 바꾸기

'Cloud > Google Cloud Study Jam' 카테고리의 다른 글

댓글

티스토리툴바

Dataprep: Qwik Start

Cloud Storage Bucket 만들기

Cloud Dataprep 시작하기

flow 만들기

candidate file 준비

dataset 병합

데이터 요약

columns 이름 바꾸기

'Cloud > Google Cloud Study Jam' 카테고리의 다른 글

관련글

댓글

티스토리툴바