본문 바로가기
Cloud/Google Cloud Study Jam

Dataprep: Qwik Start

by 사향낭 2022. 6. 3.
 

Dataprep: Qwik Start | Google Cloud Skills Boost

Google Cloud Dataprep은 데이터를 시각적으로 탐색하고 정리하여 분석할 수 있도록 준비하는 지능형 데이터 서비스입니다. 짧은 동영상 <A HREF="https://youtu.be/K3K9X9VaThE">Dataprep: Qwik Start - Qwiklabs Preview</A>

www.cloudskillsboost.google

 

 

 

 

Cloud Storage Bucket 만들기

 

Navigation menu -> Cloud Storage -> Browser

 

 

Create bucket

 

 

globally unique 하게 이름을 가지도록 설정해주고 CREATE

 

 

 

 

Cloud Dataprep 시작하기

 

 

Navigation menu -> Dataprep

 

 

Google Dataprep Terms of Service Accept

 

 

Agree and Continue & Allow

 

 

 

Cloud Dataprep에 로그인

 

 

Google 계정 액세스 권한 부여 허용

 

 

Trifacta Terms of Service 승인

 

 

default storage location을 만들기 위해 continue

 

 

 

 

flow 만들기

 

 

Flows -> Create -> Blank Flow

 

 

Rename the untitled flow

 

 

 

Datasets 가져오기

 

 

Add Datasets -> Import Datasets

 

 

Cloud Storage -> Edit path

 

 

'gs://spls/gsp105' 입력 후 Go

 

 

'us-fec/' 폴더 클릭

 

 

'cn-2016.txt' 파일 옆 + 아이콘을 클릭하고 'Candidate Master 2016'로 이름을 바꿔준다.

 

'itcont-2016-orig.txt' 파일도 동일한 과정으로 'Campaign Contributions 2016'으로 이름을 바꿔준다.

 

그 후, Import & Add to Flow 클릭

 

 

 

candidate file 준비

 

 

default로 'Candidate Master 2016' dataset이 선택되어 있다. 오른쪽 Edit Recipe 클릭.

 

 

grid view 형식으로 dataset을 확인할 수 있다.

 

dataset의 각 column의 이름, type과 분포를 확인할 수 있다.

 

 

Column5 그래프에서 가장 긴 막대를 누르자. (값이 2016년인 data들을 선택한다.)

 

오른쪽 패널의 Suggestions에 Keep rows 항목을 Add 해주자.

 

 

column 6의 빨간색 부분을 눌러보자.

 

1,270개의 mismatched values가 있다는 것을 알려준다.

 

type이 state인 반면 값으로 US를 가지는 row들이 있기 때문에 mismatch가 발생했다고 한다.

 

 

이러한 mismatch를 없애주기 위해 column 6의 type을 string으로 바꿔주자.

 

모든 data가 green으로 나타나는 것을 확인할 수 있다.

 

 

column 7에 대해 값이 'P'인 data들만 add하자.

 

 

 

dataset 병합

 

 

Join page에서 현재의 dataset에 다른 dataset을 추가할 수 있다.

 

Candidates file에 Contributions file을 병합하기 전 Contribution file을 수정해주자.

 

 

왼쪽 상단의 FEC-2016 클릭

 

 

Campaign Contributions 2016 파일을 클릭해주고 왼쪽 panel의 Add -> Recipe 클릭 후 Edit Recipe 클릭

 

 

오른쪽 위 Recipe 클릭 -> 오른쪽 panel의 Add New Step 클릭

 

 

'replacepatterns col: * with: '' on: `{start}"|"{end}` global: true' 입력 후 Add

 

 

New Step 클릭 후 'Join' 입력

 

Join datasets 클릭

 

 

Candidate Master 2016 선택 후 Accept

 

 

pencil icon (Edit icon) 클릭

 

 

column2 = column11 선택 후 Save and Continue

 

모든 column들을 선택한 후 Review, Add to Recipe

 

 

 

데이터 요약

 

 

New Step 클릭 후 'pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8' 입력

 

column2, column24, column8의 기준으로 column16의 값들의 합, 평균, 데이터 개수를 확인할 수 있다.

 

Add 클릭

 

 

 

columns 이름 바꾸기

 

 

New Step 클릭 후, 'rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']' 입력

 

Add 클릭

 

 

New Step 클릭, 'set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)' 입력 후 Add

 

댓글