Cloud Storage Bucket 만들기
Navigation menu -> Cloud Storage -> Browser
Create bucket
globally unique 하게 이름을 가지도록 설정해주고 CREATE
Cloud Dataprep 시작하기
Navigation menu -> Dataprep
Google Dataprep Terms of Service Accept
Agree and Continue & Allow
Cloud Dataprep에 로그인
Google 계정 액세스 권한 부여 허용
Trifacta Terms of Service 승인
default storage location을 만들기 위해 continue
flow 만들기
Flows -> Create -> Blank Flow
Rename the untitled flow
Datasets 가져오기
Add Datasets -> Import Datasets
Cloud Storage -> Edit path
'gs://spls/gsp105' 입력 후 Go
'us-fec/' 폴더 클릭
'cn-2016.txt' 파일 옆 + 아이콘을 클릭하고 'Candidate Master 2016'로 이름을 바꿔준다.
'itcont-2016-orig.txt' 파일도 동일한 과정으로 'Campaign Contributions 2016'으로 이름을 바꿔준다.
그 후, Import & Add to Flow 클릭
candidate file 준비
default로 'Candidate Master 2016' dataset이 선택되어 있다. 오른쪽 Edit Recipe 클릭.
grid view 형식으로 dataset을 확인할 수 있다.
dataset의 각 column의 이름, type과 분포를 확인할 수 있다.
Column5 그래프에서 가장 긴 막대를 누르자. (값이 2016년인 data들을 선택한다.)
오른쪽 패널의 Suggestions에 Keep rows 항목을 Add 해주자.
column 6의 빨간색 부분을 눌러보자.
1,270개의 mismatched values가 있다는 것을 알려준다.
type이 state인 반면 값으로 US를 가지는 row들이 있기 때문에 mismatch가 발생했다고 한다.
이러한 mismatch를 없애주기 위해 column 6의 type을 string으로 바꿔주자.
모든 data가 green으로 나타나는 것을 확인할 수 있다.
column 7에 대해 값이 'P'인 data들만 add하자.
dataset 병합
Join page에서 현재의 dataset에 다른 dataset을 추가할 수 있다.
Candidates file에 Contributions file을 병합하기 전 Contribution file을 수정해주자.
왼쪽 상단의 FEC-2016 클릭
Campaign Contributions 2016 파일을 클릭해주고 왼쪽 panel의 Add -> Recipe 클릭 후 Edit Recipe 클릭
오른쪽 위 Recipe 클릭 -> 오른쪽 panel의 Add New Step 클릭
'replacepatterns col: * with: '' on: `{start}"|"{end}` global: true' 입력 후 Add
New Step 클릭 후 'Join' 입력
Join datasets 클릭
Candidate Master 2016 선택 후 Accept
pencil icon (Edit icon) 클릭
column2 = column11 선택 후 Save and Continue
모든 column들을 선택한 후 Review, Add to Recipe
데이터 요약
New Step 클릭 후 'pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8' 입력
column2, column24, column8의 기준으로 column16의 값들의 합, 평균, 데이터 개수를 확인할 수 있다.
Add 클릭
columns 이름 바꾸기
New Step 클릭 후, 'rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']' 입력
Add 클릭
New Step 클릭, 'set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)' 입력 후 Add
'Cloud > Google Cloud Study Jam' 카테고리의 다른 글
Dataproc: Qwik Start - Command Line (0) | 2022.06.17 |
---|---|
Dataflow: Qwik Start - Python (0) | 2022.06.16 |
Bayes Classifier on Dataproc (0) | 2022.05.08 |
Speech to Text Transcription with the Cloud Speech API (0) | 2022.03.28 |
Entity and Sentiment Analysis with the Natural Language API (0) | 2022.03.28 |
댓글