이번 lab은 두 파트로 나누어져있다.
첫 번째 파트에서는 BigQuery console을 이용해 기본적인 SQL keywords를 배울 것이다.
두 번째 파트에서는 Cloud SQL을 이용하여 database와 table을 만들고 관리하고 조작하는 방법을 배울 것이다.
SQL은 구조화된 database를 관리하는 툴이다.
keyword들로 SQL query가 구성될 수 있는데 아래는 대표적인 keyword들이다.
- SELECT: 가져올 특정한 field를 결정한다.
- FROM: 어떤 table에서 데이터를 가져올 것인지를 결정한다.
- WHERE: table에서 특정한 column value를 가지고 있는 데이터들만 가져온다.
- GROUP BY: 같은 기준을 공유하는 row들 중 모든 유일한 entries를 가져온다.
- COUNT: 같은 기준를 공유하는 row의 개수를 가져온다.
- AS: table이나 column의 alias를 만든다.
- ORDER BY: 특정한 기준이나 column value에 따라 데이터를 오름차순, 내림차순으로 정렬한다.
BigQuery는 Google Cloud에서 돌아가는 완전관리형, petabye-scale data 창고이다.
이러한 BigQuery를 이용하여 server를 세팅하고 관리할 필요 없이 빠르게 원하는 대용량의 데이터를 가져올 수 있다.
이 파트에서는 그냥 공공 database를 가지고 와서 SQL query로 data를 뽑아내었다.
Cloud SQL은 cloud 안에서 relational PostgreSQL이나 MySQL database를 쉽게 세팅, 유지, 관리, 운영할 수 있도록 하는 완전관리형 database 서비스이다.
dump 파일(.sql)이나 CSV 파일(.csv)만 database에 넣는 것이 허용된다.
cloud bucket을 하나 만들어 CSV 파일 두 개를 올린다.
그리고 SQL에서 instance 하나를 만들어(MySQL 같은 DBMS를 선택해야함) database를 생성하고 조작할 수 있다.
(CREATE DATABASE, CREATE TABLE, DELETE, INSERT INTO 등등)
(BigQuery에서처럼 원하는 data를 가져올 수도 있다.)
table에 가져온 CSV 파일에 있는 data를 넣을 수도 있다.
'Cloud > Google Cloud Study Jam' 카테고리의 다른 글
Loading Data into Google Cloud SQL (0) | 2022.06.20 |
---|---|
Ingesting Data Into The Cloud (0) | 2022.06.20 |
Reinforcement Learning: Qwik Start (0) | 2022.06.20 |
Dataproc: Qwik Start - Command Line (0) | 2022.06.17 |
Dataflow: Qwik Start - Python (0) | 2022.06.16 |
댓글