본문 바로가기
Google Machine Learning Bootcamp 2022/Professional Data Engineer

[Youtube] Data Warehousing With BigQuery: Best Practices (Cloud Next '19)

by 사향낭 2022. 8. 17.

 

현대로 오며 개발 기술이나 과정에 변화가 많이 생겼고, 이러한 변화속에서 필요한 기능들을 BigQuery가 제공하므로 기존의 전통적인 Data Wearhous보다 BigQuery가 더 좋다고 한다.

 

일례로 scalability가 정말 flexible하고 필요할때만 computing power나 storage를 사용하므로 더 경제적이다.

 

Remote memory shuffle을 하기 때문에 빠르다고 한다.

(대충 이해하기로는 query를 여러 stage로 나누어 병렬처리를 하면서 producer가 생산하는 데이터를 여유있는 아무 consumer가 가져가서 사용하는 것 같다. 각 node들의 일처리 속도가 누가 빠를지는 예상하기 어렵기 때문에 1:1 matching보다는 shuffle 하는 것이 더 빠를 것이라는 기대를 할 수 있다. producer 입장에서도 생산한 데이터를 consumer가 받을 때까지 기다리기보다 그냥 shuffle에 던지면 된다.)

 

 

In-memory query execution in Google BigQuery | Google Cloud Blog

We discuss how Google BigQuery’s in-memory query execution engine redistributes data, allowing for performant execution of large and complex queries.

cloud.google.com

 

전통적인 DW와는 다르게 많은 데이터가 들어와도 다 소화해낼 수 있다.

 

Data block 단위로 다른 encryption key로 암호화되어 안전하다.

(물리적으로 disk를 빼내도 데이터를 못 얻어낸다.

 

지리적으로 다양한 지역에 데이터가 저장되어 있기 때문에 위치에 따른 데이터 접근도 문제가 아니다.

 

유저에게 query에 대한 결과를 제공함과 동시에 data에 변형을 가할 수 있다.

(load가 다 끝나고 유저에게 그 결과를 적용)

 

real-time streaming api를 제공한다.

 

 

practice 부분은 경험이 좀 생긴 후에 봐야겠다.

댓글