본문 바로가기

Google Machine Learning Bootcamp 202255

[Coursera] Google Cloud Big Data and Machine Learning Fundamentals #1 보호되어 있는 글 입니다. 2022. 8. 24.
[Youtube] Data Warehousing With BigQuery: Best Practices (Cloud Next '19) 현대로 오며 개발 기술이나 과정에 변화가 많이 생겼고, 이러한 변화속에서 필요한 기능들을 BigQuery가 제공하므로 기존의 전통적인 Data Wearhous보다 BigQuery가 더 좋다고 한다. 일례로 scalability가 정말 flexible하고 필요할때만 computing power나 storage를 사용하므로 더 경제적이다. Remote memory shuffle을 하기 때문에 빠르다고 한다. (대충 이해하기로는 query를 여러 stage로 나누어 병렬처리를 하면서 producer가 생산하는 데이터를 여유있는 아무 consumer가 가져가서 사용하는 것 같다. 각 node들의 일처리 속도가 누가 빠를지는 예상하기 어렵기 때문에 1:1 matching보다는 shuffle 하는 것이 더 빠를 것.. 2022. 8. 17.
4. Transformer Network Transformers Transformer Network Intuition Attention + CNN: Self-Attention, Multi-Head Attention Self-Attention \( A(q, K, V) \) = attention-based vector representation of a word = \( \sum_i \frac{ \text{exp} (q*k^{}) }{ \sum_j \text{exp} (q*k^{}) } v^{} \) = \( \text{softmax} (\frac{QK^T}{\sqrt{d_k}}) V \) Multi-Head Attention \( \text{head}_i = \text{Attention} (W_i^Q Q, W_i^K K, W_i^V V) \) f.. 2022. 8. 16.
3. Sequence Models & Attention Mechanism #2 Speech Recognition - Audio Data Speech Recognition 음성 신호를 문자열으로 바꾸는 task이다. 아무래도 10초간의 음성신호를 1ms마다 sampling을 한다고 했을 때 sequential input 1000개가 생기게 된다. CTC (Connectionist Temporal Classification) 로 이러한 data를 ttt_h_eee___ [space] ___ qqq ___와 같은 형태로 labeling 해서 사용한다. Basic rule: collapse repeated characters not separated by blank Trigger Word Detection Alexa, hey Siri, Bixby, okay Google 같이 음성으로 so.. 2022. 8. 15.