Speech Recognition - Audio Data
Speech Recognition
음성 신호를 문자열으로 바꾸는 task이다.
아무래도 10초간의 음성신호를 1ms마다 sampling을 한다고 했을 때 sequential input 1000개가 생기게 된다.
CTC (Connectionist Temporal Classification) 로 이러한 data를 ttt_h_eee___ [space] ___ qqq ___와 같은 형태로 labeling 해서 사용한다.
Basic rule: collapse repeated characters not separated by blank
Trigger Word Detection
Alexa, hey Siri, Bixby, okay Google 같이 음성으로 software가 반응할 수 있도록 trigger word를 detection하는 task이다.
'Google Machine Learning Bootcamp 2022 > Sequence Models' 카테고리의 다른 글
4. Transformer Network (0) | 2022.08.16 |
---|---|
3. Sequence Models & Attention Mechanism #1 (0) | 2022.08.15 |
2. Natural Language Processing & Word Embeddings #3 (0) | 2022.08.12 |
2. Natural Language Processing & Word Embeddings #2 (0) | 2022.08.12 |
2. Natural Language Processing & Word Embeddings #1 (0) | 2022.08.12 |
댓글