본문 바로가기
Google Machine Learning Bootcamp 2022/Sequence Models

3. Sequence Models & Attention Mechanism #2

by 사향낭 2022. 8. 15.

Speech Recognition - Audio Data

 

 

 

Speech Recognition

 

음성 신호를 문자열으로 바꾸는 task이다.

 

아무래도 10초간의 음성신호를 1ms마다 sampling을 한다고 했을 때 sequential input 1000개가 생기게 된다.

 

CTC (Connectionist Temporal Classification) 로 이러한 data를 ttt_h_eee___ [space] ___ qqq ___와 같은 형태로 labeling 해서  사용한다. 

 

Basic rule: collapse repeated characters not separated by blank

 

 

Trigger Word Detection

 

Alexa, hey Siri, Bixby, okay Google 같이 음성으로 software가 반응할 수 있도록 trigger word를 detection하는 task이다.

 

 

댓글