본문 바로가기
Cloud/Google Cloud Study Jam

Google Cloud Speech API: Qwik Start

by 사향낭 2022. 3. 28.
 

Google Cloud Speech API: Qwik Start | Google Cloud Skills Boost

Google Cloud Speech API는 음식 인식을 개발자의 앱에 통합합니다. 이제 오디오 파일을 전송하고 변환된 텍스트를 받을 수 있습니다. 간단한 동영상 <A HREF="https://youtu.be/k9xLdXNriEo">Powerful Speech Recognition

www.cloudskillsboost.google

 

Google Cloud Speech API를 이용하여 음성을 text로 변환하는 실습을 해볼 것이다.

 

과정은 간단하다. API 키를 만들고, Speech API request를 보낼 것이다.

 

 

 

 

 

Navigation menu -> APIs & Services -> Credentials

 

 

 

CREATE CREDENTIALS -> API key

 

key를 복사하고 close

 

 

Navigation menu -> Compute Engine

 

 

 

이미 생성되어 있는 vm instance에 ssh를 눌러 접속

 

 

 

터미널에 환경 변수 설정

 

export API_KEY=<YOUR_API_KEY>

 

 

request.json 파일을 만들고 열어 다음과 같이 입력해서 저장해준다.

 

touch request.json
vim request.json
{
  "config": {
      "encoding":"FLAC",
      "languageCode": "en-US"
  },
  "audio": {
      "uri":"gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}

 

 

다음 명령어를 터미널에 입력하여 request를 보내보자.

 

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

 

 

ouput

 

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.9828748
        }
      ],
      "resultEndTime": "1.770s",
      "languageCode": "en-us"
    }
  ],
  "totalBilledTime": "15s"
}

 

여기서 transcript 항목은 음성을 텍스트로 변환한 것이고, confidence는 accuray이다.

 

이번에는 파일을 통째로 보냈지만 syncrecognize method를 통해 실시간으로 음성을 텍스트로 변환할 수 있다.

 

 

다음 명령어로 결과를 result.json에 저장하자.

 

curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

 

 

댓글