구글 음성 인식 원리 | 구글은 우리를 도청 하고있다? / 실제 테스트 후기 108 개의 베스트 답변

당신은 주제를 찾고 있습니까 “구글 음성 인식 원리 – 구글은 우리를 도청 하고있다? / 실제 테스트 후기“? 다음 카테고리의 웹사이트 you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: you.maxfit.vn/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 미지수 알수있는이야기 이(가) 작성한 기사에는 조회수 56,677회 및 좋아요 388개 개의 좋아요가 있습니다.

Google 시스템에서 수신 오디오 샘플을 텍스트로 변환하면 이러한 샘플은 단기 메모리(RAM)로 전송됩니다. 데이터가 RAM에 있는 동안 학습 알고리즘은 이러한 오디오 데이터 샘플을 실시간으로 학습합니다. 이러한 오디오 데이터 샘플은 몇 분 내로 단기 메모리에서 삭제됩니다.

구글 음성 인식 원리 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 구글은 우리를 도청 하고있다? / 실제 테스트 후기 – 구글 음성 인식 원리 주제에 대한 세부정보를 참조하세요

안녕하세요 알 수 있는 이야기 미지수 입니다.
이번엔 구글은 우리를 도청하고있는가 에 대한 이야기를 해드렸는데요?
다음영상은 틱톡에 관한 이야기를 해보려고 합니다
커뮤니티 결과상 다다음 영상은 좀 공포 영상으로 찾아 뵙겠습니다!
다들 새해복 많이 받으시구 건강하세요!
#구글
#도청

구글 음성 인식 원리 주제에 대한 자세한 내용은 여기를 참조하세요.

‘AI 왕국’ 구글 “음성인식, 정말 정확해졌다” – 지디넷코리아

이처럼 음성인식 기술의 정확도가 높아진 것은 딥러닝 기술을 활용한 덕분이라고 구글 측이 강조했다. 딥러닝은 수많은 데이터를 수집한 뒤 신경망을 훈련 …

+ 여기를 클릭

Source: zdnet.co.kr

Date Published: 3/11/2022

View: 160

음성인식 기술의 한계와 가능성_국경과 언어를 넘는 소통의 …

강력한 검색엔진과 방대한 사용자 데이터를 확보한 구글은 2012년 구글 나우(Google Now)를 출시했으며 2015년 공개한 AI 음성 비서 구글 어시스턴트와 …

+ 더 읽기

Source: news.samsungdisplay.com

Date Published: 8/14/2021

View: 9591

자세히 알아보기: 음성 인식(Speech Recognition) – Google

이러한 시스템은 음성 인식 받아쓰기 소프트웨어는 물론 번역 도구와 음성 인식 스마트 스피커의 근간을 이루는 핵심 기술이라고 할 수 있습니다. 기계는 음성을 인식 …

+ 자세한 내용은 여기를 클릭하십시오

Source: atozofai.withgoogle.com

Date Published: 2/8/2022

View: 3204

Speech-to-Text: 자동 음성 인식

최고의 Google AI 연구 및 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다. 신규 고객에게는 Speech-to-Text에 사용할 수 있는 $300의 무료 …

+ 여기에 표시

Source: cloud.google.com

Date Published: 5/18/2021

View: 9049

스마트폰에서의 음성 처리 앱 기술 – Korea Science

음성인식 기술. 3. 모바일 음성인식 활용 사례. 4. 결론 및 향후 전망. 출처: www.youtube.com. (그림 1) 구글 음성검색 사례. 1. 서 론. 구글 한국어 음성검색을 활용 …

+ 더 읽기

Source: www.koreascience.or.kr

Date Published: 1/27/2022

View: 8234

‘구글 어시스턴트 임원이 전하는’ 음성 기술에 대한 5가지 통찰

구글의 어시스턴트 역시 그런 음성 인식 서비스 중에 하나다. 구글의 엔지니어링 부사장인 스콧 허프먼이 구글 어시스턴트를 운영하며 경험한, 개발자와 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.ciokorea.com

Date Published: 7/12/2021

View: 2603

구글이 직접 지원하는 ‘음성 AI’ 12개 스타트업 < 리스티클 ...

구글이 처음 실시하는 ‘음성 인공지능(AI)’ 스타트업 엑셀러레이팅 프로그램 대상 … 미국 스타트업 비스포큰은 ‘음성 인식 기술’ 성능을 검증하는 …

+ 여기에 표시

Source: www.aitimes.com

Date Published: 3/14/2021

View: 3745

주제와 관련된 이미지 구글 음성 인식 원리

주제와 관련된 더 많은 사진을 참조하십시오 구글은 우리를 도청 하고있다? / 실제 테스트 후기. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

구글은 우리를 도청 하고있다? / 실제 테스트 후기
구글은 우리를 도청 하고있다? / 실제 테스트 후기

주제에 대한 기사 평가 구글 음성 인식 원리

  • Author: 미지수 알수있는이야기
  • Views: 조회수 56,677회
  • Likes: 좋아요 388개
  • Date Published: 2021. 2. 22.
  • Video Url link: https://www.youtube.com/watch?v=grE8U-dUPOo

Google의 음성 모델 개선 방식 알아보기

많은 Google 제품에는 음성 인식이 사용됩니다. 예를 들어 Google 어시스턴트를 사용하여 음성으로 도움을 요청하고, Gboard를 통해 친구에게 보낼 메시지를 음성으로 입력하며, Google Meet에서는 회의의 대화 내용을 자막으로 자동 생성할 수 있습니다.

음성 기술은 더 정확하고 빠른 음성 인식 모델을 빌드하는 데 도움이 되는 머신러닝 유형인 심층신경망에 갈수록 더 의존하고 있습니다. 일반적으로 심층신경망이 제대로 작동하고 시간이 지남에 따라 개선되려면 대량의 데이터가 필요합니다. 이러한 개선 프로세스를 모델 학습이라고 합니다.

음성 모델을 학습시키는 데 사용하는 기술

Google의 음성팀은 기존 학습, 제휴 학습, 임시 학습 등 크게 3가지로 분류되는 기술로 음성 모델을 학습시킵니다. 작업 및 상황에 따라 그중 일부는 다른 것보다 더 효과적이며, 어떤 경우에는 이들을 조합해서 사용합니다. 이를 통해 개인 정보 보호 중심 설계를 제공하는 동시에 최고 수준의 품질을 달성할 수 있습니다.

기존 학습 방식은 대부분의 음성 모델 학습 방식을 가리킵니다. 기존 학습이 음성 모델을 학습시키는 방식 명시적 동의가 있으면 오디오 샘플이 수집되어 Google 서버에 저장됩니다. 이러한 오디오 샘플의 일부는 검토자가 주석을 추가합니다. 학습 알고리즘은 주석 처리된 오디오 데이터 샘플로 학습합니다. 지도 학습: 모델은 동일한 오디오에 관한 검토자의 주석을 모방하도록 학습됩니다.

모델은 동일한 오디오에 관한 검토자의 주석을 모방하도록 학습됩니다. 비지도 학습: 사람의 주석 대신 기계 주석이 사용됩니다. 같은 양의 데이터로 학습할 경우 지도 학습의 주석 품질이 우수할 때가 많으므로 비지도 학습보다 지도 학습에서 음성 인식 모델 결과가 더 좋게 나옵니다. 반면 비지도 학습은 더 쉽게 만들 수 있는 기계 주석으로 학습하므로 더 많은 오디오 샘플을 학습할 수 있습니다. 데이터를 비공개로 유지하는 방법 Google에서 데이터를 비공개로 유지하는 방법 자세히 알아보기

제휴 학습은 휴대전화 또는 기타 기기에서 직접 AI 모델을 학습시키기 위해 Google에서 개발한 개인 정보 보호 기법입니다. 기기에서 음성 모델이 실행되며 모델이 학습할 데이터가 있으면 Google은 제휴 학습을 사용하여 음성 모델을 학습시킵니다. 제휴 학습이 음성 모델을 학습시키는 방식 제휴 학습은 오디오 데이터를 Google 서버로 전송하지 않고 음성 모델을 학습시킵니다. 제휴 학습을 사용 설정하기 위해 Google은 오디오 데이터를 기기에 저장합니다. 학습 알고리즘은 기기에서 이 데이터를 학습합니다. 기기에서 집계된 학습 데이터와 다른 모든 참여 기기에서 학습한 결과를 조합하여 새로운 음성 모델을 구성합니다. 데이터를 비공개로 유지하는 방법 Google 어시스턴트를 개선할 때 사용되는 음성 및 오디오 데이터를 비공개로 유지하는 방법 알아보기

임시 학습이 음성 모델을 학습시키는 방식 Google 시스템에서 수신 오디오 샘플을 텍스트로 변환하면 이러한 샘플은 단기 메모리(RAM)로 전송됩니다. 데이터가 RAM에 있는 동안 학습 알고리즘은 이러한 오디오 데이터 샘플을 실시간으로 학습합니다. 이러한 오디오 데이터 샘플은 몇 분 내로 단기 메모리에서 삭제됩니다. 데이터를 비공개로 유지하는 방법 임시 학습은 Google 서버에서 음성 모델을 실행할 때 사용하는 개인 정보 보호 기법입니다. 임시 학습의 경우 오디오 데이터 샘플은 다음과 같이 처리됩니다. 단기 메모리(RAM)에서만 몇 분 동안 보관됩니다.

사람이 액세스할 수 없습니다.

서버에 절대 저장되지 않습니다.

사용자를 식별할 수 있는 추가 데이터 없이 모델을 학습시키는 데 사용됩니다.

Google이 이러한 기술을 사용하고 투자하는 방식

Google은 3가지 기술을 모두 계속 사용하고 더 높은 품질을 위해 여러 기술을 결합하기도 할 예정입니다. 또한 음성 기술의 제휴 학습과 임시 학습을 모두 개선하기 위해 적극적으로 노력하고 있습니다. Google의 목표는 이를 더 효과적이고 유용하게 만들며 기본적으로 개인 정보를 보호하는 방식으로 유지하는 것입니다.

음성인식 기술의 한계와 가능성_국경과 언어를 넘는 소통의 단초가 되다

“열려라, 참깨!”

‘알리바바와 40인의 도둑들’의 주문을 기억하시나요? 음성 명령어의 원형이라고 할 만한 이 장면은 오랜 시간 후에 실제로 구현되었습니다. 1952년 미국 벨 연구소(Bell Labs)가 최초로 개발한 오드리(Audrey)는 음성인식 서비스의 효시로, 그 후 비약적인 발전을 거듭해 왔는데요. 오늘날 일상적으로 사용하는 음성 키오스크 주문기, 시리와 인공지능 스피커, 내비게이션 등 음성인식 기술은 인간과 기계를 잇는 일상적 가교로 작용하고 있습니다. 음성인식 기술은 인간의 편리한 삶을 가능하게 해주지만, 언어별로 적용 가능한 범위가 크게 다른 양극화 현상이 존재합니다. 국내외 플레이어 동향과 기술의 발전상, 향후 해결 과제를 한 번 알아볼까요?

글. MIT Technology Review 편집팀

기술과 서비스의 각축장, 음성인식 시장의 확장

최근 코로나 팬데믹 기간을 거치면서 음성 기술의 중요성이 훨씬 더 커졌습니다. 매거진 <음성 기술> 최신호에 따르면 음성인식 시장의 규모는 2025년까지 268억 달러(약 31조 7,000억 원)에 달할 것으로 전망하고 있으며 향후 발전 가능성 또한 높습니다.

국내는 주요 가전업체와 통신사, 플랫폼 기업이 시장을 주도하고 있는데요. 주요 기기와 서비스로는 ▲삼성 ‘빅스비’ ▲LG ‘Q보이스’ ▲SK텔레콤 ‘누구’ ▲KT ‘기가지니’ ▲네이버 ‘클로바’ ▲카카오 ‘카카오’ 등이 있습니다. 국내 음성 AI 플랫폼은 한국어에 특화된 음성 인식∙합성 성능과 IPTV 셋톱박스 기능, 검색, 팟캐스트나 음악 스트리밍 등 국내 인터넷∙모바일 서비스와의 연동을 강조하고 있습니다.

반면 글로벌 음성 AI 시장에 빠르게 진입한 기업은 대부분 자이언트 테크 기업인데요. 가장 먼저 출시된 플랫폼이 애플의 ‘시리’입니다. 애플은 2011년 아이폰4S에 시리를 탑재하면서 음성 AI 시장경쟁의 신호탄을 쏘아 올렸고, 이어 아마존이 2014년 스마트스피커 에코(Echo)와 사용자의 음성을 분석해 명령을 수행하는 플랫폼 ‘알렉사’를 선보였습니다.

강력한 검색엔진과 방대한 사용자 데이터를 확보한 구글은 2012년 구글 나우(Google Now)를 출시했으며 2015년 공개한 AI 음성 비서 구글 어시스턴트와 통합 중입니다. 이어 무서운 성장세를 보이는 바이두가 2017년 ‘두어’ 플랫폼을 출시하며 새롭게 경쟁에 뛰어들었습니다. 이처럼 음성인식 시장은 빅 테크 기업들의 기술력과 다양한 플랫폼 서비스가 함께 경쟁하며 점점 더 시장이 확장되고 있는 추세입니다.

▲ 음성 AI 시장의 주요 플레이어들

음성인식 기술이 작동하는 방식

현재 우리나라는 네이버와 카카오엔터프라이즈를 필두로 음성인식 기술 발전에 박차를 가하고 있습니다. 네이버의 경우 파라미터(매개변수)가 2040억개인 초거대 AI ‘하이퍼클로바’를 개발해 자사 서비스에 적용하고 있습니다(조성준, “디지털 혁신 가져올 ‘AI’…딥러닝의 시대가 온다”, 매일일보, 2022, 06.26). 카카오의 경우 지난 1월부터 AI 기업용 음성 인식-변환 모델 ‘커스텀 STT(Custom Speech-to-Text)’를 공개했습니다(김미정, “카카오엔터프라이즈, 기업용 AI음성 인식-변환 모델 ‘커스텀STT’공개, 2022, 01.25).

해당 기업이 직접 단어와 패턴을 추가하면, 가장 적합한 AI 모델을 빠른 시간 내 자동으로 만들어주는 시스템으로, 정확도는 물론 시간과 비용을 대폭 절감할 수 있게 된 것이죠. 이처럼 한국 음성 AI의 경우, 한국어 특성상 단어가 아닌 형태소(의미를 가진 최소한의 단위) 단위로 인식이 이뤄지는데요. 말의 어미 등이 변하더라도 그 뜻을 잘 인식할 수 있도록 개발 중입니다. 업계에서는 연산 처리 속도와 정확도를 높여 방언 등 비정형 자연어를 효과적으로 인식하기 위한 딥러닝 기술을 활발하게 연구하고 있습니다.

그런데 음성 인식 기술로 작동되는 기계들은 사람처럼 우리의 말을 듣고 이해해 대답하는 것이 아니라 완전히 다른 과정으로 진행되는데요. 시리나 빅스비 등 가상 비서들은 딥러닝 기반의 자연어 처리(NLP) 기술을 통해 사람의 언어를 이해합니다. 수많은 자연어 데이터를 처리하고 분석하기 위해 복잡한 과정을 거치기 마련인데요.

a. 음성 입력: 호출어와 함께 스마트폰의 가상 비서나 AI 스피커에 명령어 입력

b. 음성 인식: 기계는 STT (speech-to-text) 기술을 통해 사용자의 음성을 텍스트로 변환

c. 자연어 처리 (Natural Language Prosessing): 기계는 NLP 기술을 통해 데이터 분석 및 이해

d. 인식 결과: TTS (text-to-speech) 기술로 처리한 텍스트를 오디오로 변환

e. 출력: 변환된 오디오를 사용자에 송출

이 과정은 비교적 간단해 보이지만, 기계의 입장에서 인간의 언어는 이해하기 매우 어려운 영역입니다. 기계가 인간의 언어를 이해하기 위해서는 컴퓨터공학, 인공지능, 언어학 등이 복합적으로 작용하기 때문에 NLP(자연어 처리) 기술은 매우 복잡하고 정교합니다. 그렇기 때문에 앞으로 AI 음성 기술의 발전에 귀추를 주목해야 하는 것입니다.

눈부시게 발전한 자연어 처리 기술 및 서비스

▲ 출처: 유튜브

현재 음성인식 기술 분야에서 가장 주목받고 있는 플레이어는 누구일까요? 바로 메타플랫폼(이하 메타)에서 내놓은 AI 자기학습 알고리즘 ‘데이터-투-백(Data2vec)’입니다. 세계 최초로 음성은 물론 이미지, 텍스트를 동시에 처리할 수 있는 자기학습(self-supervised) 인공지능(AI) 알고리즘이기 때문인데요. 메타 AI의 이 모델은 음성, 이미지, 텍스트 등의 각 분야에서만 성능을 낼 수밖에 없었던 기존 모델 방식의 패러다임을 완전히 바꿨습니다. 주변을 관찰하면서 사람처럼 학습하는 인공지능이 목전으로 다가온 것입니다! 이 알고리즘은 자기학습으로 훈련하기 때문에 복잡한 문제를 스스로 해결할 수 있는 음성인식 기반 기술로 진화하고 있습니다.

▲ 메타플랫폼이 음성을 인식하는 기술 (출처: 메타AI 홈페이지)

구글이 출시한 서비스도 이용자 의도를 보다 잘 이해하는 방향으로 진화하고 있습니다. AI 음성비서 서비스 ‘구글어시스턴트’는 인간의 언어습관을 섬세하게 인식할 수 있도록 업데이트됐는데요. 구글은 이용자의 ‘시선’을 인식해 별도의 명령어 없이도 구글 어시스턴트를 실행하는 ‘룩 앤 톡(Look and Talk)’ 서비스를 제공합니다. 이는 구글이 카메라를 통해 100개 이상의 시선 신호를 분석하는 기술을 어시스턴트에 녹여낸 결과인데요. 한 마디로 ‘눈짓’만으로 명령을 실행할 수 있게 된 셈입니다. 이를 통해 AI비서와 이용자 간 보다 유연하고 자연스러운 대화가 가능해지게 됐으며 대화에서 발생하는 ‘머뭇거림’을 인식하고, 때로는 명령을 기다려줄 수 있는 ‘스피치 모드(Speech modes)’도 장착했습니다.

인공지능은 언어의 장벽을 넘을 수 있을까

하지만 음성인식 AI가 어려움을 겪는 영역은 따로 있습니다. 각 나라마다 사용하는 각기 다른 언어를 인식하는 문제입니다. 특히 모로코어, 알제리어, 이집트어, 수단어 등 아랍어의 다양한 방언을 사용하는 사람들은 이러한 음성인식 기술의 혜택에서 가장 멀리 떨어져 있습니다. 30개에 달하는 아랍어 방언은 지역마다 세분화되어 발전했고, 어떤 방언들은 이미 서로 이해할 수 없을 정도로 달라져 있기 때문입니다. 여기에 핀란드어, 몽골어, 나바호어 등 형태학적으로 매우 복잡한 언어를 모국어로 하는 사람들 역시 이러한 기술 발전에서 소외되고 있는 실정입니다.

기계 번역(Machine Translation) 시스템은 빠르게 개선되고 있지만, 여전히 많은 양의 텍스트 데이터로부터 학습하는 것에 크게 의존하고 있기 때문에, 일반적으로 저자원 언어, 즉 학습 데이터가 부족한 언어에는 제대로 작동하지 않습니다. 앱이나 웹에서 일상적인 번역이 제공되는 언어는 우리말, 영어, 중국어 또는 스페인어 등에 불과합니다. 여전히 대부분의 사람들은 모국어로 세계와 소통할 수 없는 현실입니다.

▲ 출처: 유튜브

사실 우리는 한국어를 사용하고 있는 덕분에 엄청난 기술의 진보를 누리고 있습니다. 현재까지 대부분의 음성인식 도구들이 영어를 비롯한 소수의 몇 개 언어에 국한되어 있기 때문인데요. 모쪼록 음성인식 기술이 더욱 발전해, 국경과 언어의 장벽을 허물 수 있는 날이 빨리 오기를 바랍니다.

자세히 알아보기: 음성 인식(Speech Recognition)

AI의 모든 것 : A에서 Z까지

음성 인식

AI가 인간의 말을 이해할 수 있도록 돕는 기술.

음성 인식 시스템은 인간이 말하는 것을 인식하도록 훈련되었습니다.

이러한 시스템은 음성 인식 받아쓰기 소프트웨어는 물론 번역 도구와 음성 인식 스마트 스피커의 근간을 이루는 핵심 기술이라고 할 수 있습니다.

기계는 음성을 인식할 수는 있지만 인간이 말을 이해하는 방식으로 이해한다고 할 수는 없습니다.

인간은 문맥에 맞지 않거나 뒤죽박죽 말한 문장도 이해할 수 있지만 기계는 그렇지 않습니다.

‘자연어 처리’는 음성 인식 분야의 최근 업적으로, AI가 문법 규칙을 따르고 실제 음성을 분석해 사람들의 복잡한 발화 방식을 더욱더 잘 이해할 수 있도록 합니다. 이를 통해 AI 시스템은 어조나 유머와 같은 요소가 문장의 의미를 어떻게 바꿀 수 있는지를 파악할 수 있습니다.

이러한 음성 인식 기술은 우리가 말하는 것을 글자 그대로가 아니라 그 안에 내포된 실제 의미를 이해할 수 있도록 꾸준한 진화를 거듭하고 있습니다. AI 설계팀이 시스템에 더 다양한 뉘앙스를 학습시키는 방법을 지속적으로 모색하고 있기에, 사람들은 AI와 그 어느 때보다 매끄럽고 자연스럽게 상호작용하고 있습니다.

Speech-to-Text: 자동 음성 인식

전 세계의 다양한 어휘 지원 125개가 넘는 언어 및 방언 을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다.

스트리밍 음성 인식 API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.

음성 적응 음성 인식 맞춤설정을 통해 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어의 스크립트를 작성하고 특정 단어 또는 어구의 스크립트 작성 정확도를 향상 시킬 수 있습니다. 클래스 를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.

Speech-to-Text On-Prem 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스 로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의 하세요.

멀티 채널 인식 Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다.

강력한 소음 인식 기능 Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리할 수 있습니다.

분야별 모델 분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 스크립트 작성에 맞게 학습 모델 옵션 을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.

콘텐츠 필터링 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다.

스크립트 작성 평가 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다.

자동 구두점(베타) Speech-to-Text는 스크립트 작성 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다.

구글이 직접 지원하는 ‘음성 AI’ 12개 스타트업

(사진=셔터스톡)

구글이 처음 실시하는 ‘음성 인공지능(AI)’ 스타트업 엑셀러레이팅 프로그램 대상 업체 선정을 완료했다.

22일(현지시간) 구글은 구글개발자(Google Developers) 블로그를 통해’스타트업 엑설레이터를 위한 구글: 음성 AI(Google for Startups Accelerator: Voice AI)’ 프로그램 12개 스타트업을 선정했다고 밝히며 해당 기업에 대한 간략한 소개를 전했다.

지난해 12월 구글은 북미 지역에 음성기반 AI 기술을 개발하는 유망 스타트업을 선정해 10주에 걸쳐 멘토링·기술 지원 엑설레이팅 프로그램을 진행한다고 예고한 바 있다.

선정된 기업은 모두 시리즈 A펀딩 이하 신생 스타트업으로, 음성 기반 사용자 인터페이스를 활용해 교육·의료 등 서비스를 개발한다.

이번 엑셀러레이팅 프로그램에는 4개 캐나다 스타트업과 8개 미국 스타트업이 선정됐다.

◆바블리(Babbly)

(사진=바블리 홈페이지)

캐나다 토론토에 기반을 둔 바블리는 영유아 언어 발달 과정을 분석하는 AI 서비스를 제공한다. 자녀가 옹알이하거나 말하는 영상을 스마트폰 앱에 업로드하면 사용 어휘 수, 언어발달 추이 등 데이터를 확인할 수 있다.

소아과의사, 아동 언어 병리학자 등 전문가가 데이터를 기반으로 자녀 언어 발달에 필요한 조언도 해준다.

◆비스포큰(Bespoken)

미국 스타트업 비스포큰은 ‘음성 인식 기술’ 성능을 검증하는 ‘테스트’ 로봇을 제작한다.

자동차, 홈IoT 등 음성 인식 기술을 탑재한 서비스가 늘어나며, 해당 성능 검증에 대한 수요가 늘어남에 따라 비스포큰이 주목받을 것으로 전망된다.

비스포큰은 스피커와 마이크를 탑재했다. 아날로그 오디오를 직접 출력한 뒤 검증 대상인 음성 서비스 장치가 제대로 대답하는지 확인하는 식으로 작동한다. 사람이 마이크를 사용하기 전 ‘하나, 둘’ 하고 음성 테스트를 하듯 음성 인식 기술이 잘 작동하는지 확인하는 것과 같다.

◆컨버세이셔널 헬스(Conversational HEALTH)

(사진=컨버세이셔널헬스 홈페이지)

캐나다 스타트업 컨버세이셔널 헬스는 임상 시험, 의료 분야에서 환자와 의료 전문가를 이어주는 대화형 AI 챗봇을 제작한다.

환자가 약을 언제, 얼마큼 복용해야하는지 질문하면 AI 알고리즘이 답변해주는 식이다. 환자와 의료진 사이 접근성을 높여준다.

◆네들(Nēdl)

미국 캘리포니아주 스타트업 네들은 라이브 오디오 플랫폼 서비스를 제공한다. 최근 화제가 된 오디오 챗 애플리케이션 클럽하우스와 비슷하다.

‘드롭 인(Drop-In)’ 기능을 통해 대화에 여러 사람을 초대할 수 있다. 대화에 관심 있는 이들이 청취자로 참여도 가능하다. 나만의 ‘라디오 방송국’을 꾸려 사람들과 소통하는 셈이다.

◆오티오.AI(OTO.AI)

미국 뉴욕에 있는 스타트업 오티오.AI는 음성 속 ‘감정’을 분석해낸다. 오티오.AI가 개발한 AI 프로그램 딥톤(DeepTone)으로 목소리에서 웃음, 짜증, 피곤함 등 감정을 포착한다.

딥톤을 이용해 전화 상담원은 고객 감정을 파악할 수 있다. 상담원이 전화 응대 시 더 적절한 반응을 취할 수 있게 된다.

녹취 파일을 그동안 단순 문장으로만 기록하던 것을 넘어 억양과 뉘앙스 등 감정적 요소도 함께 기록할 수 있게 된다. 보건의료, 로봇 공학, 콜센터 등 분야에 폭넓게 이용될 것으로 전망된다.

◆피플(Piffle)

(사진=피플 홈페이지)

미국 캘리포니아 스타트업 피플은 대화형 게임을 통해 건강한 환경 업무문화와 직장을 만드는 것을 추구한다.

음성 언어 조력자와 함께 현장인터뷰, 소셜댄스(출시예정), 창업가(출시예정) 다양한 옵션을 골라 게임할 수 있는 음성 게임 플랫폼이다.

◆포와우 AI(Powow AI)

포와우 AI는 자동 회의록 생성 사스 서비스(SaaS·Service As A Software)를 제공한다. 사스는 서비스형 소프트웨어로, 소프트웨어를 이용하기 위해 따로 다운로드 받을 필요없이 클라우드를 통해 제공하는 형태를 뜻한다.

줌, 행아웃, 팀즈 등 온라인 미팅 시 포와우 AI를 ‘초대’해 이용 가능하다. 온라인 미팅 플랫폼 회의 일정에 아이디 ‘[email protected]’를 초대한다.

회의에 참여한 AI 소프트웨어가 대화 내용을 바탕으로 회의록을 작성해 제공한다.

◆심비(SiMBi)

(사진=심비 홈페이지)

심비는 캐나다 벤쿠버에 있는 스타트업으로 이용자의 목소리로 ‘내레이션북’을 만들어준다. 유아동 대상 독서 학습 서비스로 활용된다.

심비는 수천 권에 달하는 도서 데이터를 보유한다. 스마트폰 앱을 통해 이용 가능하며 이용자 나이, 독해 능력, 관심도에 따라 적절한 도서를 추천한다.

심비 앱이 소리내어 읽어주는 책 내용을 이용자가 따라 읽으면 목소리를 녹음한다. 이에 적절한 그림과 녹음된 목소리를 합쳐 내레이션북을 제작해준다. 66개국에 13만명 이용자를 보유하고 있다.

◆토카투(Talkatoo)

(사진=토카투 홈페이지)

캐나다 스타트업 토카투는 수의학 분야에 쓰이는 TTS(Text To Speech) 서비스를 제공한다. TTS는 음성합성 시스템으로 AI가 사람의 음성을 분석해 텍스트 형식으로 변환해준다.

난해한 전문 용어가 활용되는 수의학 분야에 특성화됐다는 장점을 지닌다. ‘미국 건강보험이동성과 결과보고책무활동에 관한 법(HIPAA·Health Insurance Portability and Accountability Act)’ 수준의 TTS 서비스가 가능하다.

의학 사전이 내장돼 수의학 전문 어휘를 분당 200개 이상 단어를 기록할 수 있다. 인간에 비해 말을 듣고 받아적는 속도가 5배나 빠르다. 국적마다 다른 억양을 고려하고, AI가 자체 분석으로 적절히 구두점을 추가하는 기능도 가능해 까다로운 전문 분야에 섬세한 TTS 서비스를 제공한다.

◆타이니셰프(Tinychef)

타이니셰프는 미국 뉴욕에 있는 스타트업으로 ‘AI 주방 비서’ 서비스를 제작한다.

음식을 요리할 때 조리법, 식재료 등을 AI가 음성으로 설명해준다. 이용자 요리 숙련도에 따라 제공하는 조리법 난이도를 다르게 설정할 수 있다.

레시피를 기반으로 조리 단계별 음성 안내를 지원하며 조리 시간, 단계별 세부 정보, 가이드 라인을 함께 제공한다.

음성 명령을 통해 요리에 필요한 재료, 조리 기구 등을 실시간으로 쇼핑 리스트에 추가하는 기능도 이용 가능하다.

◆보이시파이(Voicify)

미국 보스턴 소재 보이시파이는 AI 챗봇·음성 앱을 OS간 연결해주는 솔루션을 제공한다.

아마존 알렉사, 구글 어시스턴트, 삼성 빅스비 등 AI 음성 인식 기술 OS가 달라 이용할 수 있는 애플리케이션에도 한계가 있다. 이때 보이시파이는 하나의 앱을 여러 OS에서 사용할 수 있도록 ‘연결 솔루션’을 제공한다.

◆바울(Vowel)

(사진=바울 홈페이지)

미국 뉴욕 스타트업 바울은 음성 인식 기술 기반 ‘실시간 주석’ 기능을 가진 화상회의 플랫폼이다.

바울을 통해 진행되는 화상회의는 실시간 녹음·녹화된다. 필요한 내용에 해시태그를 달아 북마크 할 수 있다.

이용자는 회의에서 나온 내용을 다시 확인하기 위해 검색어를 입력해 복기할 수 있다. 예를 들어 ‘로고’를 검색하면 회의 중 해당 내용 녹음 파일을 찾아 들려준다.

AI타임스 장희수 기자 [email protected] / 이하나 기자 [email protected]

[관련기사][R] AI 스타트업들도 ‘인공지능 중심도시’ 광주로

[관련기사]동국대 LINC+사업단, 일산에 의료 클러스터 만들어 스타트업 마중물 붓는다

키워드에 대한 정보 구글 음성 인식 원리

다음은 Bing에서 구글 음성 인식 원리 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 구글은 우리를 도청 하고있다? / 실제 테스트 후기

  • 구글
  • 구글 주식
  • 구글 크롬캐스트
  • 구글어스
  • 구글 도청
  • 도청
  • 미스테리
  • 미스테리 사건
  • 미스테리 이야기
  • 괴담
  • 괴담회
  • 괴담이야기
  • 괴담라디오
  • 무서운
  • 무서운이야기
  • 무서운동영상
  • 무서운 노래
  • 무서운 영상
  • 무서운이야기 실화
  • 실화
  • 실제상황
  • 구글 목소리
  • 구글 음성인식
  • 음성인식
  • 디스코드
  • 내 말 전부 듣고있었어?
  • 미지수
  • 공포
  • 공포게임
  • 공포영화
  • 공포라디오
  • 심야괴담회
  • 심야
  • 스펀지
  • google
  • 구글에 검색하면 안되는
  • 구글 검색
  • 네이버
  • 인터넷 괴담
  • 다음
  • 네이버 괴담
  • 야후
  • google괴담

구글은 #우리를 #도청 #하고있다? #/ #실제 #테스트 #후기


YouTube에서 구글 음성 인식 원리 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 구글은 우리를 도청 하고있다? / 실제 테스트 후기 | 구글 음성 인식 원리, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment