AI는 음성 인식에서 인간을 능가한다.
컴퓨터 시스템은 음성 대화를 기록할 때 사람보다 실수를 적게 했다.
인간을 능가 :
연구원들이 자발적으로 말하고 인간보다 더 언어를 더 잘 인식할 수 있는 컴퓨터 시스템을 개발했다. 수천 건의 전화 통화에서 녹음된 음성 테스트에서 인공지능(AI)은 5%의 오류율을 달성했다. 사람을 대상으로 한 테스트에서는 5.5%였다.
AI의 지연 시간은 1초가 조금 넘었다. 거의 실시간으로 반응했다.
![]() |
▲ 음성 어시스턴트는 직접 말할 때 잘 작동하지만 대부분의 음성 인식 프로그램에서 대화와 일상적인 대화는 여전히 많은 부분이 보완돼야 한다. |
연구자들은 점점 더 까다로워지는 작업을 수행해야 함에 따라 인간의 말을 인식하는 초인간적 성능의 시스템을 달성하는 것은 수십 년 동안 목표였다.
1990년대에 두 사람 사이의 대화 음성은 말을 더듬거나, 일치하지 않은 단어, 잘못된 시작 및 조잡한 발음이 음향 처리를 복잡하게 한다는 것을 알았다.
음향, 어휘 및 언어 컨텍스트의 강력한 처리를 공동으로 필요로 하기 때문에 읽는 것보다 듣는 것이 훨씬 더 어려운 것으로 밝혀졌다. 통계 모델을 사용한 초기 시도는 오류율이 50% 이상이고 인간의 성능과는 거리가 멀었다(사람 약 5.5%).
![]() |
▲ 점점 더 까다로워지는 작업을 수행해야 함에 따라 인간의 말을 인식하는 초인간적 성능의 시스템을 달성하는 것은 연구자들의 수십 년 동안 목표였다. |
Siri, Alexa 또는 Cortana :
음성 인식 시스템을 사용하면 오늘날 컴퓨터 시스템과 음향적으로 통신 할 수 있다.
음성 텍스트의 번역이나 필사도 가능하다. 그 뒤에는 음절과 단어 라이브러리에 음향 음성 소리를 할당하도록 훈련된 적응 시스템인 인공 신경망이 있다. 텍스트를 읽거나 직접 처리할 때 이러한 음성 인식 시스템은 매우 좋은 결과를 얻는다.
![]() |
▲ 'Sprechen' 이라는 단어를 말할 때 오리지널 파형 https://de.wikipedia.org/wiki/Spracherkennung#/media/Datei:Sprache-beispiel-kons-orig.png |
![]() |
▲ 원래의 발음에서 'p'가 누락돼 기록되는 그래픽. https://de.wikipedia.org/wiki/Spracherkennung#/media/Datei:Sprache-beispiel-kons-silen.png |
음성인식 머신런닝과 신경망 회로 분야에서 글로벌 연구를 선도하고 있는 바이벨 교수(KIT, Computer Science)와 그의 팀이 발표한 논문은 AI의 능력이 어디까지인지 놀라게 한다.
1990년대 초에 KIT 연구원들은 실제로 대학에 재학 중인 외국인 학생들을 대상으로 실험을 수행한 적이 있다. A4 용지 절반에 해당하는 텍스트를 모국어로 읽고 녹음해서 제출하는 것이었다. 지금의 음성 인식 기술과 번역기 시스템의 기초를 다지고 있었다.
![]() |
![]() |
▲ 인공 신경망은 상호 연결된 노드 그룹으로, 뇌의 방대한 뉴런 네트워크와 유사하다. 여기서 각 원형 노드는 인공 뉴런을 나타내고 화살표는 하나의 인공 뉴런의 출력에서 다른 뉴런의 입력으로의 연결을 나타낸다. https://upload.wikimedia.org/wikipedia/commons/4/46/Colored_neural_network.svg |
이 논문에서는 성능과 대기 시간을 다룬다. “우리는 말하는 사람의 연설 뒤에 단 1초의 단어 기반 대기 시간으로 사람을 능가하는 성능(WER 5.0 %, Switchboard 대화 벤치마크 대비)을 달성할 수 있는 시스템에 대한 결과를 제시한다. 이 시스템은 새로운 저 지연 증분 추론 접근 방식에 통합된 여러 주의 기반 인코더-디코더 네트워크를 사용했다”고 설명했다.
그러나 일상적인 대화나 전화 통화에서는 한계에 도달한다.
독일 칼스루에 공과대학(KIT)의 바이벨 교수(Prof. Dr. Alexander Waibel)는 "사람들은 서로 이야기할 때 방해가 되고 말더듬이가 발생하며 '어'또는 '흠'과 같은 소리를 채우고 웃거나 기침을 한다. 또한, 단어는 종종 뚜렷하게 발음되지 않는다." 인간의 경우에도 그러한 비공식적인 대화를 정확하게 필사하는 것이 때때로 어렵다고 말했다.
말더듬, 일시 중지
Waibel은 "지금까지 이것은 AI에게 훨씬 더 어려웠다"고 말했다.
따라서 일상적인 대화를 따라가고 이를 정확하게 재현하는 것은 인공 지능의 가장 큰 도전 중 하나다. Waibel이 이끄는 연구팀은 이 작업을 인간보다 더 잘하고 다른 시스템보다 더 빠르게 수행하는 컴퓨터 시스템을 개발하는 데 처음으로 성공했다.
정확하고 빠름
새로운 시스템은 독일어 또는 영어로 대학 강의를 전송하는 자동 라이브 번역기를 기반으로 한다. 음성 인식은 음향 사운드를 처리하고 할당하는 소위 인코더-디코더 네트워크를 기반으로 한다. "자발적 음성 인식은 이 시스템에서 가장 중요한 구성 요소다"고 Waibel은 설명했다. "오류와 인식 지연으로 인해 번역을 빠르게 이해할 수 없게 된다.“
연구원들은 최근 이 프로그램을 더욱 개발하여 시스템의 대기 시간을 줄였다.
특히 실시간 번역의 경우 인식의 정밀도를 높히고 프로그램 지연을 가능한 한 작게 유지하는 것이 중요하다. 이를 달성하기 위해 Waibel과 그의 동료들은 특정 단어 조합의 확률에 기반한 접근 방식을 두 개의 추가 인식 모듈과 결합했다.
![]() |
▲ 연구원들은 최근 인공지능 음성 인식 프로그램을 더욱 개발해 시스템의 대기 시간을 줄였다. |
사람보다 실수가 적다.
시스템의 성능을 결정하기 위해 연구원들은 표준화된 벤치 마크 테스트를 거쳤다.
이 경우 음성 인식 시스템은 약 2천 시간의 전화 통화 녹음 풀에서 발췌한 내용을 듣는다.
임무는 이러한 대화를 필사하는 것이었다.
"인적 오류율은 약 5.5%"라고 Waibel은 보고했다. "우리 시스템은 이제 5.0%를 달성했다."
이것은 인간을 능가하는 최초의 컴퓨터 시스템으로 자발적 언어를 인식하고 말하는 데 걸리는 시간을 최소화한다. 음성 인식 대기 시간이 평균 1.63초였다. 사람들은 작업에 1초 정도가 필요하다.
새로운 기술, 대화, 번역 및 기타 AI 모듈을 기반으로 하면 언어 상호 작용이 더 빠르고 정확하게 가능해진다.
(Preprint, arXiv : 2010.03449)
출처 : Karlsruhe Institute of Technology
[더사이언스플러스=문광주 기자] "No Science, No Future"
[저작권자ⓒ the SCIENCE plus. 무단전재-재배포 금지]
+
+
중성미자: 필사적인 발신자 추적 (1) "IceCube 관측소의 중성미자 위치 추적"
중성미자: 필사적인 발신자 추적아이스큐브(IceCube) 관측소팀, 우주 방사선의 근원을 ...
+
+