(주) 뷰노

press releases

인터스피치2020에서 AI 음성인식 연구 2편 발표

  • 2020. 10. 27

뷰노, 인터스피치2020에서 AI 음성인식 연구 2편 발표

국내 의료 환경 최적화 음성 모델 확인, 국내 의무 기록 데이터 검증 통해 활용도 입증

높은 인식 성능·낮은 메모리 사용량 입증한 새로운 AI 음성인식 모델 제시

 

의료 인공지능(AI) 솔루션 개발 기업 주식회사 뷰노(대표 김현준)는 자사의 인공지능 기반 음성인식 관련 연구 논문 2편을인터스피치 2020’에서 발표했다고 27일 밝혔다. 뷰노는 향후 두 연구에서 국내 의료 데이터 기반으로 검증한 인공지능 기반 음성인식 기술들을 기반으로 뷰노메드 딥ASR™ 고도화해 국내 의료진들에게 선보일 예정이다.

국제음성통신협회((International Speech Communication Association, 이하 ISCA)가 주최하는 인터스피치(INTERSPEECH)는 음성인식 분야에서 최고의 권위를 보유한 국제학회로서, 매년 1,800여명의 음성 언어 처리 관련 학계, 업계, 정부 관계자 등이 참석한다. 올해로 21회를 맞이한 인터스피치2020 10 25일부터 29일까지 4일간, ‘음성 처리를 위한 인지지능(Cognitive Intelligence for Speech Processing)’을 주제로 개최됐으며, 마이크로소프트, 아마존, 애플, 인텔, 바이두, 알리바바 등 세계적인 IT 기업들이 참여했다.

뷰노는 이번 컨퍼런스에서 자사의 인공지능 기반 의료 음성인식 솔루션 뷰노메드 딥ASR™(VUNO Med®-DeepASR™)의 음성인식 엔진 고도화의 일환으로 착수한 2편의 연구 논문을 발표했다. 두 연구 모두 음성인식 분야의 최신 연구 주제인 E2E 모델(end-to-end model, 딥러닝 모델만으로 입력된 음성 전문을 즉시 문자화하는 방식)을 기반으로 음성인식 성능을 강화하는 내용을 담고 있으며, 뷰노는 향후 해당 연구에서 확인한 기술을 자사 솔루션에 적용해 성능과 정확도를 향상시킬 예정이다.

본 학술대회에서 첫 번째로 발표된 뷰노의 연구는 E2E 모델을 기반으로 국문뿐 아니라 국영문을 혼용한 음성에서도 가장 높은 성능을 보이는 서브워드(sub-word, 자연어처리 알고리즘에서 전처리로 이용되는 단위)를 도출하였으며 , 자모음, 음절 조합, 바이트(byte) 등 다양한 국영문 음성인식 모델을 비교 분석했고, 문자 오류율(Character Error Rate, CER), 단어 오류율(Word Error Rate, WER), 문장 오류율(Sentence Error Rate, SER)을 현저하게 감소시켰다. 더 나아가 국내 병원의 의무 기록(medical record) 데이터를 기반으로 검증함으로써, 국내 의료 환경에서의 높은 활용도를 확인했다.

또 다른 연구는 자동 음성인식(Automatic Speech Recognition, 이하 ASR)에 신경망 구조 탐색 (Neural Architecture Search, NAS) 기술을 적용한 새로운 음성인식 방법인 EST(Evolved Speech-Transformer) 모델을 고안하는 내용을 담고있다해당 모델은 기존 방식 대비 낮은 단어 오류율(WER)로 높은 정확도를 기록하는 한편, 메모리 사용량은 최대 30%, 학습시간은 약 4% 감소시켜 우수한 성능을 입증했다. 본 연구의 성능검증은 영문 데이터셋(Wall Street Journal)과 국문 데이터셋(Zeroth)을 기반으로 진행돼, 향후 EST 모델은 방대한 의료용어로 국영문이 혼재된 의료 환경에서도 높은 성능을 보일 수 있을 것으로 기대된다.

김상기 뷰노 음성인식본부장은이번 인터스피치 연구 발표로, 뷰노의 인공지능 의료 음성인식 기술을 입증해 기쁘다라며, “이러한 뷰노의 기술력이 집약된 뷰노메드 딥ASR™도 국내뿐 아니라 세계 최고 수준의 성능을 자랑한다고 말했다. 이어이번 연구성과를 기반으로 뷰노메드 딥ASR™을 고도화해 의료현장의 효율성을 효과적으로 높일 수 있도록 기여하겠다라고 말했다.

한편, 뷰노메드 딥ASR™은 인공지능을 기반으로 영상의학과/핵의학과/병리과 등 다양한 의료 분야 내 의료 문서를 실시간으로 문서화하는 의료 음성인식 솔루션이다. 수천 시간에 달하는 국내 의료 음성 데이터 수십만 건을 학습해, 국영문이 혼재된 의학 용어를 높은 정확도로 처리해 국내 임상 환경에 최적화된 것이 특징이다. 현재 서울아산병원, 국군수도병원, 용인세브란스병원 등 국내 주요 중·대형 병원에 도입돼 활발하게 사용되고 있다.

Tag in

#press_releases

#VUNO Med®-Deep ASR™