본문 바로가기
  • 유해게시물신고
기계 특유 딱딱함 벗기고 자연스러움 입힌 ‘딥러닝’
김민솔 기자|mskim@kidd.co.kr
페이스북 트위터 카카오스토리 네이버블로그 프린트 PDF 다운로드

기계 특유 딱딱함 벗기고 자연스러움 입힌 ‘딥러닝’

발음·억양 등 음성 특징 분석해 인간 목소리 구현해

기사입력 2017-11-27 08:30:19
페이스북 트위터 카카오스토리 네이버블로그 프린트 PDF 다운로드
기계 특유 딱딱함 벗기고 자연스러움 입힌 ‘딥러닝’


[산업일보]
‘모바일 우선에서 인공지능 우선으로(Mobile first to AI first)’ 이 문장은 구글의 선다 피차이(Sundar Pichai) CEO가 지난해부터 추구하고 있는 슬로건이다. 이처럼 인공지능(AI)은 현 시대의 흐름을 좌우한다고 해도 과언이 아닐 정도로 세간의 주목을 받고 있다.

LG경제연구원의 ‘최근 인공지능 개발 트렌드와 미래의 진화 방향’ 보고서 자료에 따르면, 현재 인공지능은 불과 5년 만에 인간과 비슷한 수준으로 성장해 자율적인 판단과 능동적인 행동을 하는 것으로 나타났다.

인공지능이 현재의 위치에 오기까지는 ‘딥러닝(Deep learning)’ 기술이 뒷받침 됐다. 알파고에 적용돼 대중적으로 이름을 알린 딥러닝은 최근 음성 인식 분야에 적용되면서 언어 인식의 능력을 높였다. 과거에는 전문가가 일일이 단어 업데이트 등을 해야했으나, 딥러닝의 등장 이후부터는 인공지능이 데이터를 기반으로 스스로 언어를 이해하게 하는 방식으로 전환된 것이다.

이처럼 인간 수준 인식·이해력을 갖추게 된 인공지능은 그에 걸맞게 음성 서비스 역시 사람 목소리 수준으로 생성해가면서 기계 특유의 어색함을 벗고 있다.

과거 기계에 의해 생성된 사람의 목소리는 개별 단어와 구문을 단순 조합했기에 발음, 억양 등이 자연스럽지 못했다. 그러나 딥러닝이 적용되면서 단어 단위별 발음과 악센트(Accent)는 물론 문장 단위의 억양까지 분석해 부자연스러움을 없앤 것이다.

이승훈 연구원은 보고서를 통해 딥러닝 기술을 적용한 음성 생성 기술의 대표적인 사례로 알파고 개발사인 구글 딥마인드의 ‘웨이브넷(WaveNet)’을 소개했다. 웨이브넷에 적용된 딥러닝은 기존 구글 서비스에 적용됐을 때에 비해 알고리즘의 고도화와 학습 데이터의 다양화를 통해 음성의 질을 향상시켰다.

딥마인드 측은 WaveNet이 사람의 목소리와 어느 정도 비슷한지 정량화하고자 약 100여개의 문장으로 테스트를 진행했다. 그 결과, 사람 목소리(4.55점)에 근접한 4.21점을 기록하며 수치상으로도 음성 생성기술의 발전을 증명해보였다.

중국검색엔진기업 바이두(百度) 또한 ‘DeepVoice27’라 불리는 딥러닝 기술을 음성 생성기술에 활용 중이다. 이 기술은 특정 사람의 목소리를 반복 학습하면서 그 음성의 특징을 분석하고 모델링해 실제 인물의 음성과 유사하게 생성해 낸다.

지난 9월부터 상용화되고 있는 국내 인공지능 스피커 ‘카카오 미니’의 경우도 성우 목소리의 음향 및 운율 등을 분석해 만들어낸 가상의 소리다. 말투에 이질감이 느껴지지 않는 음성 서비스로 인해 소비자들은 사람과 대화하는 기분이라며 긍정적인 반응을 보이고 있다.

이 연구원은 “과거 음성 인식 기반의 서비스들은 낮은 인식정확도와 제한적인 기능으로 인해 크게 상용화되지 못했으나, 딥러닝을 활용한 기업들이 높은 수준의 정확도와 인식률을 보이고 있다”며 “최근 출시되고 있는 스피커 형태의 비서형 음성 인식 서비스 경쟁과 맞물려 음성 인식 분야는 새로운 혁신을 써내려갈 것”이라고 말했다.

산업2부 김민솔 기자입니다.정부 정책 및 3D 프린터, IT, 산업현장 숨어있는 특화된 뉴스를 전해드리겠습니다.


0 / 1000
주제와 무관한 악의적인 댓글은 삭제될 수 있습니다.
0 / 1000




제품등록 무료 제품 거래 비용 없음!



산업전시회 일정




다아라 기계장터 제품등록 무료