본문 바로가기

심층기획 [Future Sketch] 음성인식, 다양한 응용+발전 가능성 가진 미래 기술 - SOLUGATE

음성인식, 다양한 분야 응용 가능…디지털 사각지대 완화에도 유용

[산업일보]
“짱구야, ‘미스터 트롯’ 노래 틀어줘”
“네. ‘미스터 트롯’ 노래를 틀어드릴게요”

인공지능 스피커의 이름을 부르고, 명령을 내리면 스피커가 답을 한 뒤 명령을 시행한다. AI 스피커가 대중화되면서, 보다 친근감 있게 다가온 음성인식 관련 기술은 빠르게 인간 일상의 한 부분을 차지했다. 향후 음성인식 기술은 더욱 세밀하게 발전할 전망이다.


코로나19로 ‘비접촉’, ‘언택트(Untact)’가 기술 트렌드로 자리하면서, ‘음성인식’ 기술 응용에 대한 관심도 증가했다. 생체인식(Biometrics) 기술이자 UI(User Interface) 중 하나인 ‘음성인식’은 사용자가 직접 신체를 움직이거나 특별한 작동법을 배우지 않아도, 말 한 마디로 지시를 내려 기기를 작동시킬 수 있는 점, 자판 대비 고속 입력 가능 등이 장점으로 꼽힌다.

이에 향후 사용자가 기기와 기술을 인식하지 않아도 디지털 및 컴퓨팅 기반의 제품과 서비스를 끊김 없이 이용할 수 있는 ‘앰비언트 컴퓨팅(Ambient Computing)’ 환경의 주요 UI가 될 것으로 예상된다. 물론, 이 단계에 도달하기 위해서는 부단히 기술이 발전해야 한다. 다행히도 이미 대중화를 시작한 음성인식은 많은 응용 가능성을 가진 기술로 주목받고 있다.

[Future Sketch] 음성인식, 다양한 응용+발전 가능성 가진 미래 기술 - SOLUGATE
사진=솔루게이트(SOLUGATE) 박준호 전략기획실장(CTO)


음성인식, 언어와 성문 인식 결합으로 개인화…신뢰도 높여
‘음성인식’은 대중적으로는 컴퓨터가 마이크와 같은 소리 입력장치를 통해 음향학적 신호를 얻으면 그 발음을 인지해 단어나 문장으로 변환시키거나(Speech to Text, STT), 문장이 뜻하는 바를 이해하고 실행에 옮기는 기술, 개인별 음성을 인지하는 기술 등을 모두 아울러 ‘음성인식’이라고 지칭한다.

‘음성인식’ 기술을 전문적으로 크게 구분하면 ‘음성인식(Speech Recognition)’과 ‘화자인식(Speaker Recognition)’으로 나뉜다. 여기에서 음성인식은 현재 대중적으로 널리 쓰이는 기술로, 화자에 상관없이 음성신호의 ‘언어’를 인식하는 ‘화자독립(Speaker-Independent)’ 시스템이다. 특정 사용자의 음성을 등록하고, 특정 음성에서만 작동을 수행하는 것은 ‘화자종속(Speaker-Dependent)’ 시스템으로 ‘화자인식’ 기술에 해당한다.

‘음성인식’ 기술에 주력하는 인공지능(AI) 전문 솔루션 업체 솔루게이트(SOLUGATE)의 박준호 전략기획실장(CTO)은 “일반적인 음성인식의 용어는 두 기술을 혼용해 부르지만, 음성으로 언어를 인식하는 기술과 목소리의 특징을 추출해서 인증하는 기술은 다르다. 두 기술의 서비스를 동시에 제공할 수 있을 때 음성인식 기술은 개인화되고, 신뢰도도 높아진다”고 말했다.

만일 가족들이 같은 AI 스피커를 활용할 경우, AI 스피커에 붙인 이름을 불러야 스피커가 응답한다. 그러나 성문을 인증해 인식시켜두면, 자연스럽게 스피커가 저장된 성문을 인지하고 지시에 반응할 수 있다.

성문인증은 바이오 인증 방식 중 하나로, 개인별 AI 맞춤 서비스나 금융거래, 콜센터 개인인증 등 보안 서비스에도 사용할 수 있다. 박 전략기획실장은 “음성인식 기술이 현재는 지문이나 홍채 같은 인증 방법보다 정확도가 낮다. 하지만 ‘비접촉’ 흐름과 사용자의 편리성, 디지털 사각지대 보완 등과 같은 부분에서 본다면 기술 파급력이 큰 시장”이라고 전망했다.

[Future Sketch] 음성인식, 다양한 응용+발전 가능성 가진 미래 기술 - SOLUGATE


음성인식, 취약계층 돌봄부터 제조업 응용 가능…韓, 넘어야 할 벽 많아
성문인증 음성인식 기술은 디지털 사각지대에 놓인 사회적 취약계층을 돕거나, 사회적 치안, 제조 현장 등에서도 유용하게 사용할 수 있다.

스마트폰을 다루기 어려운 노인이 음성 본인 인증으로 금융서비스를 받고, 통화 시 목소리 필터링으로 보이스피싱을 예방하거나, 어두운 골목길에서 위험한 상황에 놓였을 때 소리만 외쳐도 관할 경찰서에 위치 전송 및 신고가 자동으로 이뤄지는 등 음성인식을 적용·응용해 할 수 있는 일이 상당히 많다고 박 전략기획실장은 설명했다.

제조 현장에서도 음성인식 활용이 가능하다. 박 전략기획실장은 “기계 소리가 정상일 때와 비정상일 때의 주파수 대역을 인지해 안내방송을 하는 방식으로 음성인식을 활용할 수 있다”며 “최근 기업들의 요청사항이 들어오고 있기도 하다”고 전했다.

이곳저곳 활용도가 높은 음성인식 기술이지만, 곳곳에 활용되기 위해서는 넘어야 할 벽이 많다. 음성인식의 능력은 곧 인공지능(AI)의 능력이다. 따라서, 인공지능 학습을 위해 적합한 데이터를 다량으로 수집·가공해야 한다. 이런 부분은 인도나 중국 같은 많은 인구를 가진 국가가 절대적으로 유리한 상황이다.

더욱이 우리나라는 늘 그렇듯, 제도적인 문제가 항상 기술 발전의 발목을 잡는다. “원천 데이터를 가공한 후 최종 모델을 만드는데, 원천 데이터가 들어가지 않음에도 불구하고 데이터를 이용하면 개인정보 보호법에 저촉돼 서비스를 제공하기 어렵다”고 토로한 박 전략기획실장은 공공기관의 해외 밴더 선호와 정부 부처별 이기주의로 인해 제도 개선이 늦어지는 점 등도 기술 개발의 벽이라고 지적했다.
ad광고추천제품

0 / 1000

추천제품

1/9

가상화폐 시세

loader
Bitcoin logo icon

비트코인

%
Ethereum logo icon

이더리움

%
Ripple logo icon

리플

%
Provided by Bithumb logo icon