[산업일보]
코로나19로 확산됐던 메타버스의 인기가 사그라들던 중, 최근 애플에서 공개한 Vision Pro가 메타버스의 재발견이라는 평가를 얻으면서, 새로운 패러다임 구축에 대한 기대감이 증폭되고 있다.
정보통신기획평가원에서 발간한 ‘주간기술동향 2109호’의 ‘메타버스 시대를 위한 생성형 AI 기반 디지털 휴먼 기술 동향 및 미래 전망’ 보고서는 이러한 상황에서 메타버스 환경 내에 주축 콘텐츠인 디지털 휴먼(digital human)도 함께 주목받고 있으며, 생성형 AI 기술이 디지털 휴먼의 모든 분야에 접근 가능하다고 분석했다.
디지털 휴먼은 3차원 가상 인간, 즉 인간의 디지털 버전으로 생각해 볼 수 있는데, 기술적인 측면에서 사람처럼 보이고, 듣고, 말하고, 생각하는 가상의 디지털 존재다.
최근 대형 언어 모델의 핵심이 되는 트랜스포머 알고리즘으로 ChatGPT의 자연스러운 문장 생성이 가능해졌고, 이를 활용해 디지털 휴먼은 사람처럼 대화할 수 있게 됐다. 파인 튜닝 혹은 프롬프트 확장 등의 방법을 통해 사람과 같은 인격을 부여하기도 한다.
생성형 AI를 활용한 디지털 휴먼 비디오를 생성하는 기술도 개발되고 있다. 원본 영상에 잡음을 단계적으로 추가·제거해 디노이징 과정으로 이뤄지는 디퓨전(diffusion) 모델은 계산량이 많아 여러 가지 영상을 동시에 학습할 수 없어 다양한 영상을 생성하는 데 어려움이 있었다.
그러나, 잠재 공간에서 영상을 확장시키는 Latent Diffusion 모델의 개발에 따라 계산량이 극적으로 감소하게 되고, 이에 따라 다양한 학습 데이터를 적용할 수 있게 돼 생성되는 영상의 다양성도 증가됐다고 보고서는 평가했다.
또한, 보고서는 메타에서 개발 중인 두 가지의 기술로 디지털 휴먼의 미래를 긍정적으로 관측했다.
우선, 메타는 ImageBind 기술을 통해 다양한 멀티 모달 데이터를 한 번에 학습할 수 있도록 했다. 말하는 디지털 휴먼을 생성하려면 현재로서는 음성 네트워크 모델과 디지털 휴먼 생성 모델, 두 개를 이용해야 한다. ImageBind 기술로 텍스트-영상-오디오가 한 번에 학습되면, 한 개의 모델로 말하는 디지털 휴먼을 만들 수 있으며 이로 인한 성능 향상을 기대할 수 있다.
메타는 MEGABYTE 기술로 시퀀스를 패치로 분리하고 패치별 병렬처리를 지원해 대규모 토큰 처리를 가능하게 했다. 기존 긴 토큰의 처리의 한계로 이를 순차적으로 처리하는데 어려웠던 부분을 개선한 것이다.
ImageBind와 MEGABYTE 기술의 발전이 가속화되면, 단일 모델로 수많은 토큰을 처리해 오디오, 영상, 모션 등을 동시에 생성하는 완전한 디지털 휴먼이 등장할 수 있다는 게 보고서의 전망이다.
보고서는 현재 개발되는 다양한 알고리즘의 고도화로 완전한 디지털 휴먼이 개발될 것을 내다보면서, 이렇게 개발된 디지털 휴먼이 메타버스용 하드웨어 기술 등과 결합되면 거대한 메타버스의 핵심기술이 될 것이라고 기대했다.