생성형 AI, 소설·이미지·음악에 이어 ‘동영상’까지 OpenAI, 동영상 생성 AI 모델 ‘Sora' 발표 AI(인공지능)의 창작 영역이 ‘동영상’까지 확장됐다.대화형 AI ChatGPT를 개발한 OpenAI가 자사의 블로그에서 동영상 생성 AI 모델인 소라(Sora)를 공개했다. 소라는 ‘텍스트로 비디오를 생성할 수 있는(text-to-video model)’ AI라고 소개되고 있다. 프롬프트를 입력하면 최대 1분 길이의 동영상이 만들어진다는 것이다. 예시 영상 프롬프트: 한 멋진 여성이 따스하게 빛나는 네온과 애니메이션으로 만들어진 도시 간판으로 가득 찬 도쿄 거리를 걷고 있습니다. 그녀는 검은 가죽 재킷, 긴 빨간 드레스, 그리고 검은 부츠를 신고 검정 지갑을 가지고 다닙니다. 그녀는 선글라스와 빨간 립스틱을 바릅니다. 그녀는 자신감 넘치고 아무렇지도 않게 걷습니다. 거리는 축축하고 반사되어 화려한 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)OpenAI는 블로그에 실사 3D 그래픽과 애니메이션으로 사람, 동물, 풍경 등 다양한 예시 영상을 소개했다. 설명에 따르면, 소라는 사용자가 요청한 내용이 물리적으로 어떻게 적용되는지 이해한다. 이를 바탕으로 복잡한 장면을 다수의 캐릭터와 특정한 움직임, 영상의 주제·배경 등의 세부적인 부분까지 정확하게 생성할 수 있다. 소라는 언어에 대한 ‘깊은 이해(deep understanding)'를 바탕으로 프롬프트를 해석해 생생한 감정을 표현하는 캐릭터를 만들 수 있기도 하다. 또, 캐릭터와 시각 스타일이 유지된 여러 장면도 표현 가능하다. 프롬프트 외에도, 이미지를 애니메이션화하거나 동영상의 앞, 뒤를 확장할 수도 있다. 거기에 더해 평범한 도로를 달리고 있는 차가 밀림에서 달리는 것처럼 꾸미는 식의 ‘Video-to-video' 기능과, 완전히 다른 두 개의 동영상 간 전환점을 생성해 원활하게 연결하는 것도 가능하다. 소라는 OpenAI가 개발한 이미지 생성 모델 DALL·E와 GPT의 과거 연구를 기반으로 한다. DALL·E에 쓰인 요약기법(recaptioning technique)을 사용한다는 것이다. 다만, 소라는 당장 사용할 수 없다. OpenAI는 비주얼아티스트, 디자이너, 영상제작자들 중 일부에게만 사용 권한을 부여한다고 전했다. 소라 서비스의 위해요소를 평가하고, 모델 발전 방향에 대한 피드백을 얻기 위해서다. OpenAI는 소라가 봉착한 한계점을 밝히기도 했다. 소라는 복잡한 장면의 물리적인 요소를 정확하게 표현하는 데 어려움을 겪는 경우가 많으며, 사건의 원인과 결과를 파악하지 못하기도 한다. 또, 공간적 세부 사항의 혼동을 일으켜 요구한 방향과 반대로 동영상을 진행하거나, 카메라가 피사체를 따라가며 벌어지는 시간의 흐름을 정확하게 나타내지 못할 수도 있다.한편, OpenaAI는 소라가 AGI(Artificial General Intelligence, 인공 일반 지능)를 달성하는 중요한 단계(Milestone)라고 언급하며 동영상 생성 AI 모델에 대한 기대감을 드러냈다.

생성형 AI, 소설·이미지·음악에 이어 ‘동영상’까지

OpenAI, 동영상 생성 AI 모델 ‘Sora' 발표

기사입력 2024-02-19 15:56:41

OpenAI 블로그 캡쳐

[산업일보]
AI(인공지능)의 창작 영역이 ‘동영상’까지 확장됐다.

대화형 AI ChatGPT를 개발한 OpenAI가 자사의 블로그에서 동영상 생성 AI 모델인 소라(Sora)를 공개했다.

소라는 ‘텍스트로 비디오를 생성할 수 있는(text-to-video model)’ AI라고 소개되고 있다. 프롬프트를 입력하면 최대 1분 길이의 동영상이 만들어진다는 것이다.

OpenAI의 Sora 시연 영상(OpenAI 블로그 캡쳐)

예시 영상 프롬프트: 한 멋진 여성이 따스하게 빛나는 네온과 애니메이션으로 만들어진 도시 간판으로 가득 찬 도쿄 거리를 걷고 있습니다. 그녀는 검은 가죽 재킷, 긴 빨간 드레스, 그리고 검은 부츠를 신고 검정 지갑을 가지고 다닙니다. 그녀는 선글라스와 빨간 립스틱을 바릅니다. 그녀는 자신감 넘치고 아무렇지도 않게 걷습니다. 거리는 축축하고 반사되어 화려한 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.(A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.)

OpenAI는 블로그에 실사 3D 그래픽과 애니메이션으로 사람, 동물, 풍경 등 다양한 예시 영상을 소개했다.

설명에 따르면, 소라는 사용자가 요청한 내용이 물리적으로 어떻게 적용되는지 이해한다. 이를 바탕으로 복잡한 장면을 다수의 캐릭터와 특정한 움직임, 영상의 주제·배경 등의 세부적인 부분까지 정확하게 생성할 수 있다.

소라는 언어에 대한 ‘깊은 이해(deep understanding)'를 바탕으로 프롬프트를 해석해 생생한 감정을 표현하는 캐릭터를 만들 수 있기도 하다. 또, 캐릭터와 시각 스타일이 유지된 여러 장면도 표현 가능하다.

Sora의 영상 합성 기능 시연 영상. 왼쪽과 오른쪽의 영상을 가운데 영상처럼 연결할 수 있다. (OpenAI 블로그 캡쳐)

프롬프트 외에도, 이미지를 애니메이션화하거나 동영상의 앞, 뒤를 확장할 수도 있다. 거기에 더해 평범한 도로를 달리고 있는 차가 밀림에서 달리는 것처럼 꾸미는 식의 ‘Video-to-video' 기능과, 완전히 다른 두 개의 동영상 간 전환점을 생성해 원활하게 연결하는 것도 가능하다.

소라는 OpenAI가 개발한 이미지 생성 모델 DALL·E와 GPT의 과거 연구를 기반으로 한다. DALL·E에 쓰인 요약기법(recaptioning technique)을 사용한다는 것이다.

다만, 소라는 당장 사용할 수 없다. OpenAI는 비주얼아티스트, 디자이너, 영상제작자들 중 일부에게만 사용 권한을 부여한다고 전했다. 소라 서비스의 위해요소를 평가하고, 모델 발전 방향에 대한 피드백을 얻기 위해서다.

OpenAI는 소라가 봉착한 한계점을 밝히기도 했다. 소라는 복잡한 장면의 물리적인 요소를 정확하게 표현하는 데 어려움을 겪는 경우가 많으며, 사건의 원인과 결과를 파악하지 못하기도 한다.

또, 공간적 세부 사항의 혼동을 일으켜 요구한 방향과 반대로 동영상을 진행하거나, 카메라가 피사체를 따라가며 벌어지는 시간의 흐름을 정확하게 나타내지 못할 수도 있다.

한편, OpenaAI는 소라가 AGI(Artificial General Intelligence, 인공 일반 지능)를 달성하는 중요한 단계(Milestone)라고 언급하며 동영상 생성 AI 모델에 대한 기대감을 드러냈다.

뒤로 기사목록

산업일보 영상뉴스 모아보기

산업일보 페이스북 바로가기

김대은 기자 kde125@kidd.co.kr

이 기자의 다른기사 보기 >