ChatGPT 개발사 OpenAI, 감정 인식하고 노래도 불러주는 ‘GPT-4o’ 모델 공개 실시간 오디오·비디오 소통 가능, 무료 사용 및 API 제공 예정 AI(인공지능)열풍을 불러일으킨 ‘ChatGPT’가 새로운 모델을 공개했다. ChatGPT의 개발사인 OpenAI는 ‘Introducing GPT-4o’을 주제로 14일 스트리밍을 진행, ‘GPT-4o’모델을 새롭게 공개했다. GPT-4o는 ‘GPT-3.5’모델처럼 모든 사용자에게 무료로 제공될 예정이다. 단, 유료 구독자는 무료 이용자보다 5배 이상 더 많은 메시지를 사용할 수 있다. 또, API(Application Programming Interface)로도 제공된다. OpenAI는 GPT-4o가 기존 유료모델인 ‘GPT-4 Turbo’보다 2배 빠르고, 50% 저렴할 것이라고 밝혔다. GPT-4 Turbo는 한 번에 12만 8천 개의 ‘토큰(단어량)’을 처리할 수 있고, 14일 기준 월 20달러($)의 구독료를 요구한다.스트리밍에서 Open AI는 '라이브 데모'를 선보이기도 했다. 음성을 통한 양방향 소통이 돋보였다.스마트폰의 ChatGPT 어플리케이션을 통해 관계자가 “라이브 데모를 진행하고 있는데 긴장이 된다, 진정할 수 있게 도와줄 수 있겠냐”라고 질문을 하자, GPT-4o는 음성으로 “라이브 데모를 하는 중이라니 대단하군요, 심호흡하세요”라는 답변을 내놨다. 이어, 관계자가 올바른 심호흡에 대한 피드백을 달라며 숨을 헐떡이자 GPT-4o는 “청소기처럼 하는 것이 아니다”라며 관계자가 천천히 숨을 고르는 것을 도왔다. 시연 뒤 Open AI 관계자는 “ChatGPT의 기존 음성 모드와 달리, AI 모델이 답변하는 것을 기다릴 필요 없이 원할 때 언제든 질문할 수 있다”라며 “실시간 응답 모델이기도 해, 사용자가 질문후 응답을 기다리는 2~3초가량의 지연이 발생하지 않는다”라고 말했다.그러면서, “GPT-4o는 감정을 이해하기도 한다”라며 “시연에서 숨을 몰아쉬었을 때, AI가 이를 이해하고 적절한 대답을 할 수 있었던 것”이라고 덧붙였다. 관계자는 GPT-4o가 다양한 감정에 맞춰 음성을 생성할 수 있다며 데모를 이어갔다. ‘잠자리에서 듣기 좋은 로봇과 사랑 이야기’를 들려달라는 요청과 함께 드라마틱한 목소리를 추가해달라고 한 것이다. GPT-4o는 이에 맞춰 구연동화 톤으로 이야기를 진행했다. ‘로봇처럼’, ‘노래하듯이’라는 관계자들의 추가적인 요청도 문제없이 소화해냈다.OpenAI는 이 AI 모델이 비디오와 상호작용하는 시연도 공개했다. 관계자는 GPT-4o에게 수학 문제를 푸는 것을 도와달라며 종이에 3x +1=4라는 방정식을 작성해 카메라로 비췄다. GPT-4o는 방정식을 인식하고 답을 찾기 위한 조언을 내놨다. 관계자가 조언에 맞춰 풀이를 적어 내려가는 것도 추가로 인식해 조언을 계속했다.방정식의 답을 찾은 뒤, 관계자가 “나는 이러한 방정식을 풀이할 자신이 없는데, 실제 세상에서 왜 방정식을 사용해야 하는가”라고 물었다. GPT-4o는 “우리가 깨닫지 못하더라도 방정식은 비용 계산‧요리‧사업 등 많은 상황에서 쓰인다”라고 답변했다. 시연은 PC환경으로도 이어졌다. OpenAI 관계자는 코드 편집기를 실행하고 GPT-4o 음성 프로그램에 코드를 입력했다. GPT-4o는 코드를 분석해 기능 등을 음성으로 설명했다. 또, PC의 화면 공유 기능을 통해 월별 날씨 그래프를 GPT-4o에게 보여주고 분석을 요청하기도 했다. OpenAI의 홈페이지에서는 스트리밍에서 선보인 시연 외에도 실시간 번역, 외국어 학습, 사용자와 가위바위보 등 다양한 활용법을 소개하고 있다. 특히, GPT-4o가 시각장애인의 ‘눈’ 역할을 하는 영상도 공개됐다. 사용자가 카메라를 켜고 주변을 촬영하면 풍경을 설명해 주고, 택시를 잡을 수 있게 손을 들라고 신호를 주는 것이다. 한편, 스트리밍에서 OpenAI 관계자는 “실시간 오디오‧이미지 처리 기능은 우리에게 가능성과 함께 안전에 대한 새로운 과제도 제시한다”라며 “OpenAI는 AI 오용을 줄일 수 있는 방안을 찾기 위해 열심히 노력하고 있으며, 정부·미디어·엔터테인먼트·산업·시민 사회 등 다양한 관계자들과 협력해 올바른 기술도입 방법을 모색하고 있다”라고 밝히기도 했다.

ChatGPT 개발사 OpenAI, 감정 인식하고 노래도 불러주는 ‘GPT-4o’ 모델 공개

실시간 오디오·비디오 소통 가능, 무료 사용 및 API 제공 예정

기사입력 2024-05-14 13:45:38

OpenAI의 ‘Introducing GPT-4o’ 스트리밍 캡쳐

[산업일보]
AI(인공지능)열풍을 불러일으킨 ‘ChatGPT’가 새로운 모델을 공개했다.

ChatGPT의 개발사인 OpenAI는 ‘Introducing GPT-4o’을 주제로 14일 스트리밍을 진행, ‘GPT-4o’모델을 새롭게 공개했다.

GPT-4o는 ‘GPT-3.5’모델처럼 모든 사용자에게 무료로 제공될 예정이다. 단, 유료 구독자는 무료 이용자보다 5배 이상 더 많은 메시지를 사용할 수 있다. 또, API(Application Programming Interface)로도 제공된다.

OpenAI는 GPT-4o가 기존 유료모델인 ‘GPT-4 Turbo’보다 2배 빠르고, 50% 저렴할 것이라고 밝혔다. GPT-4 Turbo는 한 번에 12만 8천 개의 ‘토큰(단어량)’을 처리할 수 있고, 14일 기준 월 20달러($)의 구독료를 요구한다.

GPT-4o에게 심호흡 피드백을 요청하는 OpenAI관계자(출처: ‘Introducing GPT-4o’ 스트리밍 캡쳐)

스트리밍에서 Open AI는 '라이브 데모'를 선보이기도 했다. 음성을 통한 양방향 소통이 돋보였다.

스마트폰의 ChatGPT 어플리케이션을 통해 관계자가 “라이브 데모를 진행하고 있는데 긴장이 된다, 진정할 수 있게 도와줄 수 있겠냐”라고 질문을 하자, GPT-4o는 음성으로 “라이브 데모를 하는 중이라니 대단하군요, 심호흡하세요”라는 답변을 내놨다.

이어, 관계자가 올바른 심호흡에 대한 피드백을 달라며 숨을 헐떡이자 GPT-4o는 “청소기처럼 하는 것이 아니다”라며 관계자가 천천히 숨을 고르는 것을 도왔다.

시연 뒤 Open AI 관계자는 “ChatGPT의 기존 음성 모드와 달리, AI 모델이 답변하는 것을 기다릴 필요 없이 원할 때 언제든 질문할 수 있다”라며 “실시간 응답 모델이기도 해, 사용자가 질문후 응답을 기다리는 2~3초가량의 지연이 발생하지 않는다”라고 말했다.

그러면서, “GPT-4o는 감정을 이해하기도 한다”라며 “시연에서 숨을 몰아쉬었을 때, AI가 이를 이해하고 적절한 대답을 할 수 있었던 것”이라고 덧붙였다.

관계자는 GPT-4o가 다양한 감정에 맞춰 음성을 생성할 수 있다며 데모를 이어갔다. ‘잠자리에서 듣기 좋은 로봇과 사랑 이야기’를 들려달라는 요청과 함께 드라마틱한 목소리를 추가해달라고 한 것이다.

GPT-4o는 이에 맞춰 구연동화 톤으로 이야기를 진행했다. ‘로봇처럼’, ‘노래하듯이’라는 관계자들의 추가적인 요청도 문제없이 소화해냈다.

비디오 인식을 통한 수학문제 풀이 시연(출처: ‘Introducing GPT-4o’ 스트리밍 캡쳐)

OpenAI는 이 AI 모델이 비디오와 상호작용하는 시연도 공개했다. 관계자는 GPT-4o에게 수학 문제를 푸는 것을 도와달라며 종이에 3x +1=4라는 방정식을 작성해 카메라로 비췄다. GPT-4o는 방정식을 인식하고 답을 찾기 위한 조언을 내놨다. 관계자가 조언에 맞춰 풀이를 적어 내려가는 것도 추가로 인식해 조언을 계속했다.

방정식의 답을 찾은 뒤, 관계자가 “나는 이러한 방정식을 풀이할 자신이 없는데, 실제 세상에서 왜 방정식을 사용해야 하는가”라고 물었다. GPT-4o는 “우리가 깨닫지 못하더라도 방정식은 비용 계산‧요리‧사업 등 많은 상황에서 쓰인다”라고 답변했다.

PC에서 코드분석 시연(위)과 월별 날씨그래프 분석 시연(아래)을 선보이고 있다. (출처: ‘Introducing GPT-4o’ 스트리밍 캡쳐)

시연은 PC환경으로도 이어졌다. OpenAI 관계자는 코드 편집기를 실행하고 GPT-4o 음성 프로그램에 코드를 입력했다. GPT-4o는 코드를 분석해 기능 등을 음성으로 설명했다. 또, PC의 화면 공유 기능을 통해 월별 날씨 그래프를 GPT-4o에게 보여주고 분석을 요청하기도 했다.

시각장애인의 GPT-4o 활용(OpenAI 홈페이지 캡쳐)

OpenAI의 홈페이지에서는 스트리밍에서 선보인 시연 외에도 실시간 번역, 외국어 학습, 사용자와 가위바위보 등 다양한 활용법을 소개하고 있다. 특히, GPT-4o가 시각장애인의 ‘눈’ 역할을 하는 영상도 공개됐다. 사용자가 카메라를 켜고 주변을 촬영하면 풍경을 설명해 주고, 택시를 잡을 수 있게 손을 들라고 신호를 주는 것이다.

한편, 스트리밍에서 OpenAI 관계자는 “실시간 오디오‧이미지 처리 기능은 우리에게 가능성과 함께 안전에 대한 새로운 과제도 제시한다”라며 “OpenAI는 AI 오용을 줄일 수 있는 방안을 찾기 위해 열심히 노력하고 있으며, 정부·미디어·엔터테인먼트·산업·시민 사회 등 다양한 관계자들과 협력해 올바른 기술도입 방법을 모색하고 있다”라고 밝히기도 했다.

뒤로 기사목록

산업일보 영상뉴스 모아보기

산업일보 페이스북 바로가기

김대은 기자 kde125@kidd.co.kr

이 기자의 다른기사 보기 >