[산업일보]
챗지피티(Chat GPT)로 생성형 AI에 대한 논의가 본격화되면서 대규모의 투자가 선행돼야 생성형 AI를 제작 또는 활용할 수 있다는 인식이 팽배해졌다. 그러나, 지난달 말 중국이 딥시크(DeepSeek)를 선보이면서 이러한 인식에 균열이 생기고 있다.
서울대 이재진 데이터사이언스대학원장은 17일 국회에서 국가 미래비전 포럼 주관으로 열린 ‘글로벌 AI정책의 흐름과 AI강국 실현을 위한 정책방향 모색’이라는 주제의 토론회의 연사로 참여해 최근 AI분야의 주요 흐름과 AI주권확보의 중요성에 대해 언급했다.
‘AI패권시대, 글로벌 AI정책의 흐름과 AI강국 실현을 위한 정책 방향 모색’이라는 주제로 강연에 나선 이 원장은 DeepSeek을 예로 들면서 AI주권확보의 필요성과 가능성을 강조하는 데 상당시간을 할애했다.
이 원장의 설명에 따르면 DeepSeek는 기존 LLM대비 10% 정도의 비용으로 학습체계를 정립했으며, 관련 연구 개발 인력들도 대부분 해외 유학의 경험이 없는 자국 내 명문대 졸업자들로 구성돼 있다.
“딥시크는 중국인 연구자와 엔지니어 150명과 데이터 자동화 연구팀 31명이 LLM을 개발했으며, 해당 LLM을 오픈소스화 했다”며 “딥시크의 성공을 통해 AI주권의 확보가 가능하다는 예시를 만들어 냈다는 것이 큰 의미”라고 말했다.
국제 공동연구에 대해 이 원장은 “국제 공동연구의 필요성은 학문 분야마다 다르다”고 전제한 뒤 “자국의 AI주권을 생각하면 국제 공동연구로 얻을 것이 없기 때문에 AI나 컴퓨터공학 분야의 국제공동연구는 지양하는 것이 맞으며, 특히 대학원생의 장기해외파견은 인력 송출과 다를 바 없다”고 지적했다.
AI관련 인력 양성에 대해 이 원장은 “미국의 경우 AI관련 학과나 프로그램은 컴퓨터 공학과에서 관련 교육이나 연구가 진행되는 것이 전부”라고 말한 뒤 “한국은 매우 많은 수의 AI학과가 존재하거나 만들어지고 있지만, 대학이나 정부가 AI에 대한 이해가 있는지 의문”이라고 비판했다.
그는 “AI관련 인력을 양성하기 위해서는 컴퓨터 공학 분야의 학생 정원을 대폭 확충하는 동시에 AI분야 교수의 충원 규모를 확대해야 한다”고 말한 뒤 “'AI'라는 간판만 걸어놓고 국가가 재정적 지원을 하는 것은 예산낭비”라고 언급했다.
한편, 한국어 기반의 LLM개발에 대해 이 원장은 “네이버나 KT, SKT, 카카오, 삼성전자 등 국내 빅테크 기업들에서 개발이 진행되고 있지만, 학습데이터나 코드, 방법론을 공개하지 않아 개발된 기술의 확산이나 축적이 불가하고, 기업 간 또는 산학간 기술격차가 심화되고 있다”고 우려를 표한 뒤 “한국어 기반 LLM을 학습시키기 위해서는 대규모의 데이터셋이 필요하지만 지금은 학습주체가 따로 대규모의 학습데이터를 수집해야 하는 것이 현실”이라고 말했다.
“한국어는 띄어쓰기를 이용한 토큰 구분으로는 좋은 성능을 내기 어려운 언어이기 때문에 이를 극복하기 위한 개발이 필요하다”고 말한 이 원장은 “AI주권 확보를 위해서는 빅테크 기업 위주로 진행된 개발에 대한 공개와 정부 주도를 통한 대규모 데이터셋 수집 및 공개, 한국어 특성을 활용한 한국어 토크나이저의 연구개발 장려 등이 요구된다”고 언급했다.