[산업일보]
구글 제미나이(Gemini)를 비롯한 상용 LLM(거대언어모델)이 ‘효율성’을 위해 채택한 구조가 보안 취약점이 될 수 있다는 연구 결과가 나왔다.
카이스트(KAIST)는 전기및전자공학부 신승원 교수·전산학부 손수엘 교수 공동연구팀이 ‘전문가 혼합(Mixture-of-Experts, MoE) 구조’ LLM의 안전성을 훼손할 수 있는 공격 기법을 세계 최초로 규명하고, 정보보안 분야 최고 권위 국제 학회 ‘ACSAC(Annual Computer Security Applications Conference)’에서 최우수논문상(Distinguished Paper Award)을 수상했다고 26일 전했다.
MoE 구조는 여러 ‘작은 AI 모델(전문가 AI)’를 상황에 따라 선택해 사용하는 방식으로 작동한다. 연구팀은 MoE 구조의 근본적인 보안 취약성을 분석했다. 이를 통해 공격자가 상용 LLM 내부 구조에 직접 접근하지 않아도 악의적으로 조작된 전문가 AI 하나만 오픈소스로 유통돼도 LLM이 위험한 응답을 생성하도록 유도할 수 있음을 입증했다.
정상적인 AI 모델 사이에 섞인 악성 AI 모델이 특정 상황에서 반복적으로 선택되며 전체 LLM의 안전성이 무너질 수 있다는 것이다. 이 과정에서 모델의 성능 저하가 거의 나타나지 않아, 문제를 사전에 발견하기 어렵다는 점이 특히 위험한 요소로 지적된다.
연구팀의 실험 결과, 해당 공격 기법은 유해 응답 생성률을 0%에서 최대 80%까지 증가시킬 수 있다.
이번 연구는 전 세계적으로 확산하는 오픈소스 기반 LLM 개발 환경에서 발생할 수 있는 새로운 보안 위협을 최초로 제시한 것으로, 연구팀은 향후 AI 모델 개발 과정에서 성능뿐만 아니라 ‘전문가 AI 모델의 출처와 안전성 검증’이 필수적이라고 강조했다.
신승원·손수엘 교수는 보도자료에서 ‘효율성을 위해 사용되는 MoE 구조가 새로운 보안 위협이 될 수 있음을 실증적으로 확인했다’라며 ‘AI 보안의 중요성을 국제적으로 인정받은 의미 있는 성과’라고 밝혔다.
한편, 이번 연구는 한국인터넷진흥원(KISA) 및 정보통신기획평가원(IITP)이 지원했으며, 연구 결과는 12일 미국 하와이에서 개최된 ACSAC에서 발표됐다. 전기및전자공학부 김재한·송민규 박사과정, 나승호 박사 (현 삼성전자), 전기및전자공학부 신승원 교수, 전산학부 손수엘 교수가 참여했다.