
[산업일보]
기업이 보유한 방대한 문서와 데이터베이스에 ChatGPT 같은 생성형 AI(인공지능)를 적용하는 솔루션들이 빈번하게 출시·공개되고 있다.
‘대한민국의 글로벌 경쟁력, 데이터로 말하다’를 슬로건으로 개최된 ‘2023 데이터 그랜드 컨퍼런스’의 연사로 나선 올거나이즈 신기빈 최고AI책임자는, ‘하이퍼스케일문서/데이터 대상 AI활용 전략’이라는 주제로 강연을 진행했다.
신기빈 최고AI책임자는 “미국의 한 조사기관의 조사에 따르면, 사무직 노동자들이 업무시간 중 30%, 약 2.5시간 정도를 기업 내부 문서에서 답을 찾는데 보낸다”라며 “기업에 쌓인 데이터에 AI를 접목하면 이렇게 소비되는 시간을 줄여 효율적인 업무가 가능할 것”이라고 운을 띄웠다.
기업의 데이터들은 비정형데이터와 정형데이터로 나눌 수 있다. 비정형 데이터는 PDF나 Word 같은 문서 형태의 파일이고, 정형데이터는 숫자 등으로 구조화된 데이터를 말한다.
그는 “비정형데이터, 예를 들어 금융보고서를 보고 우리나라 금융시스템의 신뢰도에 대해 답하게 하려면 어떻게 해야 할까”라고 질문을 던졌다.
이에 대해 그는 LLM 학습과 RAG 방식을 제시했다.
ChatGPT로 대표되는 LLM(Large Language Model, 거대언어모델)의 학습 방법은 원하는 문서를 학습시켜 그 기반으로 대답하게 하는 것이다. 이 경우 학습비용이 많이 발생하게 되고, 이는 문서가 추가될 때마다 증가한다. 또, 기억에 의존하는 모델의 작동방식 특성삭 환각 문제가 심각하고, 현재 기술로는 해결하기 힘들다.
RAG(Retrieval Augmented Generation, 검색증강생성) 방식은 질문과 함께 답변에 필요한 근거 자료를 제시해 환각 현상을 줄이는 것이다. 신기빈 최고AI책임자는 “여기서 발생하는 또 다른 문제는 자료에서 정확한 근거를 어떻게 추출하느냐”이라고 말했다.
RAG의 과정을 자세히 살펴보면, 먼저 문서를 업로드하면 AI가 인식할 수 있도록 텍스트로 변환하고 적당한 단위로 쪼개 저장소에 올라간다. 이어 사용자가 질문하면 저장소에서 답변의 근거가 될 만한 부분을 찾아 답변을 생성하게 된다.
이 과정에서 ▲제목·다단·그림/그래프 같은 문서의 구조를 파악 ▲답에 해당하는 부분 선별 ▲답변을 위해 적당한 길이로 요약 ▲답변 생성 시 참조한 부분 표시와 같은 새로운 문제들을 해결해야 한다.
신기빈 최고AI책임자는 “이렇게 원하는 답변을 얻기 위해선 LLM 이외에도 많은 기술이 필요하다”라며 “자동차에 비유하면 LLM은 강력한 엔진이고, 이 엔진을 보조하는 바퀴, 핸들 같은 부품들이 필요한 셈”이라고 설명했다.