본문 바로가기
표·소제목 등 문서 구조 이해 AI로 데이터 활용↑
김대은 기자|kde125@kidd.co.kr
페이스북 트위터 카카오스토리 네이버블로그 프린트 PDF 다운로드

표·소제목 등 문서 구조 이해 AI로 데이터 활용↑

멀티모달 AI 기반으로 비정형 데이터 추출 및 문서 구조 유지 가능

기사입력 2025-05-15 16:59:04
페이스북 트위터 카카오스토리 네이버블로그 프린트 PDF 다운로드
표·소제목 등 문서 구조 이해 AI로 데이터 활용↑
참관객들이 AI 문서 분석 솔루션 설명에 집중하고 있다.

[산업일보]
산업용 인공지능(AI) 솔루션 개발 전문 기업 올빅뎃(ALLBIGDAT)이 ‘AI EXPO KOREA 2025 (국제인공지능대전, 이하 AI 엑스포)’에 AI 문서 분석 솔루션을 출품했다.

이 솔루션은 서버에 업로드한 문서를 분석하고 카테고리화해 데이터베이스에 저장한다. 이후 웹페이지를 통해 키워드 검색 또는 챗봇 형태로 사용자가 원하는 데이터를 찾아준다.
표·소제목 등 문서 구조 이해 AI로 데이터 활용↑
문서 속성별 키워드 검색 시연 화면

가령, 데이터베이스 내 문서 중 AI와 관련된 데이터를 요청하면 문서 제목, 소제목, 이미지 캡션, 본문, 표 등 속성별로 분류해 제공하는 식이다.

솔루션은 올빅뎃이 개발한 문서처리 기술인 멀티모달 기반 문서 이해 모델 ‘DATALUX’를 기반으로 한다. 이미지 처리 모델과 자연어 처리 모델을 결합한 멀티모달 AI 기술을 통해 표나 도면 같이 비정형 콘텐츠를 추출하고 문서 구조를 유지할 수 있다.

또, 추출된 콘텐츠에 제목이나 문서 구조 등 메타 데이터를 추가해 문서 속성별 검색 및 필터링이 가능하다.

올빅뎃 관계자는 “기존의 OCR 기술은 문서 구성 정보를 배제하고 문자 정보만 추출하다 보니, 문서 구조를 해체하는 인식 오류가 자주 발생한다”라며 “문서가 제대로 추출됐는지 확인해야 한다는 수고가 뒤따른다는 것”이라고 개발 계기를 밝혔다.

그러면서 “문서 속성별로 데이터를 분류하고 LLM 모델을 통한 자연어 검색도 가능해, 데이터 활용도 향상을 기대할 수 있다”라고 덧붙였다.

한편, AI 엑스포는 16일까지 삼성동 코엑스(COEX) A홀에서 열린다.
제품등록 무료 제품 거래 비용 없음!


0 / 1000
주제와 무관한 악의적인 댓글은 삭제될 수 있습니다.
0 / 1000






산업전시회 일정




다아라 기계장터 제품등록 무료