[산업일보]
인공지능(AI) 학습용 데이터 개방 규모가 191종에서 381종으로 늘어났다.
과학기술정보통신부는 12일부터 인공지능 학습용 데이터 190종(5억8천만 건)을 인공지능 허브를 통해 추가 개방한다고 같은 날 밝혔다. AI허브는 인공지능 기술 및 제품‧서비스 개발에 필요한 AI 데이터, AI SW API, 컴퓨팅 자원 등 AI 인프라를 지원하는 통합 플랫폼이다.
이상민 과기정통부 인공지능산업팀 사무관은 본보와의 통화에서 “지난해 구축한 인공지능 학습용 데이터 190종에 대한 품질과 활용성 검증을 거쳐 순차적으로 개방하는 것”이라며 “7월 12일부터 14일까지 100종을 1차 개방하고, 90종의 데이터도 순차적으로 개방할 것”고 말했다.
인공지능 학습용 데이터 190종은 교통‧물류(로봇주행, 교통사고 등 22종), 재난‧안전‧환경(과적차량, 물류창고 등 27종), 한국어 음성·자연어(아동, 다화자 음성 등 44종), 영상·이미지(스포츠 동작, 반려동물 등 39종), 헬스케어(심장질환, 정신건강 등 32종), 농·축·수산(정밀 농업, 스마트 양식 등 26종) 등으로 나뉜다.
이상민 사무관은 “인공지능 학습용 데이터는 민간 수요를 바탕으로 분야별 산·학·연 전문가, 데이터 활용기업 등이 참여한 결과물”이라며 “산업 파급효과가 크고 민간에서 대규모로 구축하기 어려운 데이터들을 발굴·선정하는 방식으로 기획했다”고 설명했다.
특히, 데이터 구축 과정에 국내 주요 인공지능·데이터 전문기업은 물론 서울대, KAIST 등 118개 대학, 서울대병원, 국립암센터 등 50개 병원 등 총 811개 기업·기관과 4만 3천여 명에 이르는 국민이 참여했다는 게 과기정통부의 설명이다.
정부가 이번에 개방한 인공지능 학습용 데이터 190종은 정보통신기술 표준화·인증을 수행하는 한국정보통신기술협회(TTA)의 전문적 품질검증을 통과했다. 또한 실제 데이터 수요자가 요구하는 품질 수준을 확보하기 위해 국내 기업, 대학, 연구기관의 데이터 활용성 검토와 추가 보완을 거쳤다.
한편 과기정통부는 2017년부터 기업, 연구자 등이 시간, 비용 등의 문제로 확보하기 어려운 인공지능 학습용 데이터를 구축해 개방했다. 지난해 6월에 개방한 인공지능 학습용 데이터 규모는 170종(4억8천만 건)이다.
이 사무관은 “2020년부터 구축 규모를 대폭 늘린 후 18만 건 이상의 다운로드를 기록 중”이라고 말했다.