[산업일보]
데이터 사이언스란 데이터 수집과 저장에 필요한 데이터 프로세싱 기술과 데이터 분석에 관한 통계학, 응용수학, 데이터 마이닝, 머신 러닝 등을 기반으로 다량의 데이터로부터 패턴을 찾아내고 통계적 추정, 예측 모델링 등을 통해 필요한 정보를 창출해 이를 실무에 활용하는 융합과학이다.
2일 한국과학기술단체총연합회 주관으로 한국과학기술회관에서 ‘제5회 데이터사이언스포럼-데이터 연금술사’가 개최됐다.
이번 행사는 ‘Data Scientist가 되는 길’과 ‘Data Scientist, 시대의 연금술사’ 2가지 챕터로 구성돼, 데이터 분야의 다양한 전문가들이 모여 강연·토론하는 시간을 가졌다.
데이터 시장은 매년 급성장하고 있다. 한국데이터베이스진흥원 자료에 따르면 2017년 기준 글로벌 데이터 시장 규모는 1천508억 달러에서 2020년 2천100억 달러로 상승할 것으로 전망됐다. 한국의 경우 2017년 6조2천973억 원에서 2020년 7조8천450억 원까지 데이터 시장의 규모가 증가할 것으로 보인다.
‘공공데이터와 데이터 사이언스’를 주제로 발표한 데이터사이언스학회 김학래 회장은 “데이터 사이언스를 생각할 때 데이터를 모으는 방법을 먼저 생각하기 쉽다”며 “그러나 무엇이 문제인지 정의하는 것이 우선이다. 이는 사회현상에 대한 지속적인 관심으로부터 비롯된다”고 전했다.
공공데이터는 오픈 데이터로 국민에게 무료로 개방된 정보들이다. OECD 공공데이터 국제 평가를 살펴보면 2015년, 2017년 한국이 OECD 공공데이터 개방지수 세계1위를 달성했다. 또한 월드와이드웹재단의 공공데이터평가(Open Data Barometer)에서도 세계5위를 달성했다. 즉, 국내 공공데이터는 지속적으로 개방되고 있다.
김학래 회장은 “문제는 쓸 만한 데이터가 없다는 것이다. 데이터가 많지만 품질이 떨어져 수요자가 데이터를 잘 찾지 않게 되는 악순환이 발생하고 있다”고 지적했다.
“데이터 품질 오류 사례를 살펴보면, 최근 경주 지진이 발생했을 때 지진이 발생한 지점을 경위도 좌표계로 소수점 두 자리까지 표시한 좌표와 소수점 네 자리까지 표시한 좌표의 차이는 정확도에서 큰 차이가 났다. 한 끗 차이가 굉장한 차이를 보인다”고 김 회장은 강조했다.
이어 그는 “데이터 사이언스는 무엇이 문제인지 정의하고 이해할 수 있어야 하며, 분석과 시각화만큼 데이터 본질에 대한 이해가 필요하다”며 “또한 데이터와 솔루션을 공유하고 협업할 수 있는 준비가 국가 전반적으로 요구된다”고 덧붙였다.