국립국어원 'AI 학습용' 한국어 13종 18억 어절 공개한다

10년간 신문 기사, 서적 2만188종, 메신저 대화, 블로그 글, 대본 등

모두의 말뭉치© 뉴스1

(서울=뉴스1) 박정환 문화전문기자 = 인공지능(AI)이 한국어 처리 능력을 높이기 위한 한국어 학습 자료 13종 18억 어절이 공개된다.
국립국어원(원장 소강춘)은 AI의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 '모두의 말뭉치' 누리집에 공개한다고 25일 밝혔다.

공개 자료는 전문 분야에서는 '말뭉치'라고 부르는 한국어 분야의 빅데이터다. 챗봇이나 인공지능 비서가 이를 학습하면 한국어를 자연스럽게 알아듣고 분석해 말할 수 있다.

이번에 구축한 자료에서는 지난 '21세기 세종계획'보다 일상 대화, 메신저, 웹 문서 등 구어체 자료의 비중을 높였다. 앞서 국립국어원은 1998년에서 2007년까지 '21세기 세종계획'을 추진해 약 2억 어절의 자료를 구축, 공개한 바 있다.

'모두의 말뭉치'에서 받을 수 있는 자료에는 최근 10년간의 신문 기사와 서적 2만188종, 그리고 일상생활에서 음성 대화와 메신저 대화, 방송 자료, 대본 등이 포함됐고, 각종 인터넷 사이트의 블로그, 게시판의 자료 210만건도 포함돼 다양한 한국어 사용 양상을 볼 수 있다.

또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체 등의 언어 단위별로 분석한 자료 1100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 30만 건도 포함됐다.

자료는 국립국어원에서 저작권 문제를 해결해 구축한 것이며 '모두의 말뭉치' 사이트에서 온라인 약정서를 작성하고 승인받으면 누구나 파일을 내려받아 이용할 수 있다.

소강춘 원장은 "변화하는 언어를 신속하게 반영한 말뭉치와 다양한 고품질의 언어 자료를 지속적으로 구축 공개하겠다"며 "한국어 인공지능 기술을 뒷받침하는 한국어 자원의 중심 기관으로 자리매김하도록 노력하겠다"고 밝혔다.

<저작권자 © 뉴스1코리아, 무단전재 및 재배포 금지>

국립국어원 'AI 학습용' 한국어 13종 18억 어절 공개한다

랭킹뉴스

시대 리포트

문화·스포츠 최신기사