상단여백
HOME 산학연관
ETRI, AI 서비스 개발 돕는 '한국어 최첨단 언어모델' 공개
▲ = ETRI 임준호 선임연구원이 코버트(KorBERT) 작동 원리에 대해 설명하고 있다.

한국전자통신연구원(ETRI)은 최첨단 한국어 언어모델 ‘코버트(KorBERT)’를 개발해 누리집(http://aiopen.aihub.or.kr)을 통해 공개했다고 11일 밝혔다.

코버트는 자연어 처리 딥러닝을 위해 언어를 숫자로 표현한 후 학습에 따라 단어가 나타날 확률 분포를 모은 말뭉치로 이번에 연구진은 구글의 언어표현 방법을 기반으로 더 많은 한국어 데이터를 넣어 만든 언어모델과 한국어의 '교착어' 특성까지 반영해 만든 언어모델 등 2종류를 공개했다.

언어처리를 위한 딥러닝 기술을 개발키 위해서는 텍스트에 기술된 어절을 숫자로 표현해야 한다.

이를 위해 그동안 언어를 활용한 서비스를 개발하는 기관에서는 주로 구글의 다국어 언어모델 '버트'(BERT)를 사용했다.

버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다.

대용량 원시 텍스트로부터 어휘와 문장 간 양방향 선후관계를 학습해 단어의 문맥을 반영한 벡터로 표현하는 이 방식은 지난해 11월 처음 공개돼 언어처리 11개 분야에서 많은 성능 향상을 이뤄 주목을 받았다.

구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발했다. ETRI 연구진은 여기에 23기가(GB)에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했다.

연구진은 데이터 양과 의미 최소 단위인 형태소까지 고려해 국어 특성을 최대한 반영한 언어모델을 만들어 고도화했다.

이번 한국어에 최적화된 언어모델은 ▲전처리 과정에서 형태소를 분석한 언어모델 ▲한국어에 최적화된 학습 파라미터 ▲방대한 데이터 기반 등이 구글과의 차별성이라고 연구진은 설명했다.

개발된 언어모델은 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5% 가량 우수하며 특히 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다.

ETRI의 언어모델을 활용하면 서비스 성능 및 경쟁력을 높일 수 있어 딥러닝 연구, 교육 등의 목적으로 대학, 기업, 기관의 개발자들의 많은 활용이 이뤄질 것으로 예상된다.

개발된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용 가능하며 공공인공지능 오픈 API·데이터 서비스 포털에서 쉽게 찾아볼 수 있다.

엑소브레인 사업의 총괄책임자인 ETRI 김현기 박사는 "한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 기대된다"고 말했다.

현재 구글과 연구진이 언어모델 개발에 활용한 BERT 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다. 향후 연구진은 한 번에 더욱 많은 언어 데이터를 처리하고 검증 방법을 고도화한 모델을 개발할 계획이다.

충청비즈  thecm11@naver.com

<저작권자 © 충청비즈, 무단 전재 및 재배포 금지>

충청비즈의 다른기사 보기
icon인기기사
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
여백
Back to Top