심층 언어모델 BERT의 한국어 학습 방법에 대한 연구
- Abstract
- 자연어 처리 분야에 심층 언어모델의 활용이 보편화 되고 있으나 한국어의 특성을 반영한 언어모델의 학습 방식에 대한 연구사례가 많지 않다. 본 연구에서는 BERT 언어모델의 구조와 학습방식의 범위안에서 한국어의 특징을 최대한 반영하여 다양한 한국어 자연어 처리에 활용이 가능한 사전학습(Pre-Trained)심층 언어모델 BERT의 학습방식을 제시하였다. 한국어의 문법적 특징을 살리기 위해 세 가지 토큰화 방식을 제안하였다 첫 번째는 형태소 기반의 토큰화(Tokenizing)를 통해 교착어의 특징을 반영하였으며 두 번째는 조사와 형용사 동사의 활용 어미인 기능어와 독립 형태소인 실질어를 구분하여 별도의 토큰으로 처리 하였다 세 번째는 복합 명사의 경우 명사의 위치에 따른 토큰 처리를 구분하여 자연어 처리 결과에서 원래의 단어를 복원 할 수 있도록 하였다
한국어 대용량 원문 코퍼스(Corpus)를 전처리 하여 실제 학습에 필요한 학습데이터로 정제하고 이를 이용하여 언어모델의 학습과정 전체를 직접 수행하고 학습의 결과를 활용한 파인 튜닝 Task(Fine Tuning Task)를 통해 본 연구에서 제안한 방식으로 학습된 한국어 심층 언어모델의 성능을 평가 하였다 그 결과를 네이버 영화평 말뭉치(Naver Sentiment Movie Corpus)를 활용한 감성분석 Task 에서 F1 스코어 92.2로 구글의 다국어 버전의 87.07 보다 높은 성능을 보였으며 동일한 데이터에 대해 한국전자통신연구원이 공개한 BERT 언어모델인 KorBERT의 89.90 보다 좋은 성능을 보였다. 또 다른 파인 튜닝 Task인 기계독해 자연어처리 에서는 KoQuAD 데이터를 이용하여 성능을 평가한 결과 F1스코어 92.93 으로 BERT 다국어 버전의 90.75보다 우수한 성능을 보였다
- Author(s)
- 김영훈
- Issued Date
- 2021
- Awarded Date
- 2021-08
- Type
- Dissertation
- Keyword
- 한국어버트; 언어모델; 자연어처리; 학습방식; 토큰화
- URI
- https://oak.ulsan.ac.kr/handle/2021.oak/5947
http://ulsan.dcollection.net/common/orgView/200000501391
- 공개 및 라이선스
-
- 파일 목록
-
Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.