KLI

심층 언어모델 BERT의 한국어 학습 방법에 대한 연구

Metadata Downloads
Abstract
자연어 처리 분야에 심층 언어모델의 활용이 보편화 되고 있으나 한국어의 특성을 반영한 언어모델의 학습 방식에 대한 연구사례가 많지 않다. 본 연구에서는 BERT 언어모델의 구조와 학습방식의 범위안에서 한국어의 특징을 최대한 반영하여 다양한 한국어 자연어 처리에 활용이 가능한 사전학습(Pre-Trained)심층 언어모델 BERT의 학습방식을 제시하였다. 한국어의 문법적 특징을 살리기 위해 세 가지 토큰화 방식을 제안하였다 첫 번째는 형태소 기반의 토큰화(Tokenizing)를 통해 교착어의 특징을 반영하였으며 두 번째는 조사와 형용사 동사의 활용 어미인 기능어와 독립 형태소인 실질어를 구분하여 별도의 토큰으로 처리 하였다 세 번째는 복합 명사의 경우 명사의 위치에 따른 토큰 처리를 구분하여 자연어 처리 결과에서 원래의 단어를 복원 할 수 있도록 하였다
한국어 대용량 원문 코퍼스(Corpus)를 전처리 하여 실제 학습에 필요한 학습데이터로 정제하고 이를 이용하여 언어모델의 학습과정 전체를 직접 수행하고 학습의 결과를 활용한 파인 튜닝 Task(Fine Tuning Task)를 통해 본 연구에서 제안한 방식으로 학습된 한국어 심층 언어모델의 성능을 평가 하였다 그 결과를 네이버 영화평 말뭉치(Naver Sentiment Movie Corpus)를 활용한 감성분석 Task 에서 F1 스코어 92.2로 구글의 다국어 버전의 87.07 보다 높은 성능을 보였으며 동일한 데이터에 대해 한국전자통신연구원이 공개한 BERT 언어모델인 KorBERT의 89.90 보다 좋은 성능을 보였다. 또 다른 파인 튜닝 Task인 기계독해 자연어처리 에서는 KoQuAD 데이터를 이용하여 성능을 평가한 결과 F1스코어 92.93 으로 BERT 다국어 버전의 90.75보다 우수한 성능을 보였다
Author(s)
김영훈
Issued Date
2021
Awarded Date
2021-08
Type
Dissertation
Keyword
한국어버트언어모델자연어처리학습방식토큰화
URI
https://oak.ulsan.ac.kr/handle/2021.oak/5947
http://ulsan.dcollection.net/common/orgView/200000501391
Alternative Author(s)
Kim Young Hoon
Affiliation
울산대학교
Department
일반대학원 전기전자컴퓨터공학과
Advisor
지영준
Degree
Doctor
Publisher
울산대학교 일반대학원 전기전자컴퓨터공학과
Language
kor
Rights
울산대학교 논문은 저작권에 의해 보호받습니다.
Appears in Collections:
Computer Engineering & Information Technology > 2. Theses (Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.