KLI

언어 지식과 문맥 정보를 융합한 형태소 단위의 언어 모델

Metadata Downloads
Abstract
자연어는 다양하게 쓰이며 매우 복잡한 구조를 가진다. 자연어 표현은 컴퓨터가 이해할 수 있는 형태로 자연어를 표현하는 방식으로 자연어 처리 영역에서 선결되어야 하는 문제로 자리 잡았다. 자연어를 표현하기 위해 다양한 방식을 사용했지만, 현재는 딥 러닝에 기반을 둔 언어 모델이 대표적인 자연어 표현 방식이다. 언어 모델은 주변의 문맥 정보를 이용해 현재 위치에 사용될 수 있는 단어를 유추하는 학습을 통해 모델 자체가 자연어 표현 방식이 된다. 언어 모델의 발전으로 인해 다양한 쓰임새와 성능의 향상을 통해 자연어 처리 분야의 발전을 견인하고 있다.
언어 모델은 자연어를 효율적으로 표현하기 위해 토큰이라는 표현 단위를 사용한다. 토큰은 음절보다 크거나 같으며, 어절보다 작거나 같은 표현 단위이다. 하지만 토큰 표현 방식은 등장 빈도를 이용하여 생성하는 방식으로, 학습 데이터에서 등장 빈도가 낮은 단어에 대한 의미나, 표현을 이해하기 어려운 문제를 가지고 있다. 그리고 해당 단어는 여러 토큰으로 분리될 가능성이 높아 문맥의 정보를 온전히 해당 단어에 적용하지 못하며, 원래 단어의 의미와 다른 해석을 모델이 실시할 가능성이 있다. 토큰 표현 방식으로 인한 학습 빈도가 낮은 단어들에 대한 이해력을 높이기 위해서는 다양한 형태와 의미로 단어를 사용한 학습 말뭉치를 필요로 한다. 하지만, 이러한 말뭉치를 확보하기 어렵고, 구축에는 많은 비용이 발생한다.
본 논문에서는 다양한 언어 지식과 문맥 정보를 융합한 형태소 단위의 언어 모델인 UKnowBERT(Ulsan Knowledge ensemble BERT)를 제안한다. UKnowBERT는 형태소 단위를 유지하기 위해 다중-핫 표현(multi-hot representation) 방식을 사용한다. 다중-핫 표현은 형태소를 하나의 토큰으로 표현할 수 없는 경우 음절 토큰의 집합으로 표현하며, 다중-핫 입력 생성기를 통해 형태소 단위를 유지하여 언어 모델의 입력에 사용한 방식이다. 다중-핫 표현 방식을 사용하는 경우 마스킹 학습(Masked LM)에서 정답의 수가 1개 이상이 가능하기 때문에 기존의 손실 함수가 아닌 정답의 수에 따른 목표 확률을 조정하는 손실 함수를 개발했다. 다양한 손실 함수와의 비교 실험을 통해 본 논문에서 제안한 손실 함수가 기존의 다른 손실 함수보다 높은 성능을 보였다. 그리고 기존 토큰 방식을 사용한 BERT 모델과의 비교 실험을 통해 개체명 인식, 감성 분석 영역에서 기존 토큰 표현 방식에 비해 1% 포인트 높은 성능을 보였다. 하지만, 기계 독해, 의미역 영역과 같이 단어와 문장 간의 관계를 이해하는 영역에서는 기존 모델이 앞서는 결과를 보였다.
형태소 단위를 유지하는 다중-핫 표현만으로는 단어가 가진 다양한 의미와 표현을 언어 모델이 이해하지 못하는 현상을 해결하기 위해 UKnowBERT는 다양한 언어 지식을 함께 사전 학습(pre-training)했다. 한국어 어휘 의미망인 UWordMap에서 추출한 상위어 정보, 용언의 의미제약정보를 이용한 관계성 정보, 단어가 가진 뜻풀이를 벡터로 표현한 정보를 사용했다. 상위어 정보의 경우 명사가 가진 상위어를 해당 단어의 입력 벡터가 추론하는 학습을 진행했으며, 이를 통해 동일한 상위어를 가진 단어끼리 군집화를 이루도록 설계했다. 그리고 사전(dictionary)에 등재된 단어의 뜻풀이를 벡터로 표현한 USenseVector를 활용하여 단어가 가진 뜻풀이를 해당 단어를 표현한 입력 임베딩 벡터에 포함되도록 학습했다. 마지막으로 용언의 의미제약 정보를 사용해 용언이 가리키는 명사의 위치정보를 추론하는 학습을 사용했다. 해당 학습을 통해 언어 모델이 특정 용언과 올 수 있는 다양한 명사들의 관계를 이해하도록 유도했다. 상위어 추론과 뜻풀이 기반의 벡터 학습의 경우 인간처럼 미리 습득한 정보를 활용하는 것과 같이 해당 단어를 표현하는 벡터에 적용했으며, 언어 모델이 해당 단어에 대한 다양한 의미들 중에 문맥을 해석하여 적절한 정보를 찾아내도록 유도했다. 또한 단어에 대한 학습 빈도가 부족할 경우 미리 해당 단어에 대한 정보를 기억할 수 있도록 설계했다.
언어 지식을 사용한 언어 모델에 대한 다양한 실험을 통해 용언의 의미제약 정보를 활용할 경우 기계 독해, 의미역 인식 영역에서 사용하지 않은 다른 언어 모델에 비해 높은 성능을 보였다. 그리고 상위어 추론, 뜻풀이 벡터 학습의 경우 개체명 인식처럼 단어에 대한 의미가 중요한 영역에서 다른 모델에 비해 높은 성능을 나타냈다. 하지만, 특정한 언어 지식만 추가한 경우 다른 영역에서 낮은 성능을 기록했다. 반면, 모든 언어 지식을 함께 사전 학습한 경우 모든 실험 영역에서 높은 성능을 보였다. 또한 small 크기의 모델에서는 기존 BERT 모델과 성능이 유사하거나 낮은 영역이 발생했지만, base 크기를 사용할 경우 더 많은 파라미터에 많은 정보를 기억할 수 있어 기존의 BERT 모델보다 UKnowBERT의 성능이 모든 영역에서 앞섰다.
실험 영역의 학습 데이터를 축소하여 제한된 환경에서의 실험을 통해 언어 지식이 해당 응용 영역이 학습하지 못한 부분에 대해 추가적인 정보를 제공하기 때문에 기존 BERT 모델보다 성능이 높았으며, 제한하지 않은 환경에 대비해서 성능의 하락이 적었다. 마지막으로 사전 학습 단계별 성능 비교 실험을 통해 언어 지식을 학습하는 경우 언어 모델이 일정 성능에 빨리 도달했으며, 사용하지 않은 모델 대비 1% 포인트 높은 성능을 보였다.
본 논문에서 제안한 UKnowBERT는 다중-핫 표현 방식을 통해 토큰의 수를 줄여도 더 많은 단어들을 토큰으로 표현하며, 전체 언어 모델의 크기를 줄일 수 있는 장점을 가지며, 성능을 유지할 수 있었다. 그리고 언어 지식을 함께 사전 학습함으로 인해 말뭉치 학습만으로는 얻을 수 없는 부족한 정보를 언어 모델이 습득할 수 있었으며, 단어에 대한 다양한 표현과 의미를 학습하는 효과를 가져와 기존 BERT에 비해 높은 성능을 보였다. 본 논문에서 제안한 모델을 통해 형태소 단위를 필요로 하는 다른 다양한 자연어 처리 응용 영역에 대해서 UKnowBERT가 사용한 다중-핫 표현 방식이 하나의 해결 방법이 될 수 있으며, 응용 영역이나, 언어 모델의 사전 학습에 필요한 말뭉치의 구축에 필요한 비용이나 시간을 언어 지식을 통해 해소할 수 있었다. 마지막으로 본 연구의 결과를 통해 자연어 이해 영역을 넘어서 자연어 생성 모델에도 언어 지식의 활용 가능성에 대한 연구가 필요하다.
Author(s)
이주상
Issued Date
2023
Awarded Date
2023-08
Type
Dissertation
Keyword
언어 모델언어 지식어휘의미망형태소 기반
URI
https://oak.ulsan.ac.kr/handle/2021.oak/12900
http://ulsan.dcollection.net/common/orgView/200000690099
Alternative Author(s)
Lee JuSang
Affiliation
울산대학교
Department
일반대학원 전기전자컴퓨터공학과
Advisor
옥철영
Degree
Doctor
Publisher
울산대학교 일반대학원 전기전자컴퓨터공학과
Language
kor
Rights
울산대학교 논문은 저작권에 의해 보호 받습니다.
Appears in Collections:
Computer Engineering & Information Technology > 2. Theses (Ph.D)
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.