KLI

검색

Ulsan Univ. Repository Thesis General Graduate School Computer Engineering & Information Technology 1. Theses(Master)

한국어 어휘 의미망을 활용한 CRF 모델 기반 개체명 인식

Metadata Downloads

Abstract: 개체명 인식은 주어진 문장 내에서 OOV(Out Of Vocabulary)로 등장하는 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 작업이다. OOV 문제를 해결하기 위해 단어를 구성하고 있는 문자들을 딥러닝을 활용하여 해당 단어의 임베딩을 CNN, LSTM 네트워크를 통해 합성하는 방식이나 BERT나 ELECTRA와 같은 언어 모델을 학습하여 임베딩한 연구가 진행되었다. 하지만, 이러한 딥러닝 네트워크 혹은 언어 모델을 이용한 임베딩 방식을 사용한 모델은 고성능의 컴퓨팅 파워가 요구되며 학습 모델의 속도가 느려 실용성이 낮다는 문제가 있다. 본 논문에서는 실용성을 목적으로 처리 속도와 정확률을 모두 고려하여 빠른 속도로 학습 및 처리를 할 수 있는 기계학습 방식의 CRF를 기반으로 하여 의미 자질과 구조적 자질을 추가하여 OOV 문제를 보완한 개체명 인식 시스템을 제안한다.
본 논문에서는 한국어 어휘 의미망(UWordMap)을 활용하여 사람의 지식을 기반으로 한 의미 자질을 한국어 개체명 인식에 적용하였다. 대상의 단어보다 큰 범주의 의미를 가지는 상위어를 자질로 사용하므로 학습 데이터를 확장하는 역할을 하여, 개체명 인식 분야에서 가장 큰 문제인 OOV 문제를 보완한다. 또한, 대부분의 기계학습 기반의 개체명 인식 모델에서는 현재 토큰의 제한된 주변 토큰에 대한 정보만을 학습하여 주요 키워드가 멀리 떨어져 있을 경우, 그 정보를 학습하지 못한다는 문제가 있다. 이 점을 보완하기 위해 구조적 자질인 의존관계와 격조사 정보를 학습한다.
국립국어원 모두의말뭉치(개체명 인식 말뭉치)를 사용하여 학습 및 평가한 결과, 한국어 어휘 의미망을 활용한 의미 자질과 의존관계 정보를 활용한 구조적 자질을 학습한 제안모델은 F1 score 기준 91.05% 포인트의 성능과 초당 약 1,466 문장을 처리하였다. 같은 실험 환경에서 개체명 인식 분야에서 보편적으로 많이 사용된 딥 러닝 모델인 stacked Bi-LSTM-CRF과의 성능 비교 결과, 정확률과 처리 속도, 학습 속도에서 모두 향상된 결과를 보였다. 이를 통해 기계학습 방식의 CRF 모델만을 이용하여 높은 성능과 빠른 학습 및 처리 속도를 모두 고려한 실용성을 높인 개체명 인식 시스템을 구축할 수 있음을 보였다.