KLI

사전과 어휘 지도를 이용한 한국어 단어 의미 벡터

Metadata Downloads
Abstract
딥 러닝의 대한 관심이 높아지면서 자연어 처리 연구에도 딥 러닝을 활용한 연구들이 활발하게 진행되고 있다. 자연어 처리에서 딥 러닝을 사용하려면 문자인 자연어를 어떻게 컴퓨터가 이해하는 심볼로 표현하는 것이다. 단어를 하나의 심볼로 표현하는 방법을 단어 표현이라 한다. 그 중에 벡터 공간에 단어 표현하는 방법에 대해 많은 연구가 진행되고 있다.
벡터 공간에 단어를 표현하기 위해 말뭉치와 인공신경망을 사용한다. 말뭉치에서 단어의 주변 단어를 이용하여 학습 데이터를 생성하며 인공신경망을 통해 단어를 벡터 공간에 표현한다. 말뭉치를 이용한 단어 임베딩은 학습에 사용된 말뭉치에 영향을 받는다. 학습에 사용하는 말뭉치의 크기에 따라 학습할 수 있는 단어의 수가 결정된다. 또한 말뭉치에서 단어의 등장 빈도수에 따라 학습의 결과가 달라지는 문제점을 가지고 있다.
본 논문에서는 사전과 한국어 어휘 지도(UWordMap)을 활용하여 한국어 단어 임베딩을 실시한다. 사전에 등장하는 단어의 뜻풀이에서 일반명사, 고유명사, 형용사, 동사를 추출하여 학습에 사용한다. 어휘 지도에서는 명사 단어의 상위어 정보와 반의어 정보를 사용한다.
사전과 어휘 지도를 통해 생성한 학습데이터는 자질 거울 모델을 사용하여 학습한다. 자질 거울 모델은 인간이 알지 못하는 단어를 이해하기 위해 사전을 찾아 보는 것에 영감을 받은 모델이다. 인간은 사전에 등재된 단어의 뜻풀이를 통해 단어의 의미를 파악하며 뜻풀이 안에 등장하는 단어에 대해서도 사전의 정보를 이용하면 이해할 수 있다. 이러한 인간이 처음 보는 단어를 이해하는 방식을 학습 모델로 만든 것이 자질 거울 모델이다. 자질 거울 모델을 사용해 인간이 학습하는 방식처럼 단어를 벡터화 한다.
사전과 어휘 지도를 이용하여 동형이의어 수준의 한국어 단어 임베딩을 실시했다. 표준국어대사전에 등재된 명사, 동사, 형용사, 부사, 조사 단어를 대상으로 학습하며 총 408,739개의 단어를 학습한다. 단어에 대한 유의어 검색 실험에서는 단어의 사전적 의미와 유사한 단어들이 높은 코사인 유사도를 가지는 것을 볼 수 있다.
동형이의어 수준에서 단어가 가지는 다의어로 인해 유의어 검색에 어려움을 가진다. 뜻풀이가 많아질수록 단어의 의미 분별이 어렵기 때문에 해결을 위해 다의어 수준 단어 임베딩을 실시했다. 다의어 수준으로 명사, 동사, 형용사, 부사, 조사 단어를 대상으로 총 475,058개의 단어를 학습했다. 다의어 수준의 단어 임베딩 실험은 각 단어의 유의어 검색을 통해 동형이의어 단어 임베딩과 비교했다. 비교 결과 동형이의어 수준의 단어 임베딩의 유의어가 복합적으로 나타나는 반면 다의어 수준 단어 임베딩은 다의어 단어 하나가 가진 의미에 대한 유의어만 등장했다. 다의어 수준 단어 임베딩을 통해 단어에 대해 세분화된 벡터로 표현이 가능했다. 하지만 사전 기반 단어 임베딩에서 유의어로 등장하는 단어들은 실생활에서 쓰는 단어가 아니며 실제 사용 빈도수가 매우 낮거나 적은 단어들이 등장하는 문제점을 가지고 있다.
말뭉치 기반에서 반의어 관계에 있는 단어 쌍은 문장에서 위치상 비슷하기 때문에 벡터가 유사하게 표시된다. 반의어 단어 쌍의 주변 단어들도 유사하게 표시되는 문제를 해결하기 위해 어휘 지도에 포함된 단어의 반의어 정보를 사용한다. 반의어 실험은 말뭉치 기반의 Skip-gram과 반의어를 학습에 포함하지 않은 모델과 비교한다. 반의어 학습을 통해 두 단어의 하위 집단에 대해 분별이 어려운 문제를 해결이 가능했다. 그리고 부정형 뜻풀이의 개선을 통해 뜻풀이에서 추출하지 않은 부정형 보조 용언에 대한 고려가 가능하며 정확한 단어의 의미를 벡터에 내재하는 것이 가능했다.
|Word representation is a method of representing each of words in a text with distinguishable symbols. One of the Word representation is to represent in vector space. The Vector space word representation uses corpus and neural network to express words. Corpus-based word embedding employed many corpora to ensure that words that were positioned nearby in text would also be in close proximity in vector space. However, corpus-bases word embedding is affected by the frequency of word occurrence and has a problem learning.
In this paper, word embedding is done using dictionary and Korean Word Map(UWordMap).
Word learning is done using dictionary definitions and semantic relationship information (hypernyms and hyponyms) in UWordMap. Word definitions and semantic relation information rather than corpora to solve the problem of word representation learning in relation to low-frequency words or polysemy: a typical problem in corpus-based models. Words are trained using the feature mirror model, a modified Skip-Gram.
Since words from dictionary are represented via vectors, homograph of words was distinguished so that 408,739 words of four parts of speech (noun, verb, adverb, and adjective) were represented via a vector. In the test of finding the synonyms of words, words with similar dictionary definitions appeared.
To solve the difficulty of semantic discrimination at the homograph word embedding, the polysemy level of word embedding was done. Polysemy of words was distinguished so that 475,058 words of four parts of speech (noun, verb, adverb, and adjective) were represented via a vector. In homograph word embedding, the surrounding words of various meanings appeared. However, in polysemy word embedding, a word containing one meaning appeared around.
The antonyms were not considered in the corpus-based word embedding. To solve the problem of antonyms, using antonym information in Korean Word Map (UWordMap). Since antonyms of words are also learned, words can be distinguished whose definitions or hypernyms and the same. Improved word definition of negative form, the vector could have the meaning of the correct word.
Author(s)
이주상
Issued Date
2018
Awarded Date
2018-08
Type
Dissertation
Keyword
Word Embedding사전어휘 의미망다의어단어 벡터
URI
https://oak.ulsan.ac.kr/handle/2021.oak/6774
http://ulsan.dcollection.net/common/orgView/200000102840
Alternative Author(s)
Lee Ju Sang
Affiliation
울산대학교
Department
일반대학원 정보통신공학전공
Advisor
옥철영
Degree
Master
Publisher
울산대학교 일반대학원 정보통신공학전공
Language
kor
Rights
울산대학교 논문은 저작권에 의해 보호받습니다.
Appears in Collections:
Computer Engineering & Information Technology > 1. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.