KLI

검색

Ulsan Univ. Repository Journal Papers Engineering IT Convergence

Metadata Downloads

Alternative Title: A Korean Word Segmentation Error Correction System Reflecting User Intent based Syllable N-gram

Abstract: 기존의 자동 띄어쓰기 시스템은 사용자의 띄어쓰기 정보를 활용하지 않고 띄어쓰기를 모두 제거한 문장에 대해 공백을 삽입하는 방식으로 띄어쓰기 오류를 수정한다. 이러한 방식으로 띄어쓰기 오류를 교정할 경우, 사용자가 올바르게 입력한 띄어쓰기를 수정하는 문제와 사용자의 의도를 충분히 반영하지 못하는 문제가 발생한다. 본 논문에서는 이러한 문제를 보완하기 위해 사용자가 입력한 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템을 제안한다. 실험 결과, 오류가 10% 포함된 문장에 대해서 음절 단위 정확률 99.05%, 어절 단위 F1 score 95.57%라는 높은 성능을 보였다. 이는 사용자의 띄어쓰기 정보를 활용하지 않은 기존 방식보다 음절 단위 정확률 1.85%, 어절 단위 F1 score 5.84% 향상된 결과이다. 또한, 딥러닝 방식이 아닌 음절 확률 통계정보만을 사용함으로써 초당 2691.69 문장의 빠른 교정 속도를 보였다.