KLI

사용자의 입력 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템

Metadata Downloads
Alternative Title
A Korean Word Segmentation Error Correction System Reflecting User Intent based Syllable N-gram
Abstract
기존의 자동 띄어쓰기 시스템은 사용자의 띄어쓰기 정보를 활용하지 않고 띄어쓰기를 모두 제거한 문장에 대해 공백을 삽입하는 방식으로 띄어쓰기 오류를 수정한다. 이러한 방식으로 띄어쓰기 오류를 교정할 경우, 사용자가 올바르게 입력한 띄어쓰기를 수정하는 문제와 사용자의 의도를 충분히 반영하지 못하는 문제가 발생한다. 본 논문에서는 이러한 문제를 보완하기 위해 사용자가 입력한 의도를 반영한 음절 N-gram 기반 한국어 띄어쓰기 및 붙여쓰기 오류 교정 시스템을 제안한다. 실험 결과, 오류가 10% 포함된 문장에 대해서 음절 단위 정확률 99.05%, 어절 단위 F1 score 95.57%라는 높은 성능을 보였다. 이는 사용자의 띄어쓰기 정보를 활용하지 않은 기존 방식보다 음절 단위 정확률 1.85%, 어절 단위 F1 score 5.84% 향상된 결과이다. 또한, 딥러닝 방식이 아닌 음절 확률 통계정보만을 사용함으로써 초당 2691.69 문장의 빠른 교정 속도를 보였다.
Author(s)
박서연옥철영
Issued Date
2021
Type
Article
Keyword
자동 띄어쓰기한국어 띄어쓰기 및 붙여쓰기사용자 의도 반영 띄어쓰기음절 N-gram
DOI
10.5626/KTCP.2021.27.3.145
URI
https://oak.ulsan.ac.kr/handle/2021.oak/9131
https://ulsan-primo.hosted.exlibrisgroup.com/primo-explore/fulldisplay?docid=TN_cdi_nrf_kci_oai_kci_go_kr_ARTI_9762973&context=PC&vid=ULSAN&lang=ko_KR&search_scope=default_scope&adaptor=primo_central_multiple_fe&tab=default_tab&query=any,contains,%EC%82%AC%EC%9A%A9%EC%9E%90%EC%9D%98%20%EC%9E%85%EB%A0%A5%20%EC%9D%98%EB%8F%84%EB%A5%BC%20%EB%B0%98%EC%98%81%ED%95%9C%20%EC%9D%8C%EC%A0%88%20N-gram%20%EA%B8%B0%EB%B0%98%20%ED%95%9C%EA%B5%AD%EC%96%B4%20%EB%9D%84%EC%96%B4%EC%93%B0%EA%B8%B0%20%EB%B0%8F%20%EB%B6%99%EC%97%AC%EC%93%B0%EA%B8%B0%20%EC%98%A4%EB%A5%98%20%EA%B5%90%EC%A0%95%20%EC%8B%9C%EC%8A%A4%ED%85%9C&offset=0&pcAvailability=true
Publisher
정보과학회 컴퓨팅의 실제 논문지
Location
대한민국
Language
한국어
ISSN
2383-6318
Citation Volume
27
Citation Number
3
Citation Start Page
145
Citation End Page
150
Appears in Collections:
Engineering > IT Convergence
Authorize & License
  • Authorize공개
Files in This Item:
  • There are no files associated with this item.

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.