KLI

IMPROVING DETECTION OF SUBJECTIVE BIAS USING BERT AND BILSTM

Metadata Downloads
Abstract
The task of detecting subjectively biased statement is critical. This is because bias in text or other types of knowledge delivery media, such as news, social media, science texts, and even encyclopedias, can erode consumer confidence in the information and trigger conflicts. Subjective bias detection is vital for many Natural Language Processing (NLP) tasks like sentiment analysis, opinion identification, and bias neutralization. Having a system that can adequately detect subjectivity in text would noticeably aid research in the aforementioned fields. It can also be useful for platforms such as Wikipedia, where the use of neutral language is critical. The aim of this thesis is to identify subjectively biased language in text, not just at the sentence level but also at document levels.
With deep learning, we can solve complex AI problems, making it a good fit for the problem of subjective bias detection. Training a classifier based on BERT (Bidirectional Encoder Representations from Transformers) as an upstream model is an essential factor in this approach. BERT may be used as an all-round classifier on its own; however, in this research, it is used as a data preprocessor and embedding generator for a Bi-LSTM (Bidirectional Long Short-Term Memory) downstream model with an attention mechanism. This method yields a more accurate and comprehensive classifier. I assess the efficacy of the proposed model by comparing it to current methods using the Wiki Neutrality Corpus (WNC), which was compiled from Wikipedia edits that excluded myriad biased instances from sentences as a benchmark dataset. Our model attained state-of-the-art (SOTA) performance (sentence-level accuracy of 89% with F1 of 90% and document-level accuracy of 89% with F1 of 91%) in identifying subjective bias, per the results of our experiments. This model may be fine-tuned to support other languages, as this analysis focuses on English language.
|주관적으로 편향된 문장을 탐지하는 작업은 매우 중요하다. 이는 텍스트나 뉴스, 소셜 미디어, 과학 텍스트, 백과사전 같은 다른 유형의 지식 전달 매체의 편향이 정보에 대한 소비자의 신뢰를 잠식하고 갈등을 촉발할 수 있기 때문이다. 주관적 편향 감지는 정서 분석, 의견 식별 및 치우침 중화 같은 많은 자연어 처리(NLP) 작업에 필수적이다. 텍스트에서 주관성을 적절하게 감지할 수 있는 시스템을 갖추는 것은 앞서 언급한 분야의 연구에 현저하게 도움이 될 것입니다. 중립 언어의 사용이 중요한 위키백과와 같은 플랫폼에도 유용할 수 있습니다. 이 논문은 문장 수준뿐만 아니라 문서 수준에서도 주관적으로 편향된 언어를 식별하는 것을 목적으로 한다.
기계 학습으로 주관적 편향 감지 문제와 같은 복잡한 AI 문제를 해결할 수 있다. 업스트림 모델로 BERT(Bidirectional Encoder Representations from Transformers)를 기반으로 분류기를 훈련하는 것은 이 접근 방식의 필수적인 요소이다. BERT는 자체적으로 분류기로 사용될 수 있지만, 본 연구에서는 주의(attention) 메커니즘을 가진 Bi-LSTM(Bidirectional Long Short-Term Memory) 다운스트림 모델의 데이터 전처리기 및 임베딩 생성기로 사용한다. 이 방법은 보다 정확하고 포괄적인 분류기를 제공한다. 문장에서 수많은 편향된 인스턴스를 제외시킨 위키백과를 편집한 Wiki Neutrality Corpus (WNC) (WNC)를 사용하여 모델의 효율성을 평가하였다. 제안된 모델은 문장 수준에서 89%의 정확률(F1 90%)과 문서 수준에서 89.5의 정확률(F1 91.1%)을 보여 주관적 편견을 식별하는 분야에서 현재 최고의 성능을 달성하였다. 이 모델은 다른 언어를 지원하도록 미세 조정될 수 있지만, 이 분석은 영어에 초점을 맞추었다.
Author(s)
빅토리야 에비파테이 투니얀
Issued Date
2021
Awarded Date
2021-06
Type
Dissertation
Keyword
Subjective Bias DetectionMachine LearningBERT–BiLSTM–AttentionText ClassificationNatural Language Processing.
URI
https://oak.ulsan.ac.kr/handle/2021.oak/5963
http://ulsan.dcollection.net/common/orgView/200000501311
Alternative Author(s)
Ebipatei Victoria Tunyan
Affiliation
울산대학교
Department
일반대학원 정보통신공학전공
Advisor
옥철영
Degree
Master
Publisher
울산대학교 일반대학원 정보통신공학전공
Language
eng
Rights
울산대학교 논문은 저작권에 의해 보호받습니다.
Appears in Collections:
Computer Engineering & Information Technology > 1. Theses(Master)
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.