Coreference Resolution for Vietnamese Narrative Texts

要約

コアレファレンス解像度は、同じエンティティを参照するテキスト内の異なる式を特定してリンクすることを含む、自然言語処理(NLP)の重要なタスクです。
このタスクは、限られた注釈付きデータセットを備えた低リソース言語であるベトナム語にとって特に困難です。
これらの課題に対処するために、広く読まれているベトナムのオンラインニュースプラットフォームであるvNexpressの物語テキストを使用して、包括的な注釈付きデータセットを開発しました。
一貫性と精度を確保することに焦点を当て、エンティティに注釈を付けるための詳細なガイドラインを確立しました。
さらに、このデータセットで、大規模な言語モデル(LLMS)、特にGPT-3.5ターボとGPT-4のパフォーマンスを評価しました。
我々の結果は、GPT-4が精度と応答の両方の一貫性の両方の点でGPT-3.5ターボを大幅に上回り、ベトナムの共同解像度のためのより信頼性の高いツールになることを示しています。

要約(オリジナル)

Coreference resolution is a vital task in natural language processing (NLP) that involves identifying and linking different expressions in a text that refer to the same entity. This task is particularly challenging for Vietnamese, a low-resource language with limited annotated datasets. To address these challenges, we developed a comprehensive annotated dataset using narrative texts from VnExpress, a widely-read Vietnamese online news platform. We established detailed guidelines for annotating entities, focusing on ensuring consistency and accuracy. Additionally, we evaluated the performance of large language models (LLMs), specifically GPT-3.5-Turbo and GPT-4, on this dataset. Our results demonstrate that GPT-4 significantly outperforms GPT-3.5-Turbo in terms of both accuracy and response consistency, making it a more reliable tool for coreference resolution in Vietnamese.

arxiv情報

著者 Hieu-Dai Tran,Duc-Vu Nguyen,Ngan Luu-Thuy Nguyen
発行日 2025-04-28 09:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク