要約
ますます洗練された自然言語処理(NLP)システムの時代では、大規模な言語モデル(LLM)は、微妙なテキストの理解と文脈的推論を必要とするタスクを含む、多様なアプリケーションの顕著な可能性を実証しています。
この研究では、ロシア語とウクライナ人のソーシャルメディア投稿を含む複雑なテキストデータセットのゼロショットと少数のショットの注釈について、複数の最先端のLLMS-GPT-3.5、GPT-4、LLAMA3、MISTRAL 7B、およびCLAUDE-2の能力を調査しています。
具体的には、データセット内の人権侵害への参照を特定するというバイナリ分類タスクに焦点が当てられています。
これらのモデルの有効性を評価するために、それらの注釈は、1000のサンプルにわたってヒト二重放出ラベルのゴールドスタンダードセットと比較されます。
分析には、さまざまなプロンプト条件下での注釈のパフォーマンスの評価が含まれ、英語とロシア語の両方でプロンプトが提供されます。
さらに、この研究では、各モデルが示すエラーと意見の相違のユニークなパターンを調査し、その強み、制限、および言語間適応性に関する洞察を提供します。
LLM出力を人間の注釈と並置することにより、この研究は、多言語のコンテキストでの敏感なドメイン固有のタスクに対するLLMの信頼性と適用性を理解することに貢献します。
また、言語モデルが本質的に主観的およびコンテキスト依存的な判断をどのように処理するかについても光を当てます。これは、実際のシナリオでの展開に対する重要な考慮事項です。
要約(オリジナル)
In the era of increasingly sophisticated natural language processing (NLP) systems, large language models (LLMs) have demonstrated remarkable potential for diverse applications, including tasks requiring nuanced textual understanding and contextual reasoning. This study investigates the capabilities of multiple state-of-the-art LLMs – GPT-3.5, GPT-4, LLAMA3, Mistral 7B, and Claude-2 – for zero-shot and few-shot annotation of a complex textual dataset comprising social media posts in Russian and Ukrainian. Specifically, the focus is on the binary classification task of identifying references to human rights violations within the dataset. To evaluate the effectiveness of these models, their annotations are compared against a gold standard set of human double-annotated labels across 1000 samples. The analysis includes assessing annotation performance under different prompting conditions, with prompts provided in both English and Russian. Additionally, the study explores the unique patterns of errors and disagreements exhibited by each model, offering insights into their strengths, limitations, and cross-linguistic adaptability. By juxtaposing LLM outputs with human annotations, this research contributes to understanding the reliability and applicability of LLMs for sensitive, domain-specific tasks in multilingual contexts. It also sheds light on how language models handle inherently subjective and context-dependent judgments, a critical consideration for their deployment in real-world scenarios.
arxiv情報
著者 | Poli Apollinaire Nemkova,Solomon Ubani,Mark V. Albert |
発行日 | 2025-05-15 13:10:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google