要約
特定のコンテキストから回答を抽出することを含む質問回答(QA)タスクは、コンテキストが短いときに最新の大手言語モデル(LLM)にとって比較的簡単です。
ただし、長いコンテキストは、自己触媒メカニズムの二次的な複雑さのために課題を引き起こします。
この課題は、インド言語で複合されており、多くの場合、リソースが少ないことがよくあります。
この研究では、QAパフォーマンスを改善するために、オープン情報抽出(OIE)、コアレファレンス解像度、回答段落選択(APS)、およびそれらの組み合わせなど、コンテキストの短縮技術を調査します。
未解決の(長い)コンテキストのベースラインと比較して、4つのインド言語(ヒンディー語、タミル語、テルグ語、およびウルドゥー語)での実験は、コンテキストを縮小する技術がセマンティックスコアで4 \%の平均改善をもたらすことを示しています。
さらに、微調整により、セマンティックとトークンレベルのスコアの両方で平均2 \%の増加を達成します。
さらに、コンテキストの短縮により、計算オーバーヘッドが減少します。
LimeやShapなどの説明可能性の手法は、APSモデルが答えを含む段落を自信を持って識別すると、選択したテキスト内のほぼすべてのトークンが高い関連スコアを受信することを明らかにしています。
ただし、この研究では、LLMベースのQAシステムの限界、特に推論や議論が必要な質問に対処する際の制限も強調されています。
さらに、OIEで生成されたトリプルを言葉遣いすることは、システムのパフォーマンスを向上させません。
これらの調査結果は、特に低リソース言語のLLMベースのQAシステムの効率と有効性を改善するためのコンテキストを縮小する技術の可能性を強調しています。
ソースコードとリソースは、https://github.com/ritwikmishra/indicgenqaで入手できます。
要約(オリジナル)
Question Answering (QA) tasks, which involve extracting answers from a given context, are relatively straightforward for modern Large Language Models (LLMs) when the context is short. However, long contexts pose challenges due to the quadratic complexity of the self-attention mechanism. This challenge is compounded in Indic languages, which are often low-resource. This study explores context-shortening techniques, including Open Information Extraction (OIE), coreference resolution, Answer Paragraph Selection (APS), and their combinations, to improve QA performance. Compared to the baseline of unshortened (long) contexts, our experiments on four Indic languages (Hindi, Tamil, Telugu, and Urdu) demonstrate that context-shortening techniques yield an average improvement of 4\% in semantic scores and 47\% in token-level scores when evaluated on three popular LLMs without fine-tuning. Furthermore, with fine-tuning, we achieve an average increase of 2\% in both semantic and token-level scores. Additionally, context-shortening reduces computational overhead. Explainability techniques like LIME and SHAP reveal that when the APS model confidently identifies the paragraph containing the answer, nearly all tokens within the selected text receive high relevance scores. However, the study also highlights the limitations of LLM-based QA systems in addressing non-factoid questions, particularly those requiring reasoning or debate. Moreover, verbalizing OIE-generated triples does not enhance system performance. These findings emphasize the potential of context-shortening techniques to improve the efficiency and effectiveness of LLM-based QA systems, especially for low-resource languages. The source code and resources are available at https://github.com/ritwikmishra/IndicGenQA.
arxiv情報
著者 | Ritwik Mishra,Rajiv Ratn Shah,Ponnurangam Kumaraguru |
発行日 | 2025-04-18 10:43:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google