要約
日常生活における大規模言語モデル(LLM)の重要性の高まりは、その生成能力に起因するところが大きいが、その使用に関するリスクやコストにも起因するところがある。ひとつには、LLMは誤った情報や誤解を招く情報を幻視する傾向があり、その信頼性を制限している。もうひとつは、従来の自己注意をベースとしたLLMに関連する計算上の限界に注目が集まっていることで、それを克服するための新しい選択肢、特にリカレントモデルが登場している。しかし、これら2つの懸念を同時に考慮することは、まだ珍しいことである。アーキテクチャの変化は、幻覚に関する既存の懸念を悪化させるのか、軽減させるのか?幻覚がどこでどのように起こるのかに影響を与えるのか?広範な評価を通じて、これらの建築に基づく帰納的バイアスが、幻覚の傾向にどのような影響を与えるかを研究する。幻覚は特定のアーキテクチャに限定されない一般的な現象であることに変わりはないが、幻覚が発生する状況や、特定のタイプの幻覚が誘発されやすいかどうかは、モデルアーキテクチャによって大きく異なる可能性がある。これらの知見は、幻覚を扱うためのより普遍的な技術を設計する方法を検討するだけでなく、これら両方の問題を相互に関連してよりよく理解する必要性を浮き彫りにしている。
要約(オリジナル)
The growth in prominence of large language models (LLMs) in everyday life can be largely attributed to their generative abilities, yet some of this is also owed to the risks and costs associated with their use. On one front is their tendency to hallucinate false or misleading information, limiting their reliability. On another is the increasing focus on the computational limitations associated with traditional self-attention based LLMs, which has brought about new alternatives, in particular recurrent models, meant to overcome them. Yet it remains uncommon to consider these two concerns simultaneously. Do changes in architecture exacerbate/alleviate existing concerns about hallucinations? Do they affect how and where they occur? Through an extensive evaluation, we study how these architecture-based inductive biases affect the propensity to hallucinate. While hallucination remains a general phenomenon not limited to specific architectures, the situations in which they occur and the ease with which specific types of hallucinations can be induced can significantly differ based on the model architecture. These findings highlight the need for better understanding both these problems in conjunction with each other, as well as consider how to design more universal techniques for handling hallucinations.
arxiv情報
著者 | Jerry Huang,Prasanna Parthasarathi,Mehdi Rezagholizadeh,Boxing Chen,Sarath Chandar |
発行日 | 2025-04-04 11:55:58+00:00 |
arxivサイト | arxiv_id(pdf) |