要約
人間はコミュニケーションの意図を間接的または非文字通りに表現することが多いため、対話者 (人間または AI) が言葉の文字通りの意味を超えて理解する必要があります。
既存の研究のほとんどは識別評価に焦点を当ててきましたが、我々は、非リテラル発話に対する応答を調べることによって大規模言語モデル (LLM) の意図理解を生成的に評価する新しいアプローチを提案します。
理想的には、LLM は、文字通りの解釈ではなく、非文字通りの発話の真の意図に沿って応答する必要があります。
私たちの調査結果は、LLM が非文字通りの言語に対して実用的に適切な応答を生成するのに苦労し、平均で 50 ~ 55% の精度しか達成できないことを示しています。
オラクルの意図を明示的に提供するとパフォーマンスが大幅に向上しますが (たとえば、Mistral-Instruct の場合は 75%)、これは依然として、与えられた意図を活用して適切な応答を生成する際の課題を示しています。
思考の連鎖を使用してモデルに意図を詳しく説明しても、得られる利益ははるかに小さくなります (Mistral-Instruct の場合は 60%)。
これらの発見は、LLM がまだ効果的なプラグマティックな対話者ではないことを示唆しており、意図をモデル化し、それをプラグマティックな生成に利用するためのより良いアプローチの必要性を強調しています。
要約(オリジナル)
Humans often express their communicative intents indirectly or non-literally, which requires their interlocutors — human or AI — to understand beyond the literal meaning of words. While most existing work has focused on discriminative evaluations, we present a new approach to generatively evaluate large language models’ (LLMs’) intention understanding by examining their responses to non-literal utterances. Ideally, an LLM should respond in line with the true intention of a non-literal utterance, not its literal interpretation. Our findings show that LLMs struggle to generate pragmatically relevant responses to non-literal language, achieving only 50-55% accuracy on average. While explicitly providing oracle intentions significantly improves performance (e.g., 75% for Mistral-Instruct), this still indicates challenges in leveraging given intentions to produce appropriate responses. Using chain-of-thought to make models spell out intentions yields much smaller gains (60% for Mistral-Instruct). These findings suggest that LLMs are not yet effective pragmatic interlocutors, highlighting the need for better approaches for modeling intentions and utilizing them for pragmatic generation.
arxiv情報
著者 | Akhila Yerukola,Saujas Vaduguru,Daniel Fried,Maarten Sap |
発行日 | 2024-05-14 16:48:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google