Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language Models

要約

効果的な対話者は、相手の不確かな目標、信念、感情を考慮する。しかし、どんなに優れた会話者でも、対話の軌跡を完璧に予測することはできない。言語モデルは会話に内在する不確実性をどの程度表現できるのだろうか?我々は、長年の「会話予測」タスクの拡張であるFortUne Dialを提案する。単に正確さを評価するのではなく、不確実性を考慮したメトリクスを用いて評価を行うことで、効果的に個々のインスタンスに対する棄権を可能にする。我々は、言語モデルが結果の不確実性を表現する可能性のある2つの方法(スコアを用いる内部的な方法と、トークンを用いる直接的な方法)を研究し、両方の表現の較正を改善するための微調整戦略を提案する。難易度の高い8つの交渉コーパスを用いた実験により、我々の提案する微調整戦略(伝統的な監視戦略と政策外の強化学習戦略)により、小規模なオープンソースモデルを較正し、その10倍の大きさの事前学習済みモデルと競合できることを実証する。

要約(オリジナル)

Effective interlocutors account for the uncertain goals, beliefs, and emotions of others. But even the best human conversationalist cannot perfectly anticipate the trajectory of a dialogue. How well can language models represent inherent uncertainty in conversations? We propose FortUne Dial, an expansion of the long-standing ‘conversation forecasting’ task: instead of just accuracy, evaluation is conducted with uncertainty-aware metrics, effectively enabling abstention on individual instances. We study two ways in which language models potentially represent outcome uncertainty (internally, using scores and directly, using tokens) and propose fine-tuning strategies to improve calibration of both representations. Experiments on eight difficult negotiation corpora demonstrate that our proposed fine-tuning strategies (a traditional supervision strategy and an off-policy reinforcement learning strategy) can calibrate smaller open-source models to compete with pre-trained models 10x their size.

arxiv情報

著者 Anthony Sicilia,Hyunwoo Kim,Khyathi Raghavi Chandu,Malihe Alikhani,Jack Hessel
発行日 2024-02-05 18:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク