Evaluating Human-Language Model Interaction

要約

執筆支援やコードのオートコンプリートなど、言語モデル (LM) の現実世界のアプリケーションの多くには、人間と LM の対話が含まれます。
ただし、ほとんどのベンチマークは非対話型であり、人間の介入なしにモデルが出力を生成します。
人間と LM のインタラクションを評価するために、私たちは新しいフレームワークである Human-AI Language-based Interaction Evaluation (HALIE) を開発しました。このフレームワークは、インタラクティブ システムのコンポーネントと、評価指標を設計する際に考慮すべき次元を定義します。
標準の非対話型評価と比較して、HALIE は (i) 最終出力だけでなく対話型プロセスをキャプチャします。
(ii) 単なる第三者の評価ではなく、一人称の主観的な経験。
(iii) 品質を超えた好みの概念 (例: 楽しみや所有権)。
次に、さまざまな形式のインタラクションをカバーする 5 つのタスク (社会的対話、質問応答、クロスワード パズル、要約、メタファー生成) を設計します。
4 つの最先端の LM (OpenAI の GPT-3 と AI21 Labs の Jurassic-1 の 3 つの変種) を使用すると、非インタラクティブなパフォーマンスの向上が必ずしも人間と LM のインタラクションの向上につながるわけではないことがわかりました。
特に、非インタラクティブなメトリクスとインタラクティブなメトリクスの結果が異なる 3 つのケースに焦点を当て、LM 評価における人間と LM のインタラクションの重要性を強調します。

要約(オリジナル)

Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI’s GPT-3 and AI21 Labs’ Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.

arxiv情報

著者 Mina Lee,Megha Srivastava,Amelia Hardy,John Thickstun,Esin Durmus,Ashwin Paranjape,Ines Gerard-Ursin,Xiang Lisa Li,Faisal Ladhak,Frieda Rong,Rose E. Wang,Minae Kwon,Joon Sung Park,Hancheng Cao,Tony Lee,Rishi Bommasani,Michael Bernstein,Percy Liang
発行日 2023-07-12 16:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク