要約
大規模言語モデル (LLM) は、モデルの出力をユーザーの期待に合わせるために重要な命令のフォローなど、さまざまなタスクで優れた機能を実証しています。
しかし、人間の言語の複雑さと主観性のため、LLM の指示に従う能力を評価することは依然として困難です。
現在のベンチマークは主にシングルターンの単一言語命令に焦点を当てており、マルチターンおよび多言語の対話の処理を必要とする現実世界のアプリケーションの複雑さを適切に反映していません。
このギャップに対処するために、マルチターンおよび多言語の指示に従う際の LLM の習熟度を評価するために設計された新しいベンチマークである Multi-IF を導入します。
LLM とヒューマン アノテーターを組み合わせたハイブリッド フレームワークを利用する Multi-IF は、マルチターン シーケンスを組み込み、英語のプロンプトを別の 7 言語に翻訳することで IFEval を拡張し、その結果、それぞれが 3 ターンを持つ 4,501 の多言語会話のデータセットが得られます。
マルチ IF 上の 14 個の最先端 LLM を評価したところ、既存のベンチマークよりもはるかに困難なタスクであることが明らかになりました。
テストされたすべてのモデルは、ターンが増えるごとに、命令を正しく実行する際の失敗率が高くなることが示されました。
たとえば、すべての言語の平均精度に関して、o1-preview は最初のターンの 0.877 から 3 ターン目の 0.707 に低下します。
さらに、非ラテン文字を使用する言語 (ヒンディー語、ロシア語、中国語) は一般にエラー率が高く、モデルの多言語機能に潜在的な制限があることが示唆されています。
この重要な分野でのさらなる研究を奨励するために、Multi-IF プロンプトと評価コード ベースをリリースします。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated impressive capabilities in various tasks, including instruction following, which is crucial for aligning model outputs with user expectations. However, evaluating LLMs’ ability to follow instructions remains challenging due to the complexity and subjectivity of human language. Current benchmarks primarily focus on single-turn, monolingual instructions, which do not adequately reflect the complexities of real-world applications that require handling multi-turn and multilingual interactions. To address this gap, we introduce Multi-IF, a new benchmark designed to assess LLMs’ proficiency in following multi-turn and multilingual instructions. Multi-IF, which utilizes a hybrid framework combining LLM and human annotators, expands upon the IFEval by incorporating multi-turn sequences and translating the English prompts into another 7 languages, resulting in a dataset of 4,501 multilingual conversations, where each has three turns. Our evaluation of 14 state-of-the-art LLMs on Multi-IF reveals that it presents a significantly more challenging task than existing benchmarks. All the models tested showed a higher rate of failure in executing instructions correctly with each additional turn. For example, o1-preview drops from 0.877 at the first turn to 0.707 at the third turn in terms of average accuracy over all languages. Moreover, languages with non-Latin scripts (Hindi, Russian, and Chinese) generally exhibit higher error rates, suggesting potential limitations in the models’ multilingual capabilities. We release Multi-IF prompts and the evaluation code base to encourage further research in this critical area.
arxiv情報
著者 | Yun He,Di Jin,Chaoqi Wang,Chloe Bi,Karishma Mandyam,Hejia Zhang,Chen Zhu,Ning Li,Tengyu Xu,Hongjiang Lv,Shruti Bhosale,Chenguang Zhu,Karthik Abinav Sankararaman,Eryk Helenowski,Melanie Kambadur,Aditya Tayade,Hao Ma,Han Fang,Sinong Wang |
発行日 | 2024-11-13 04:26:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google