要約
フォーマット指示に従って適切に構造化されたコンテンツを生成することは、大規模言語モデル (LLM) の基本的な機能ですが、満たされていないことがよくあります。
フォーマットの忠実性と呼ばれるこの機能を研究するために、フォーマット関連の包括的なベンチマークである FormatBench を紹介します。
以前のフォーマット関連のベンチマークと比較して、FormatBench には、アプリケーション シーン (従来の NLP タスク、クリエイティブな作業、自律機関タスク)、人間と LLM の対話スタイル (シングル ターンの指示、マルチ ターンのチャット)、
および形式タイプ (インクルード、ラッピング、長さ、コーディング)。
さらに、FormatBench の各タスクにはフォーマット チェッカー プログラムが付属しています。
ベンチマークに関する広範な実験により、最先端のオープンソースおよびクローズドソースの LLM には、フォーマットの忠実性が依然として深刻な欠陥があることが明らかになりました。
フォーマットは決定可能な性質を持っているため、LLM が一般的な品質を損なうことなく、指示どおりにフォーマットされた出力を生成できるように、フォーマット忠実度の強化 (ReFF) を提案します。
注釈付きデータがない場合、ReFF はフォーマットの忠実度を大幅に向上させることができます (例: 元の LLaMA3 の 21.6% からキャプション セグメンテーション タスクの 95.0%)。同時に、一般的な品質を同等に保ちます (例: F1 スコアで 47.3 から 46.4)。
ラベル付きトレーニング データと組み合わせると、ReFF はフォーマットの忠実性 (例: 元の LLaMA3 の 21.6% から 75.5%) と全体的な品質 (例: F1 スコアの 47.3 から 61.6) の両方を同時に改善できます。
さらに、ReFF がフォーマットの忠実性と全体的な品質の両方をどのように向上させるかを説明する解釈可能性分析を提供します。
要約(オリジナル)
Following formatting instructions to generate well-structured content is a fundamental yet often unmet capability for large language models (LLMs). To study this capability, which we refer to as format faithfulness, we present FormatBench, a comprehensive format-related benchmark. Compared to previous format-related benchmarks, FormatBench involves a greater variety of tasks in terms of application scenes (traditional NLP tasks, creative works, autonomous agency tasks), human-LLM interaction styles (single-turn instruction, multi-turn chat), and format types (inclusion, wrapping, length, coding). Moreover, each task in FormatBench is attached with a format checker program. Extensive experiments on the benchmark reveal that state-of-the-art open- and closed-source LLMs still suffer from severe deficiency in format faithfulness. By virtue of the decidable nature of formats, we propose to Reinforce Format Faithfulness (ReFF) to help LLMs generate formatted output as instructed without compromising general quality. Without any annotated data, ReFF can substantially improve the format faithfulness rate (e.g., from 21.6% in original LLaMA3 to 95.0% on caption segmentation task), while keep the general quality comparable (e.g., from 47.3 to 46.4 in F1 scores). Combined with labeled training data, ReFF can simultaneously improve both format faithfulness (e.g., from 21.6% in original LLaMA3 to 75.5%) and general quality (e.g., from 47.3 to 61.6 in F1 scores). We further offer an interpretability analysis to explain how ReFF improves both format faithfulness and general quality.
arxiv情報
著者 | Jiashu Yao,Heyan Huang,Zeming Liu,Haoyu Wen,Wei Su,Boao Qian,Yuhang Guo |
発行日 | 2024-12-12 11:03:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google