Closing the Loop: Learning to Generate Writing Feedback via Language Model Simulated Student Revisions

要約

フィードバックを提供することは、生徒のライティング スキルを向上させるために重要であると広く認識されています。
言語モデル (LM) の最近の進歩により、実用的で人間が指定した属性とよく整合したフィードバックを自動的に生成できるようになりました。
ただし、これらのモデルによって生成されるフィードバックが、生徒の改訂の質を高めるのに本当に効果的であるかどうかは依然として不明です。
さらに、改訂パフォーマンスの向上につながる可能性のある特定の属性に関するコンセンサスが欠如しているため、LM にフィードバックを生成するための正確な指示セットを促すことは簡単ではありません。
これらの課題に対処するために、LM がシミュレートした学生の改訂からの学習を通じてフィードバックを生み出す PROF を提案します。
PROF は、LM によってシミュレートされた生徒の全体的な改訂パフォーマンスの有効性を直接最大化することにより、フィードバック ジェネレーターを反復的に最適化することを目的としています。
経済エッセイの課題に焦点を当て、PROF の有効性を実証的にテストしたところ、私たちのアプローチは生徒の作文を改善する効果においてさまざまな基本的な方法を上回っているだけでなく、このために明示的に訓練されていないにもかかわらず、教育的価値の向上も実証されていることがわかりました。
側面。

要約(オリジナル)

Providing feedback is widely recognized as crucial for refining students’ writing skills. Recent advances in language models (LMs) have made it possible to automatically generate feedback that is actionable and well-aligned with human-specified attributes. However, it remains unclear whether the feedback generated by these models is truly effective in enhancing the quality of student revisions. Moreover, prompting LMs with a precise set of instructions to generate feedback is nontrivial due to the lack of consensus regarding the specific attributes that can lead to improved revising performance. To address these challenges, we propose PROF that PROduces Feedback via learning from LM simulated student revisions. PROF aims to iteratively optimize the feedback generator by directly maximizing the effectiveness of students’ overall revising performance as simulated by LMs. Focusing on an economic essay assignment, we empirically test the efficacy of PROF and observe that our approach not only surpasses a variety of baseline methods in effectiveness of improving students’ writing but also demonstrates enhanced pedagogical values, even though it was not explicitly trained for this aspect.

arxiv情報

著者 Inderjeet Nair,Jiaye Tan,Xiaotian Su,Anne Gere,Xu Wang,Lu Wang
発行日 2024-10-10 15:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Optimal Transportation by Orthogonal Coupling Dynamics

要約

多くの数値アルゴリズムと学習タスクは、Monge-Kantorovich 問題の解と対応する Wasserstein 距離に基づいています。
問題を無限次元線形計画法として扱うのが自然なアプローチですが、このような方法論では、サンプル サイズに関する多項式のスケーリングと大量のメモリ要件により、計算パフォーマンスが大幅に制限されます。
我々は、投影型勾配降下法に基づいてモンジュ・カントロヴィッチ問題に対処するための新しい代替フレームワークを提案します。
マイクロダイナミクスは、条件付き期待の概念に基づいて構築されており、意見のダイナミクスとの関係が調査され、コンパクトな数値スキームを構築するために活用されます。
考案されたダイナミクスにより、良好な計算パフォーマンスでランダム マップが復元されることを示します。
理論的な洞察に加えて、提供されたダイナミクスは、最適な輸送マップとワッサーシュタイン距離を計算するための数値スキームを構築するための革新的なアプローチへの道を開きます。

要約(オリジナル)

Many numerical algorithms and learning tasks rest on solution of the Monge-Kantorovich problem and corresponding Wasserstein distances. While the natural approach is to treat the problem as an infinite-dimensional linear programming, such a methodology severely limits the computational performance due to the polynomial scaling with respect to the sample size along with intensive memory requirements. We propose a novel alternative framework to address the Monge-Kantorovich problem based on a projection type gradient descent scheme. The micro-dynamics is built on the notion of the conditional expectation, where the connection with the opinion dynamics is explored and leveraged to build compact numerical schemes. We demonstrate that the devised dynamics recovers random maps with favourable computational performance. Along with the theoretical insight, the provided dynamics paves the way for innovative approaches to construct numerical schemes for computing optimal transport maps as well as Wasserstein distances.

arxiv情報

著者 Mohsen Sadr,Peyman Mohajerin Esfehani,Hossein Gorji
発行日 2024-10-10 15:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, math.OC | コメントする

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

要約

大規模言語モデル (LLM) における好みの調整により、人間の指示や意図に従う能力が大幅に向上しました。
ただし、既存の直接調整アルゴリズムは主に相対的な好みに焦点を当てており、応答の定性的側面が見落とされていることがよくあります。
選択された応答とわずかに劣る拒否された応答の間の暗黙の報酬ギャップを最大化しようと努めると、高品質の拒否された応答の過剰適合や不必要な未学習が発生する可能性があります。
また、報酬スコアを認識していないため、LLM は選択された低品質の応答を無差別に優先し、データがまばらな最高の報酬を持つ応答を一般化できなくなります。
これらの欠点を克服するために、私たちの研究では、データセット内の応答品質のスペクトル全体を識別して学習し、より最適な領域を推定するのに役立つ報酬条件付き LLM ポリシーを導入しています。
報酬拡張データセットを構築するために、品質スコアに基づいて嗜好ペアを条件付ける、効果的かつシンプルなデータの再ラベル付け方法を提案します。
このデータセットは、既存の直接アライメント アルゴリズムと簡単に統合でき、あらゆる好みのデータセットに適用できます。
AlpacaEval、MT-Bench、Arena-Hard-Auto などの命令に従うベンチマークにわたる実験結果は、私たちのアプローチがさまざまなモデルにわたって DPO のパフォーマンスを一貫して大幅に向上させることを示しています。
さらに、私たちの方法は、さまざまな学術ベンチマークの平均精度を向上させます。
私たちのメソッドをポリシー上のデータに適用すると、結果として得られる DPO モデルは AlpacaEval で SOTA の結果を達成します。
アブレーション研究を通じて、私たちの方法が嗜好データの有用性を最大化するだけでなく、未学習の問題も軽減することを実証し、単なるデータセットの拡張を超えた広範な有効性を実証します。
私たちのコードは https://github.com/shenao-zhang/reward-augmented-preference で入手できます。

要約(オリジナル)

Preference alignment in Large Language Models (LLMs) has significantly improved their ability to adhere to human instructions and intentions. However, existing direct alignment algorithms primarily focus on relative preferences and often overlook the qualitative aspects of responses. Striving to maximize the implicit reward gap between the chosen and the slightly inferior rejected responses can cause overfitting and unnecessary unlearning of the high-quality rejected responses. The unawareness of the reward scores also drives the LLM to indiscriminately favor the low-quality chosen responses and fail to generalize to responses with the highest rewards, which are sparse in data. To overcome these shortcomings, our study introduces reward-conditioned LLM policies that discern and learn from the entire spectrum of response quality within the dataset, helping extrapolate to more optimal regions. We propose an effective yet simple data relabeling method that conditions the preference pairs on quality scores to construct a reward-augmented dataset. This dataset is easily integrated with existing direct alignment algorithms and is applicable to any preference dataset. The experimental results across instruction-following benchmarks including AlpacaEval, MT-Bench, and Arena-Hard-Auto demonstrate that our approach consistently boosts the performance of DPO by a considerable margin across diverse models. Additionally, our method improves the average accuracy on various academic benchmarks. When applying our method to on-policy data, the resulting DPO model achieves SOTA results on AlpacaEval. Through ablation studies, we demonstrate that our method not only maximizes the utility of preference data but also mitigates the issue of unlearning, demonstrating its broad effectiveness beyond mere dataset expansion. Our code is available at https://github.com/shenao-zhang/reward-augmented-preference.

arxiv情報

著者 Shenao Zhang,Zhihan Liu,Boyi Liu,Yufeng Zhang,Yingxiang Yang,Yongfei Liu,Liyu Chen,Tao Sun,Zhaoran Wang
発行日 2024-10-10 16:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Teaching-Inspired Integrated Prompting Framework: A Novel Approach for Enhancing Reasoning in Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなドメインにわたって優れたパフォーマンスを示しますが、算術推論タスクでは依然として困難を伴います。
最近の研究では、プロンプト設計手法が推論能力の向上に有効であることが示されています。
しかし、これらのアプローチでは、ほとんどの算術推論の問題にうまく取り組むための、特定の概念、定理、トリックに関する事前知識という重要な要件が見落とされています。
この問題に対処するために、私たちは、生徒を指導する教師の指導プロセスをエミュレートする、斬新で効果的な教育にインスピレーションを得た統合フレームワークを提案します。
この方法は、LLM に本質的な概念、関連する定理、および同様の解決アプローチによる同様の問題を提供し、推論能力の強化を促進します。
さらに、2 つの新しい中国語データセット、MathMC と MathToF を詳細な説明と回答とともに紹介します。
実験は 9 つのベンチマークで行われ、私たちのアプローチが LLM の推論精度を向上させることを示しています。
GPT-4 と当社のフレームワークにより、4 つの数学ベンチマーク (AddSub、SVAMP、Math23K、AQuA) で 98.2% (+3.3%)、93.9% (+0.2%) の精度を備えた新しい最先端のパフォーマンスを達成しました。
、94.3% (+7.2%)、81.1% (+1.2%)。
データとコードは https://github.com/SallyTan13/Teaching-Inspired-Prompting で入手できます。

要約(オリジナル)

Large Language Models (LLMs) exhibit impressive performance across various domains but still struggle with arithmetic reasoning tasks. Recent work shows the effectiveness of prompt design methods in enhancing reasoning capabilities. However, these approaches overlook crucial requirements for prior knowledge of specific concepts, theorems, and tricks to tackle most arithmetic reasoning problems successfully. To address this issue, we propose a novel and effective Teaching-Inspired Integrated Framework, which emulates the instructional process of a teacher guiding students. This method equips LLMs with essential concepts, relevant theorems, and similar problems with analogous solution approaches, facilitating the enhancement of reasoning abilities. Additionally, we introduce two new Chinese datasets, MathMC and MathToF, both with detailed explanations and answers. Experiments are conducted on nine benchmarks which demonstrates that our approach improves the reasoning accuracy of LLMs. With GPT-4 and our framework, we achieve new state-of-the-art performance on four math benchmarks (AddSub, SVAMP, Math23K and AQuA) with accuracies of 98.2% (+3.3%), 93.9% (+0.2%), 94.3% (+7.2%) and 81.1% (+1.2%). Our data and code are available at https://github.com/SallyTan13/Teaching-Inspired-Prompting.

arxiv情報

著者 Wenting Tan,Dongxiao Chen,Jieting Xue,Zihao Wang,Taijie Chen
発行日 2024-10-10 16:02:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Sparse Attention Decomposition Applied to Circuit Tracing

要約

多くの論文は、アテンションヘッドが互いに連携して複雑なタスクを実行することを示しています。
アテンションヘッド間の通信は、トークン残差への特定の機能の追加を介して行われることがよく想定されます。
この研究では、GPT-2 small のアテンションヘッド間の通信と調整に影響を与えるために使用される機能を分離して特定することを目指しています。
この問題に対する私たちの主な活用方法は、これらの特徴が注目ヘッド行列の特異ベクトル内でまばらにコード化されることが非常に多いことを示すことです。
間接物体識別 (IOI) タスクに使用した場合の GPT-2 Small のアテンション ヘッド全体にわたるこれらの信号の次元と発生を特徴付けます。
アテンション ヘッド特異ベクトルによって提供される信号のスパース エンコーディングにより、残留バックグラウンドから信号を効率的に分離し、アテンション ヘッド間の通信パスを簡単に識別できます。
IOI タスクで使用される回路の一部を追跡することで、このアプローチの有効性を調査します。
私たちのトレースは、以前の研究には存在しなかったかなりの詳細を明らかにし、GPT-2 に存在する冗長パスの性質を明らかにします。
また、私たちのトレースは、IOI の実行時にアテンション ヘッド間の通信に使用される特徴を特定することで、以前の研究を超えています。

要約(オリジナル)

Many papers have shown that attention heads work in conjunction with each other to perform complex tasks. It’s frequently assumed that communication between attention heads is via the addition of specific features to token residuals. In this work we seek to isolate and identify the features used to effect communication and coordination among attention heads in GPT-2 small. Our key leverage on the problem is to show that these features are very often sparsely coded in the singular vectors of attention head matrices. We characterize the dimensionality and occurrence of these signals across the attention heads in GPT-2 small when used for the Indirect Object Identification (IOI) task. The sparse encoding of signals, as provided by attention head singular vectors, allows for efficient separation of signals from the residual background and straightforward identification of communication paths between attention heads. We explore the effectiveness of this approach by tracing portions of the circuits used in the IOI task. Our traces reveal considerable detail not present in previous studies, shedding light on the nature of redundant paths present in GPT-2. And our traces go beyond previous work by identifying features used to communicate between attention heads when performing IOI.

arxiv情報

著者 Gabriel Franco,Mark Crovella
発行日 2024-10-10 16:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

miniCodeProps: a Minimal Benchmark for Proving Code Properties

要約

AI エージェントは、Lean などの証明アシスタントでの数学定理証明の自動化において、最初の有望性を示しています。
同じ証明アシスタントを使用して、コードと仕様および仕様が保持する証明をペアにすることにより、コードの正しさを検証できます。
コード、仕様、証明の作成を自動化すれば、検証コストを削減でき、あるいは意欲的には、AI エージェントが安全で正しいと証明できるコードを出力できるようになります。
しかし、現在の神経定理証明装置が比較的単純なプログラムであっても自動的に検証できるかどうかは依然として不明である。
提供されたプログラムと仕様の証明を自動的に生成する副問題を目的とした、リーン証明アシスタントの 201 のプログラム仕様のベンチマークである miniCodeProps を紹介します。
miniCodeProps には、さまざまな証明難易度を備えた単純な自己完結型プログラム (リスト、自然数、二分木など) に関する仕様が含まれています。
そのシンプルさにもかかわらず、miniCodeProps は現在の LLM ベースの証明器を打ち破るのに十分です。最先端のメソッドは miniCodeProps の簡単なプロパティについては有望ですが、中程度のプロパティと難しいプロパティのほぼすべてを証明することはできません。
私たちは、正式に検証されたコードのコンテキストで自動化された定理証明を促進するためのベンチマークとして miniCodeProps を一般公開します。

要約(オリジナル)

AI agents have shown initial promise in automating mathematical theorem proving in proof assistants such as Lean. The same proof assistants can be used to verify the correctness of code by pairing code with specifications and proofs that the specifications hold. Automating the writing of code, specifications, and proofs could lower the cost of verification, or, ambitiously, enable an AI agent to output safe, provably correct code. However, it remains unclear whether current neural theorem provers can automatically verify even relatively simple programs. We present miniCodeProps, a benchmark of 201 program specifications in the Lean proof assistant, aimed at the subproblem of automatically generating a proof for a provided program and specification. miniCodeProps contains specifications about simple, self-contained programs (e.g., lists, natural numbers, binary trees) with varied proof difficulty. Despite its simplicity, miniCodeProps is sufficient to break current LLM-based provers, with state-of-the-art methods showing promise on the easy properties in miniCodeProps, yet failing to prove nearly all of the medium and hard properties. We publicly release miniCodeProps as a benchmark for furthering automated theorem proving in the context of formally verified code.

arxiv情報

著者 Evan Lohn,Sean Welleck
発行日 2024-10-10 16:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | コメントする

Multimodal Optimization with k-Cluster Big Bang-Big Crunch Algorithm and Postprocessing Methods for Identification and Quantification of Optima

要約

マルチモーダル最適化は、エンジニアリング上の問題、特に異なる代替ソリューションが求められる場合によく発生します。
進化的アルゴリズムは、母集団、探索/活用の概念、並列計算に適しているなどの特徴により、マルチモーダルな最適化に効率的に取り組むことができます。
この論文では、あまり知られていないオプティマイザーであるビッグバンビッグクランチ (BBBC) アルゴリズムがマルチモーダル最適化に適しているかどうかを調査します。
私たちは BBBC を拡張し、クラスタリングベースのマルチモーダル オプティマイザーである k-BBBC を提案しました。
さらに、(i) 取得されたソリューションのセット (つまり、母集団) 内の局所最適値を特定し、(ii) 予想される最適値に対する正しく取得された最適値の数 (つまり、成功率) を定量化する 2 つの後処理方法を導入します。
)。
私たちの結果は、k-BBBC は、多数の最適化 ($379$ の最適化でテスト) と高次元 ($32$ の決定変数でテスト) を持つ問題でも良好なパフォーマンスを示しますが、多くの局所最適化 (
つまり、CEC’2013 ベンチマーク セット内)。
他のマルチモーダル最適化手法と比較して、基本的なマルチモーダル関数でテストした場合、特にエリート主義が適用されている場合、精度 (探索空間と目的空間の両方) と成功率 (正しく取得された最適値の数) の点で優れています。
ただし、問題の最適値の数を知る必要があるため、ニッチ競争テスト CEC’2013 でテストするとパフォーマンスが低下します。
最後に、成功率と実際の成功率を比較することで、提案した後処理方法を検証しました。結果は、これらの方法を使用して最適化を正確に特定し、成功の指標を提供することで、マルチモーダル最適化アルゴリズムのパフォーマンスを評価できることを示唆しています。
最適値が探索空間内のどこに位置するかを知る必要がある。

要約(オリジナル)

Multimodal optimization is often encountered in engineering problems, especially when different and alternative solutions are sought. Evolutionary algorithms can efficiently tackle multimodal optimization thanks to their features such as the concept of population, exploration/exploitation, and being suitable for parallel computation. This paper investigates whether a less-known optimizer, the Big Bang-Big Crunch (BBBC) algorithm, is suitable for multimodal optimization. We extended BBBC and propose k-BBBC, a clustering-based multi-modal optimizer. Additionally, we introduce two post-processing methods to (i) identify the local optima in a set of retrieved solutions (i.e., a population), and (ii) quantify the number of correctly retrieved optima against the expected ones (i.e., success rate). Our results show that k-BBBC performs well even with problems having a large number of optima (tested on $379$ optima) and high dimensionality (tested on $32$ decision variables), but it becomes computationally too expensive for problems with many local optima (i.e., in the CEC’2013 benchmark set). Compared to other multimodal optimization methods, it outperforms them in terms of accuracy (in both search and objective space) and success rate (number of correctly retrieved optima) when tested on basic multimodal functions, especially when elitism is applied; however, it requires knowing the number of optima of a problem, which makes its performance decrease when tested on niching competition test CEC’2013. Lastly, we validated our proposed post-processing methods by comparing their success rate to the actual one: results suggest that these methods can be used to evaluate the performance of a multimodal optimization algorithm by correctly identifying optima and providing an indication of success — without the need to know where the optima are located in the search space.

arxiv情報

著者 Kemal Erdem Yenin,Reha Oguz Sayin,Kuzey Arar,Kadir Kaan Atalay,Fabio Stroppa
発行日 2024-10-10 16:16:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | コメントする

Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages

要約

インド言語の新しい言語モデル (LM) ファミリーである「Paramanu」を紹介します。これは、ゼロから事前学習された自己回帰の単言語モデル、二言語モデル、および多言語モデルで構成されます。
現在、5 つの文字 (バングラ語、デーヴァナーガリー語、オーディア語、タミル語、テルグ語) にわたって 10 の言語 (アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティリ語、マラーティー語、オーディア語、サンスクリット語、タミル語、テルグ語) をカバーしています。
モデルは、コンテキスト サイズ 1024 の単一 GPU で事前トレーニングされており、サイズは 1,329 万 (M) から 3 億 6,750 万のパラメーターまで変化します。
私たちは、一般的な GPU メモリが許容するよりも大きなシーケンス長コンテキスト サイズで言語モデルを最初から事前トレーニングできる RoPE 埋め込みスケーリング手法を提案しました。
また、BPE と Unigram を組み合わせた新しい効率的なインド語トークナイザー「mBharat」も導入しました。これにより、最小の妊孕性スコアを達成し、同じ文字とローマ字の両方で未知の言語をトークン化する機能が実現しました。
また、多言語モデルの場合は言語固有のトークン化、単言語モデルの場合はドメイン固有のトークン化を提案し、実行しました。
mParamanu モデルの「多言語の呪い」に対処するために、同じ文字内の類型的なグループ化に基づいて、比較可能なコーパスで事前トレーニングしました。
私たちの調査結果は、同じ文字と類型の言語内で低リソース言語から高リソース言語への言語転移現象を示しています。
オープンエンドのテキスト生成に対する人による評価では、Paramanu モデルが 20 ~ 64 倍小さいにもかかわらず、いくつかの LLM よりも優れたパフォーマンスを発揮することが実証されました。
私たちは命令チューニング データセットを作成し、それぞれの言語で 23,000 の命令に基づいてモデルを命令チューニングしました。
自然言語 (NL) 理解、NL 推論、読解のさまざまなベンチマークにわたる多言語 LLM との比較により、私たちのモデルの利点が強調されます。
このことから、高品質の生成 LM は、大量の計算能力や膨大な数のパラメータがなくても可能であるという結論につながります。

要約(オリジナル)

We present ‘Paramanu’, a family of novel language models (LM) for Indian languages, consisting of auto-regressive monolingual, bilingual, and multilingual models pretrained from scratch. Currently, it covers 10 languages (Assamese, Bangla, Hindi, Konkani, Maithili, Marathi, Odia, Sanskrit, Tamil, Telugu) across 5 scripts (Bangla, Devanagari, Odia, Tamil, Telugu). The models are pretrained on a single GPU with context size of 1024 and vary in size from 13.29 million (M) to 367.5 M parameters. We proposed a RoPE embedding scaling method that enables us to pretrain language models from scratch at larger sequence length context size than typical GPU memory permits. We also introduced a novel efficient Indic tokenizer, ‘mBharat’, using a combination of BPE and Unigram, achieving the least fertility score and the ability to tokenize unseen languages in both the same script & Roman script. We also proposed and performed language-specific tokenization for multilingual models & domain-specific tokenization for monolingual models. To address the ‘curse of multilinguality’ in our mParamanu model, we pretrained on comparable corpora based on typological grouping within the same script. Our findings show a language transfer phenomenon from low-resource to high-resource languages within languages of the same script & typology. Human evaluations for open-ended text generation demonstrated that Paramanu models outperformed several LLMs, despite being 20 to 64 times smaller. We created instruction-tuning datasets & instruction-tuned our models on 23,000 instructions in respective languages. Comparisons with multilingual LLMs across various benchmarks for natural language (NL) understanding, NL inference, & reading comprehension highlight the advantages of our models; leads to the conclusion that high quality generative LM are possible without high amount of compute power & enormous number of parameters.

arxiv情報

著者 Mitodru Niyogi,Arnab Bhattacharya
発行日 2024-10-10 16:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning

要約

パッキングは、最初は事前トレーニング段階で利用され、モデルの最大入力長に合わせてさまざまなトレーニング シーケンスを組み合わせることにより、ハードウェア リソースの効率を最大化するように設計された最適化手法です。
事前トレーニング中の有効性は実証されていますが、教師あり微調整 (SFT) 段階では、次の点に関する包括的な分析がまだ不足しています: (1) パッキングがパフォーマンスを維持しながらトレーニング効率を効果的に向上できるかどうか、(2)
パッキング方法による微調整に適したモデルとデータセットのサイズ、(3) 無関係または関連するトレーニング サンプルのパッキングによってモデルがコンテキストを過度に無視したり過度に依存したりする可能性があるかどうか。
この論文では、69K から 1.2M の範囲の SFT データセットと 8B から 70B のモデルをカバーする、パディングとパッキングを使用した SFT 手法間の広範な比較を実行します。
これは、パッキングとパディングの利点と制限についての初めての包括的な分析と、さまざまなトレーニング シナリオでパッキングを実装するための実際的な考慮事項を提供します。
当社の分析は、知識、推論、コーディングだけでなく、GPT ベースの評価、時間効率、その他の微調整パラメーターを含むさまざまなベンチマークをカバーしています。
また、微調整と評価のためのコードをオープンソース化し、さまざまなサイズのデータ​​セットに対して微調整されたチェックポイントを提供し、パッキング方法に関する将来の研究を前進させることを目指しています。
コードは https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file から入手できます。

要約(オリジナル)

Packing, initially utilized in the pre-training phase, is an optimization technique designed to maximize hardware resource efficiency by combining different training sequences to fit the model’s maximum input length. Although it has demonstrated effectiveness during pre-training, there remains a lack of comprehensive analysis for the supervised fine-tuning (SFT) stage on the following points: (1) whether packing can effectively enhance training efficiency while maintaining performance, (2) the suitable size of the model and dataset for fine-tuning with the packing method, and (3) whether packing unrelated or related training samples might cause the model to either excessively disregard or over-rely on the context. In this paper, we perform extensive comparisons between SFT methods using padding and packing, covering SFT datasets ranging from 69K to 1.2M and models from 8B to 70B. This provides the first comprehensive analysis of the advantages and limitations of packing versus padding, as well as practical considerations for implementing packing in various training scenarios. Our analysis covers various benchmarks, including knowledge, reasoning, and coding, as well as GPT-based evaluations, time efficiency, and other fine-tuning parameters. We also open-source our code for fine-tuning and evaluation and provide checkpoints fine-tuned on datasets of different sizes, aiming to advance future research on packing methods. Code is available at: https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file.

arxiv情報

著者 Shuhe Wang,Guoyin Wang,Jiwei Li,Eduard Hovy,Chen Guo
発行日 2024-10-10 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering

要約

ナレッジ グラフ (KG) を統合する最近の研究により、大規模言語モデル (LLM) の推論精度の向上が期待できる改善につながりました。
ただし、現在のベンチマークは主にクローズドなタスクに焦点を当てており、より複雑な現実世界のシナリオの評価にはギャップが残っています。
このギャップは、LLM の幻覚の問題を軽減する KG の可能性の評価も曖昧にしています。
ギャップを埋めるために、オープンエンドの実際の質問応答シナリオの下で、KG で強化された LLM を評価するために特別に設計された新しいベンチマークである OKGQA を導入します。
OKGQA は、さまざまな種類の質問を使用して実際のアプリケーションの複雑さを厳密に反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するための特定の指標が組み込まれています。
KG にさまざまなレベルの間違いがある可能性があるシナリオを検討するために、KG のセマンティクスと構造が意図的に混乱および汚染された場合のモデルのパフォーマンスを評価するために、OKGQA-P を設定する別の実験をさらに提案します。
OKGQA の目的は、(1) 無制限の設定で KG が LLM の信頼性を高めることができるかどうかを調査すること、(2) 比較分析を行って、LLM の幻覚を軽減するために KG を活用する方法と将来の方向性を明らかにすることです。
私たちは、この調査により、より完全なパフォーマンスの比較が容易になり、KG と LLM の統合における継続的な改善が促進されると信じています。

要約(オリジナル)

Recent works integrating Knowledge Graphs (KGs) have led to promising improvements in enhancing reasoning accuracy of Large Language Models (LLMs). However, current benchmarks mainly focus on closed tasks, leaving a gap in the assessment of more complex, real-world scenarios. This gap has also obscured the evaluation of KGs’ potential to mitigate the problem of hallucination in LLMs. To fill the gap, we introduce OKGQA, a new benchmark specifically designed to assess LLMs enhanced with KGs under open-ended, real-world question answering scenarios. OKGQA is designed to closely reflect the complexities of practical applications using questions from different types, and incorporates specific metrics to measure both the reduction in hallucinations and the enhancement in reasoning capabilities. To consider the scenario in which KGs may have varying levels of mistakes, we further propose another experiment setting OKGQA-P to assess model performance when the semantics and structure of KGs are deliberately perturbed and contaminated. OKGQA aims to (1) explore whether KGs can make LLMs more trustworthy in an open-ended setting, and (2) conduct a comparative analysis to shed light on methods and future directions for leveraging KGs to reduce LLMs’ hallucination. We believe that this study can facilitate a more complete performance comparison and encourage continuous improvement in integrating KGs with LLMs.

arxiv情報

著者 Yuan Sui,Bryan Hooi
発行日 2024-10-10 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする