Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning

要約

パッキングは、最初は事前トレーニング段階で利用され、モデルの最大入力長に合わせてさまざまなトレーニング シーケンスを組み合わせることにより、ハードウェア リソースの効率を最大化するように設計された最適化手法です。
事前トレーニング中の有効性は実証されていますが、教師あり微調整 (SFT) 段階では、次の点に関する包括的な分析がまだ不足しています: (1) パッキングがパフォーマンスを維持しながらトレーニング効率を効果的に向上できるかどうか、(2)
パッキング方法による微調整に適したモデルとデータセットのサイズ、(3) 無関係または関連するトレーニング サンプルのパッキングによってモデルがコンテキストを過度に無視したり過度に依存したりする可能性があるかどうか。
この論文では、69K から 1.2M の範囲の SFT データセットと 8B から 70B のモデルをカバーする、パディングとパッキングを使用した SFT 手法間の広範な比較を実行します。
これは、パッキングとパディングの利点と制限についての初めての包括的な分析と、さまざまなトレーニング シナリオでパッキングを実装するための実際的な考慮事項を提供します。
当社の分析は、知識、推論、コーディングだけでなく、GPT ベースの評価、時間効率、その他の微調整パラメーターを含むさまざまなベンチマークをカバーしています。
また、微調整と評価のためのコードをオープンソース化し、さまざまなサイズのデータ​​セットに対して微調整されたチェックポイントを提供し、パッキング方法に関する将来の研究を前進させることを目指しています。
コードは https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file から入手できます。

要約(オリジナル)

Packing, initially utilized in the pre-training phase, is an optimization technique designed to maximize hardware resource efficiency by combining different training sequences to fit the model’s maximum input length. Although it has demonstrated effectiveness during pre-training, there remains a lack of comprehensive analysis for the supervised fine-tuning (SFT) stage on the following points: (1) whether packing can effectively enhance training efficiency while maintaining performance, (2) the suitable size of the model and dataset for fine-tuning with the packing method, and (3) whether packing unrelated or related training samples might cause the model to either excessively disregard or over-rely on the context. In this paper, we perform extensive comparisons between SFT methods using padding and packing, covering SFT datasets ranging from 69K to 1.2M and models from 8B to 70B. This provides the first comprehensive analysis of the advantages and limitations of packing versus padding, as well as practical considerations for implementing packing in various training scenarios. Our analysis covers various benchmarks, including knowledge, reasoning, and coding, as well as GPT-based evaluations, time efficiency, and other fine-tuning parameters. We also open-source our code for fine-tuning and evaluation and provide checkpoints fine-tuned on datasets of different sizes, aiming to advance future research on packing methods. Code is available at: https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file.

arxiv情報

著者 Shuhe Wang,Guoyin Wang,Jiwei Li,Eduard Hovy,Chen Guo
発行日 2024-10-10 16:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering

要約

ナレッジ グラフ (KG) を統合する最近の研究により、大規模言語モデル (LLM) の推論精度の向上が期待できる改善につながりました。
ただし、現在のベンチマークは主にクローズドなタスクに焦点を当てており、より複雑な現実世界のシナリオの評価にはギャップが残っています。
このギャップは、LLM の幻覚の問題を軽減する KG の可能性の評価も曖昧にしています。
ギャップを埋めるために、オープンエンドの実際の質問応答シナリオの下で、KG で強化された LLM を評価するために特別に設計された新しいベンチマークである OKGQA を導入します。
OKGQA は、さまざまな種類の質問を使用して実際のアプリケーションの複雑さを厳密に反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するための特定の指標が組み込まれています。
KG にさまざまなレベルの間違いがある可能性があるシナリオを検討するために、KG のセマンティクスと構造が意図的に混乱および汚染された場合のモデルのパフォーマンスを評価するために、OKGQA-P を設定する別の実験をさらに提案します。
OKGQA の目的は、(1) 無制限の設定で KG が LLM の信頼性を高めることができるかどうかを調査すること、(2) 比較分析を行って、LLM の幻覚を軽減するために KG を活用する方法と将来の方向性を明らかにすることです。
私たちは、この調査により、より完全なパフォーマンスの比較が容易になり、KG と LLM の統合における継続的な改善が促進されると信じています。

要約(オリジナル)

Recent works integrating Knowledge Graphs (KGs) have led to promising improvements in enhancing reasoning accuracy of Large Language Models (LLMs). However, current benchmarks mainly focus on closed tasks, leaving a gap in the assessment of more complex, real-world scenarios. This gap has also obscured the evaluation of KGs’ potential to mitigate the problem of hallucination in LLMs. To fill the gap, we introduce OKGQA, a new benchmark specifically designed to assess LLMs enhanced with KGs under open-ended, real-world question answering scenarios. OKGQA is designed to closely reflect the complexities of practical applications using questions from different types, and incorporates specific metrics to measure both the reduction in hallucinations and the enhancement in reasoning capabilities. To consider the scenario in which KGs may have varying levels of mistakes, we further propose another experiment setting OKGQA-P to assess model performance when the semantics and structure of KGs are deliberately perturbed and contaminated. OKGQA aims to (1) explore whether KGs can make LLMs more trustworthy in an open-ended setting, and (2) conduct a comparative analysis to shed light on methods and future directions for leveraging KGs to reduce LLMs’ hallucination. We believe that this study can facilitate a more complete performance comparison and encourage continuous improvement in integrating KGs with LLMs.

arxiv情報

著者 Yuan Sui,Bryan Hooi
発行日 2024-10-10 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

SAKA: An Intelligent Platform for Semi-automated Knowledge Graph Construction and Application

要約

ナレッジ グラフ (KG) テクノロジーは多くの分野で広く利用されており、多くの企業が KG に基づいたアプリケーションを提供しています。
それにもかかわらず、KG プラットフォームの大部分は、KG レコードを手動で構築するためにユーザーの専門知識と多大な時間と労力を必要とし、一般の人が使用するのは非常に困難です。
さらに、音声データは豊富で貴重な情報が含まれていますが、それを KG に変換するのは困難です。
さらに、プラットフォームは通常、ユーザーが構築した KG の可能性を最大限に活用していません。
この論文では、前述の問題に対処するために、半自動化された KG 構築およびアプリケーション (SAKA) のためのインテリジェントでユーザーフレンドリーなプラットフォームを提案します。
主に、ユーザーはプラットフォームと対話することで、多数の領域の構造化データから KG を半自動的に構築でき、これに基づいて複数バージョンの KG を保存、表示、管理、更新できます。
さらに、音声データから KG を確立するための音声ベースの KG 情報抽出 (AGIE) 方法を提案します。
最後に、プラットフォームは、ユーザーが作成した KG に基づいて、セマンティック解析ベースの知識ベース質問応答 (KBQA) システムを作成します。
SAKAプラットフォーム上での半自動KG工法の実現可能性を証明します。

要約(オリジナル)

Knowledge graph (KG) technology is extensively utilized in many areas, and many companies offer applications based on KG. Nonetheless, the majority of KG platforms necessitate expertise and tremendous time and effort of users to construct KG records manually, which poses great difficulties for ordinary people to use. Additionally, audio data is abundant and holds valuable information, but it is challenging to transform it into a KG. What’s more, the platforms usually do not leverage the full potential of the KGs constructed by users. In this paper, we propose an intelligent and user-friendly platform for Semi-automated KG Construction and Application (SAKA) to address the problems aforementioned. Primarily, users can semi-automatically construct KGs from structured data of numerous areas by interacting with the platform, based on which multi-versions of KG can be stored, viewed, managed, and updated. Moreover, we propose an Audio-based KG Information Extraction (AGIE) method to establish KGs from audio data. Lastly, the platform creates a semantic parsing-based knowledge base question answering (KBQA) system based on the user-created KGs. We prove the feasibility of the semi-automatic KG construction method on the SAKA platform.

arxiv情報

著者 Hanrong Zhang,Xinyue Wang,Jiabao Pan,Hongwei Wang
発行日 2024-10-10 16:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Universal In-Context Approximation By Prompting Fully Recurrent Models

要約

ゼロショット学習とコンテキスト内学習により、モデルの微調整を行わずにタスクを解決できるため、生成モデル ソリューションの開発には不可欠です。
したがって、事前トレーニングされたモデルが任意の関数を近似できるかどうか、つまり、汎用のコンテキスト内近似器であるかどうかを理解することが重要です。
最近、変圧器モデルがこの特性を持っていることが示されましたが、これらの結果はその注意メカニズムに依存しています。
したがって、これらの発見は、RNN、LSTM、およびますます人気が高まっている SSM などの完全反復アーキテクチャには当てはまりません。
RNN、LSTM、GRU、線形 RNN、および Mamba や Hawk/Griffin などの線形ゲ​​ート アーキテクチャも、汎用のインコンテキスト近似器として機能できることを示します。
私たちの議論を合理化するために、これらの完全再帰アーキテクチャにコンパイルできる LSRL と呼ばれるプログラミング言語を導入します。
LSRL は、解釈可能性ベンチマークの構築など、完全リカレント モデルのさらなる研究に独立して役立つ可能性があります。
また、乗算ゲーティングの役割についても研究し、そのようなゲーティングを組み込んだアーキテクチャ (LSTM、GRU、Hawk/Griffin など) が特定の演算をより安定して実装でき、実用的なコンテキスト内汎用近似のより有力な候補となることを観察しました。

要約(オリジナル)

Zero-shot and in-context learning enable solving tasks without model fine-tuning, making them essential for developing generative model solutions. Therefore, it is crucial to understand whether a pretrained model can be prompted to approximate any function, i.e., whether it is a universal in-context approximator. While it was recently shown that transformer models do possess this property, these results rely on their attention mechanism. Hence, these findings do not apply to fully recurrent architectures like RNNs, LSTMs, and the increasingly popular SSMs. We demonstrate that RNNs, LSTMs, GRUs, Linear RNNs, and linear gated architectures such as Mamba and Hawk/Griffin can also serve as universal in-context approximators. To streamline our argument, we introduce a programming language called LSRL that compiles to these fully recurrent architectures. LSRL may be of independent interest for further studies of fully recurrent models, such as constructing interpretability benchmarks. We also study the role of multiplicative gating and observe that architectures incorporating such gating (e.g., LSTMs, GRUs, Hawk/Griffin) can implement certain operations more stably, making them more viable candidates for practical in-context universal approximation.

arxiv情報

著者 Aleksandar Petrov,Tom A. Lamb,Alasdair Paren,Philip H. S. Torr,Adel Bibi
発行日 2024-10-10 16:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Generative AI Technique for Synthesizing a Digital Twin for U.S. Residential Solar Adoption and Generation

要約

住宅の屋上に太陽光発電を導入することは、二酸化炭素排出量を削減するために重要であると考えられています。
より細かい解像度(家庭、時間レベルなど)での太陽光発電(PV)データの欠如は、情報に基づいた意思決定に大きな障害となっています。
私たちは、米国本土全域での屋上太陽光発電導入のための、非常に詳細な住宅規模の現実的なデータセットを生成するための新しい方法論について議論します。
データ駆動型の方法論は、(i) 太陽光発電の採用者を特定する統合機械学習モデル、(ii) 説明可能な AI 技術を使用してデータを拡張し、主要な機能とその相互作用に関する洞察を収集する方法、および (iii) 世帯のエネルギーを生成する方法で構成されます。
解析モデルを使用した -レベルの時間当たりの太陽エネルギー出力。
結果として得られる合成データセットは、実世界のデータを使用して検証され、下流のタスクをモデル化するためのデジタル ツインとして機能します。
最後に、バージニア州のデジタルツインを利用した政策ベースのケーススタディでは、特に低所得者から中所得者層のコミュニティにおいて、30% の連邦太陽光発電投資税額控除により屋上太陽光発電の導入が増加していることが実証されました。

要約(オリジナル)

Residential rooftop solar adoption is considered crucial for reducing carbon emissions. The lack of photovoltaic (PV) data at a finer resolution (e.g., household, hourly levels) poses a significant roadblock to informed decision-making. We discuss a novel methodology to generate a highly granular, residential-scale realistic dataset for rooftop solar adoption across the contiguous United States. The data-driven methodology consists of: (i) integrated machine learning models to identify PV adopters, (ii) methods to augment the data using explainable AI techniques to glean insights about key features and their interactions, and (iii) methods to generate household-level hourly solar energy output using an analytical model. The resulting synthetic datasets are validated using real-world data and can serve as a digital twin for modeling downstream tasks. Finally, a policy-based case study utilizing the digital twin for Virginia demonstrated increased rooftop solar adoption with the 30\% Federal Solar Investment Tax Credit, especially in Low-to-Moderate-Income communities.

arxiv情報

著者 Aparna Kishore,Swapna Thorve,Madhav Marathe
発行日 2024-10-10 16:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Reference-based Metrics Disprove Themselves in Question Generation

要約

BLEU や BERTScore などの参照ベースの指標は、質問生成 (QG) を評価するために広く使用されています。
この研究では、SQuAD や HotpotQA などの QG ベンチマークに関して、人間が作成した参照を使用しても参照ベースのメトリクスの有効性を保証できないことがわかりました。
ほとんどの QG ベンチマークには参照が 1 つだけあります。
注釈プロセスを複製し、別の参照を収集します。
優れた指標では、人間が検証した質問が生成された質問と同等に評価されることが期待されます。
しかし、新しく収集したリファレンスに関するリファレンスベースのメトリクスの結果は、メトリクス自体が反証したものでした。
私たちは、大規模な言語モデルを利用して、自然さ、答えやすさ、複雑さなどの多次元の基準で構成される参照不要の指標を提案します。
これらの基準は、単一の参照質問の構文や意味に制約されず、指標には多様な参照セットが必要ありません。
実験の結果、私たちの指標が質の高い質問と欠陥のある質問を正確に区別し、人間の判断との最先端の整合性を実現していることが明らかになりました。

要約(オリジナル)

Reference-based metrics such as BLEU and BERTScore are widely used to evaluate question generation (QG). In this study, on QG benchmarks such as SQuAD and HotpotQA, we find that using human-written references cannot guarantee the effectiveness of the reference-based metrics. Most QG benchmarks have only one reference; we replicate the annotation process and collect another reference. A good metric is expected to grade a human-validated question no worse than generated questions. However, the results of reference-based metrics on our newly collected reference disproved the metrics themselves. We propose a reference-free metric consisted of multi-dimensional criteria such as naturalness, answerability, and complexity, utilizing large language models. These criteria are not constrained to the syntactic or semantic of a single reference question, and the metric does not require a diverse set of references. Experiments reveal that our metric accurately distinguishes between high-quality questions and flawed ones, and achieves state-of-the-art alignment with human judgment.

arxiv情報

著者 Bang Nguyen,Mengxia Yu,Yun Huang,Meng Jiang
発行日 2024-10-10 16:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

A Closer Look at Machine Unlearning for Large Language Models

要約

大規模言語モデル (LLM) は機密性の高いコンテンツや著作権で保護されたコンテンツを記憶する可能性があり、プライバシーと法的な懸念が生じます。
最初から再トレーニングするのはコストが高いため、研究者は機械の非学習を採用して、全体的なパフォーマンスを維持しながら LLM から特定のコンテンツを削除しようとしています。
このペーパーでは、LLM の機械の非学習におけるいくつかの問題について説明し、考えられるアプローチについての洞察を提供します。
アンラーニング後のモデル出力の評価が不十分であるという問題に対処するために、トークンの多様性、文の意味論、事実の正しさを評価するための 3 つの追加の指標を導入します。
次に、アンラーニングの手法を非ターゲット型とターゲット型に分類し、それぞれの問題点について説明します。
具体的には、非目標非学習が近似しようとする動作は予測不可能であり、幻覚を伴う可能性があり、既存の正則化は目標を絞った非学習には不十分です。
これらの問題を軽減するために、非ターゲット非学習のエントロピー (ME) を最大化する目的を使用し、ターゲット非学習の正則化として回答保存 (AP) 損失を組み込むことを提案します。
架空のアンラーニング、継続的なアンラーニング、現実世界のアンラーニングという 3 つのシナリオにわたる実験結果は、私たちのアプローチの有効性を示しています。
コードは https://github.com/sail-sg/closer-look-LLM-unlearning で入手できます。

要約(オリジナル)

Large language models (LLMs) may memorize sensitive or copyrighted content, raising privacy and legal concerns. Due to the high cost of retraining from scratch, researchers attempt to employ machine unlearning to remove specific content from LLMs while preserving the overall performance. In this paper, we discuss several issues in machine unlearning for LLMs and provide our insights on possible approaches. To address the issue of inadequate evaluation of model outputs after unlearning, we introduce three additional metrics to evaluate token diversity, sentence semantics, and factual correctness. We then categorize unlearning methods into untargeted and targeted, and discuss their issues respectively. Specifically, the behavior that untargeted unlearning attempts to approximate is unpredictable and may involve hallucinations, and existing regularization is insufficient for targeted unlearning. To alleviate these issues, we propose using the objective of maximizing entropy (ME) for untargeted unlearning and incorporate answer preservation (AP) loss as regularization for targeted unlearning. Experimental results across three scenarios, i.e., fictitious unlearning, continual unlearning, and real-world unlearning, demonstrate the effectiveness of our approaches. The code is available at https://github.com/sail-sg/closer-look-LLM-unlearning.

arxiv情報

著者 Xiaojian Yuan,Tianyu Pang,Chao Du,Kejiang Chen,Weiming Zhang,Min Lin
発行日 2024-10-10 16:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Active Fourier Auditor for Estimating Distributional Properties of ML Models

要約

機械学習 (ML) モデルが現実世界のアプリケーションに広く展開されるにつれ、ML モデルのプロパティの検証と監査が中心的な関心事になっています。
この研究では、堅牢性、個人の公平性、およびグループの公平性という 3 つの特性に焦点を当てます。
ML モデルのプロパティを監査するための 2 つのアプローチ、つまり、監査対象のターゲット モデルの再構築を伴う推定と再構築を伴わない推定について説明します。
最初のアプローチは文献で研究されていますが、2 番目のアプローチは未調査のままです。
この目的のために、監査対象の ML モデルのフーリエ係数に関してさまざまな特性を定量化する新しいフレームワークを開発しますが、それをパラメトリックに再構築することはありません。
ML モデルのフーリエ係数に従ってサンプル ポイントをクエリし、さらに特性を推定する Active Fourier Auditor (AFA) を提案します。
AFA の推定値の高確率の誤差限界と、それらを監査するためのサンプルの複雑さの最悪の場合の下限を導き出します。
複数のデータセットとモデルで、AFA がベースラインよりも対象の特性を推定するのに正確でサンプル効率が高いことを数値的に示します。

要約(オリジナル)

With the pervasive deployment of Machine Learning (ML) models in real-world applications, verifying and auditing properties of ML models have become a central concern. In this work, we focus on three properties: robustness, individual fairness, and group fairness. We discuss two approaches for auditing ML model properties: estimation with and without reconstruction of the target model under audit. Though the first approach is studied in the literature, the second approach remains unexplored. For this purpose, we develop a new framework that quantifies different properties in terms of the Fourier coefficients of the ML model under audit but does not parametrically reconstruct it. We propose the Active Fourier Auditor (AFA), which queries sample points according to the Fourier coefficients of the ML model, and further estimates the properties. We derive high probability error bounds on AFA’s estimates, along with the worst-case lower bounds on the sample complexity to audit them. Numerically we demonstrate on multiple datasets and models that AFA is more accurate and sample-efficient to estimate the properties of interest than the baselines.

arxiv情報

著者 Ayoub Ajarra,Bishwamittra Ghosh,Debabrota Basu
発行日 2024-10-10 16:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, stat.ML | コメントする

Robust AI-Generated Text Detection by Restricted Embeddings

要約

AI によって生成されたテキストの量と質が増大することで、そのようなコンテンツの検出がより困難になっています。
現実世界のほとんどのシナリオでは、生成されるデータのドメイン (スタイルとトピック) とジェネレーター モデルは事前にはわかりません。
この研究では、AI が生成したテキストの分類子ベースの検出器の堅牢性、つまり、目に見えないジェネレーターまたは意味論的ドメインに転送する能力に焦点を当てます。
私たちは、Transformer ベースのテキスト エンコーダの埋め込み空間のジオメトリを調査し、有害な線形部分空間を除去することが、ドメイン固有の偽の特徴を無視して堅牢な分類器をトレーニングするのに役立つことを示します。
私たちは、いくつかの部分空間分解と特徴選択戦略を調査し、クロスドメインおよびクロスジェネレーター転送における最先端の方法に比べて大幅な改善を達成しました。
ヘッドワイズおよび座標ベースの部分空間除去に対する当社の最良のアプローチは、RoBERTa 埋め込みと BERT 埋め込みの特定の設定で平均分布外 (OOD) 分類スコアをそれぞれ最大 9% と 14% 増加させます。
コードとデータをリリースします: https://github.com/SilverSolver/RobustATD

要約(オリジナル)

Growing amount and quality of AI-generated texts makes detecting such content more difficult. In most real-world scenarios, the domain (style and topic) of generated data and the generator model are not known in advance. In this work, we focus on the robustness of classifier-based detectors of AI-generated text, namely their ability to transfer to unseen generators or semantic domains. We investigate the geometry of the embedding space of Transformer-based text encoders and show that clearing out harmful linear subspaces helps to train a robust classifier, ignoring domain-specific spurious features. We investigate several subspace decomposition and feature selection strategies and achieve significant improvements over state of the art methods in cross-domain and cross-generator transfer. Our best approaches for head-wise and coordinate-based subspace removal increase the mean out-of-distribution (OOD) classification score by up to 9% and 14% in particular setups for RoBERTa and BERT embeddings respectively. We release our code and data: https://github.com/SilverSolver/RobustATD

arxiv情報

著者 Kristian Kuznetsov,Eduard Tulchinskii,Laida Kushnareva,German Magai,Serguei Barannikov,Sergey Nikolenko,Irina Piontkovskaya
発行日 2024-10-10 16:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

要約

大規模言語モデル (LLM) ベースのマルチエージェント システム (MAS) は、協調的な問題解決において顕著な可能性を示していますが、通信効率の低さ、スケーラビリティの低さ、効果的なパラメータ更新の最適化手法の欠如といった重大な課題に依然として直面しています。
我々は、LLM トレーニングを通じて LLM ベースの MAS における通信効率とタスク効率の両方を大幅に向上させることで、これらの問題に対処する新しいフレームワークである Optima を紹介します。
Optima は、タスクのパフォーマンス、トークンの効率、通信の可読性のバランスをとる報酬関数を備えた、反復的な生成、ランク付け、選択、トレーニングのパラダイムを採用しています。
教師あり微調整、直接優先最適化、およびそれらのハイブリッド アプローチを含むさまざまな RL アルゴリズムを調査し、それらの有効性と効率のトレードオフについての洞察を提供します。
DPO データ生成にモンテカルロ ツリー検索にヒントを得た手法を統合し、会話ターンをツリー ノードとして扱い、多様な対話パスを探索します。
情報非対称な質問応答や複雑な推論などの一般的なマルチエージェント タスクで評価した Optima は、単一エージェントのベースラインや Llama 3 8B ベースのバニラ MAS と比較して、一貫した大幅な改善を示し、10 未満のパフォーマンスで最大 2.8 倍のパフォーマンス向上を達成しました。
大量の情報交換を必要とするタスクのトークンの割合。
さらに、Optima の効率性により、推論計算をより効果的に活用するための新たな可能性が広がり、推論時間のスケーリング則の改善につながります。
LLM ベースの MAS の根本的な課題に対処することで、Optima はスケーラブルで効率的かつ効果的な MAS の可能性を示しています (https://chenweize1998.github.io/optima-project-page)。

要約(オリジナル)

Large Language Model (LLM) based multi-agent systems (MAS) show remarkable potential in collaborative problem-solving, yet they still face critical challenges: low communication efficiency, poor scalability, and a lack of effective parameter-updating optimization methods. We present Optima, a novel framework that addresses these issues by significantly enhancing both communication efficiency and task effectiveness in LLM-based MAS through LLM training. Optima employs an iterative generate, rank, select, and train paradigm with a reward function balancing task performance, token efficiency, and communication readability. We explore various RL algorithms, including Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid approaches, providing insights into their effectiveness-efficiency trade-offs. We integrate Monte Carlo Tree Search-inspired techniques for DPO data generation, treating conversation turns as tree nodes to explore diverse interaction paths. Evaluated on common multi-agent tasks, including information-asymmetric question answering and complex reasoning, Optima shows consistent and substantial improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than 10\% tokens on tasks requiring heavy information exchange. Moreover, Optima’s efficiency gains open new possibilities for leveraging inference-compute more effectively, leading to improved inference-time scaling laws. By addressing fundamental challenges in LLM-based MAS, Optima shows the potential towards scalable, efficient, and effective MAS (https://chenweize1998.github.io/optima-project-page).

arxiv情報

著者 Weize Chen,Jiarui Yuan,Chen Qian,Cheng Yang,Zhiyuan Liu,Maosong Sun
発行日 2024-10-10 17:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする