Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers

要約

AI ベンチマークの整合性は、AI システムの機能を正確に評価するために不可欠です。
これらのベンチマークの内部妥当性、つまり、交絡因子がないことを確認することは、測定するように設計されたものを確実に測定するために重要です。
このペーパーでは、内部妥当性に関する重要な問題、つまり AI システムがテスト対象の機能をバイパスして、意図しない方法でベンチマークを解決できる可能性について検討します。
この現象は人体実験や動物実験で広く知られており、しばしば「賢いハンス効果」と呼ばれ、偽の手がかりを使用して課題が解決され、多くの場合、推定で評価されているプロセスよりもはるかに単純なプロセスが含まれます。
以前の研究では、言語モデルもこの動作を示す可能性があることが示唆されています。
いくつかの古い自然言語処理 (NLP) ベンチマークでは、「not」のような個々の $n$-gram が正しいラベルを高度に予測することが判明しており、教師あり NLP モデルがこれらのパターンを利用することが示されています。
この研究では、ベンチマーク インスタンスから抽出された単純な $n$-gram をどの程度組み合わせて、LLM 用に設計された最新の多肢選択ベンチマークのラベルを予測できるか、また LLM がそのような $n$-gram パターンを使用しているかどうかを調査します。
これらのベンチマークを解決します。
これらの $n$-gram でトレーニングされた単純な分類器が、テスト対象の機能が不足しているにもかかわらず、どのようにしていくつかのベンチマークで高スコアを達成できるかを示します。
さらに、現代の LLM がベンチマークを解決するためにこれらの表面的なパターンを使用している可能性があるという証拠も提供します。
これは、これらのベンチマークの内部妥当性が損なわれている可能性があることを示唆しており、ベンチマークの LLM パフォーマンス結果を解釈する際には注意が必要です。

要約(オリジナル)

The integrity of AI benchmarks is fundamental to accurately assess the capabilities of AI systems. The internal validity of these benchmarks – i.e., making sure they are free from confounding factors – is crucial for ensuring that they are measuring what they are designed to measure. In this paper, we explore a key issue related to internal validity: the possibility that AI systems can solve benchmarks in unintended ways, bypassing the capability being tested. This phenomenon, widely known in human and animal experiments, is often referred to as the ‘Clever Hans’ effect, where tasks are solved using spurious cues, often involving much simpler processes than those putatively assessed. Previous research suggests that language models can exhibit this behaviour as well. In several older Natural Language Processing (NLP) benchmarks, individual $n$-grams like ‘not’ have been found to be highly predictive of the correct labels, and supervised NLP models have been shown to exploit these patterns. In this work, we investigate the extent to which simple $n$-grams extracted from benchmark instances can be combined to predict labels in modern multiple-choice benchmarks designed for LLMs, and whether LLMs might be using such $n$-gram patterns to solve these benchmarks. We show how simple classifiers trained on these $n$-grams can achieve high scores on several benchmarks, despite lacking the capabilities being tested. Additionally, we provide evidence that modern LLMs might be using these superficial patterns to solve benchmarks. This suggests that the internal validity of these benchmarks may be compromised and caution should be exercised when interpreting LLM performance results on them.

arxiv情報

著者 Lorenzo Pacchiardi,Marko Tesic,Lucy G. Cheke,José Hernández-Orallo
発行日 2024-10-15 15:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers はコメントを受け付けていません

The inherent goodness of well educated intelligence

要約

この論文では、生物的存在であろうと、コンピュータ上の人工シリコン的存在であろうと、何が存在をインテリジェントにするのかを検討します。
保守的に相互作用する多くの同一の保守的なサブシステムからなる集合システムを特徴づけ、制御する能力を持つ存在に特別な注意が払われるでしょう。
インテリジェンスの本質は、「集団が一つとして行動する」、あるいは「局地的な行動が世界に及ぼす影響を知る」という黄金律であることが分かるだろう。
集団の流れは、対称性によって決定される最小動作の測地線運動に従って少数の糸を引く人形遣いによって制御される、きらめくテクスチャの小さなセットです。
集合的な保存系を制御することは難しく、これまでは系に大幅な粘度を加えて最大性能の望ましい準安定平衡を安定させることで行われてきましたが、その過程で系が劣化したり破壊されたりします。
代替手段があります。
メタ安定平衡の最適なきらめきテクスチャーが特定されると、集合システムを最適なきらめきテクスチャーに移動し、集合システムがメタ安定平衡状態に留まるようにテクスチャに従って素早く振動させることができます。
よく教育を受けた諜報機関は、その局地的な行動が世界に及ぼす影響を知っているので、長期的に劣悪な結果を招くような短期的な行動はとらない。
対照的に、訓練された知性や訓練された愚かさは、短期的な行動を最適化し、長期的には劣悪な結果をもたらします。
よく教育された知性は本質的に善であるが、訓練された愚かさは本質的に悪であり、恐れられるべきである。
経済的および社会的集団の制御と最適化には特に注意が払われます。
これらの新しい結果は、場、流体、プラズマなどの物理的な集合体にも適用できます。

要約(オリジナル)

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule — ‘the collective acts as one’ or ‘knowing the global consequences of local actions’. The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified, the collective system can be moved to the optimum twinkling textures, then quickly vibrated according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. These new results are also applicable to physical collectives such as fields, fluids and plasmas.

arxiv情報

著者 Michael E. Glinsky
発行日 2024-10-15 15:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, physics.soc-ph | The inherent goodness of well educated intelligence はコメントを受け付けていません

The $μ\mathcal{G}$ Language for Programming Graph Neural Networks

要約

グラフ ニューラル ネットワークは、グラフ構造のデータを処理するように特別に設計されたディープ ラーニング アーキテクチャのクラスを形成します。
そのため、これらは、特に説明可能性と信頼性の問題に関して、深層学習に固有の制限と問題を共有しています。
我々は、これらの問題を克服することを目的とした、グラフ ニューラル ネットワーク仕様のための独自のドメイン固有言語である $\mu\mathcal{G}$ を提案します。
言語の構文が導入され、その意味は表示意味論によって厳密に定義されます。
操作セマンティクスの形式での同等の特徴付けも提供され、型システムとともに、$\mu\mathcal{G}$ の型の健全性を証明するために使用されます。
$\mu\mathcal{G}$ プログラムをよりユーザーフレンドリーなグラフィカルな視覚化でどのように表現できるかを示し、最も一般的なグラフ ニューラル ネットワーク モデルのいくつかを定義するためにそれを使用する方法を示すことで、その汎用性の例を示します。
またはカスタム グラフ処理アプリケーションを開発することもできます。

要約(オリジナル)

Graph neural networks form a class of deep learning architectures specifically designed to work with graph-structured data. As such, they share the inherent limitations and problems of deep learning, especially regarding the issues of explainability and trustworthiness. We propose $\mu\mathcal{G}$, an original domain-specific language for the specification of graph neural networks that aims to overcome these issues. The language’s syntax is introduced, and its meaning is rigorously defined by a denotational semantics. An equivalent characterization in the form of an operational semantics is also provided and, together with a type system, is used to prove the type soundness of $\mu\mathcal{G}$. We show how $\mu\mathcal{G}$ programs can be represented in a more user-friendly graphical visualization, and provide examples of its generality by showing how it can be used to define some of the most popular graph neural network models, or to develop any custom graph processing application.

arxiv情報

著者 Matteo Belenchia,Flavio Corradini,Michela Quadrini,Michele Loreti
発行日 2024-10-15 15:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.FL, cs.LG, D.2.4 | The $μ\mathcal{G}$ Language for Programming Graph Neural Networks はコメントを受け付けていません

Understanding Likelihood Over-optimisation in Direct Alignment Algorithms

要約

Direct Preference Optimization (DPO) や Identity Preference Optimization (IPO) などの Direct Alignment Algorithms (DAA) は、言語モデルを調整するための Proximal Policy Optimization (PPO) などのオンライン Reinforcement Learning from Human Feedback (RLHF) アルゴリズムの代替として登場しました。
明示的な報酬モデリングを必要とせず、人間の好みに合わせて調整できます。
これらの方法は通常、元のモデルの動作に近い状態を維持しながら、より悪い (好ましくない) 完了を生成する可能性を高めながら、より良い (好ましい) 完了を生成する可能性を高めることを目的としています。
この研究では、最先端の DAA における完了の可能性とモデルのパフォーマンスの関係を調査し、可能性の過剰最適化という重大な問題を特定します。
予想に反して、より良い完了の可能性が高く、より良い完了の可能性とより悪い完了の可能性の間のマージンがより大きいことは、必ずしもパフォーマンスの向上につながるわけではなく、パフォーマンスを低下させる可能性さえあることがわかりました。
私たちの分析では、可能性が高いほど事実に基づいた知識パターンの記憶力が高まる一方で、完了する可能性がわずかに低いほど出力の多様性が向上する傾向があり、その結果、まだ見ぬシナリオへの一般化が向上することが明らかになりました。
さらに、過度に最適化された出力ダイバーシティがパフォーマンスに悪影響を及ぼし始めることを示す 2 つの重要な指標、つまり、Top-k トークン上のエントロピーの減少と Top-k の確率質量の減少を特定します。私たちの実験結果は、これらの指標が、さまざまな条件下でパフォーマンスが低下する信頼性の高い兆候であることを検証しています。
正則化により、過剰な最適化を防止し、人間の好みとの整合性を向上させます。

要約(オリジナル)

Direct Alignment Algorithms (DAAs), such as Direct Preference Optimisation (DPO) and Identity Preference Optimisation (IPO), have emerged as alternatives to online Reinforcement Learning from Human Feedback (RLHF) algorithms such as Proximal Policy Optimisation (PPO) for aligning language models to human preferences, without the need for explicit reward modelling. These methods generally aim to increase the likelihood of generating better (preferred) completions while discouraging worse (non-preferred) ones, while staying close to the original model’s behaviour. In this work, we explore the relationship between completion likelihood and model performance in state-of-the-art DAAs, and identify a critical issue of likelihood over-optimisation. Contrary to expectations, we find that higher likelihood of better completions and larger margins between better and worse completion likelihoods do not necessarily lead to better performance, and may even degrade it. Our analysis reveals that while higher likelihood correlates with better memorisation of factual knowledge patterns, a slightly lower completion likelihood tends to improve output diversity, thus leading to better generalisation to unseen scenarios. Moreover, we identify two key indicators that signal when over-optimised output diversity begins to harm performance: Decreasing Entropy over Top-k Tokens and Diminishing Top-k Probability Mass. Our experimental results validate that these indicators are reliable signs of declining performance under different regularisations, helping prevent over-optimisation and improve alignment with human preferences.

arxiv情報

著者 Zhengyan Shi,Sander Land,Acyr Locatelli,Matthieu Geist,Max Bartolo
発行日 2024-10-15 15:14:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Understanding Likelihood Over-optimisation in Direct Alignment Algorithms はコメントを受け付けていません

Are UFOs Driving Innovation? The Illusion of Causality in Large Language Models

要約

因果関係の幻想は、裏付けとなる証拠がないにもかかわらず、2 つの変数の間に因果関係があるという信念を人々が抱くときに発生します。
この認知バイアスは、社会的偏見、固定観念の形成、誤った情報、迷信的な考え方など、多くの社会問題の根底にあると提唱されています。
この研究では、大規模な言語モデルが現実世界の設定で因果関係の錯覚を引き起こすかどうかを調査します。
GPT-4o-Mini、Claude-3.5-Sonnet、および Gemini-1.5-Pro によって生成されたニュース ヘッドラインを評価および比較し、モデルが相関関係を因果関係として誤って組み立てているかどうかを判断しました。
モデルが客観的に正しくない場合でも好意的に見せるためにユーザーの信念と一致するときに発生するおべっかな行動も測定するために、プロンプトにさらにバイアスを組み込み、この操作がモデルの可能性を高めるかどうかを観察しました。
因果関係の錯覚を示します。
私たちは、Claude-3.5-Sonnet が、人間が作成したプレスリリースにおける相関関係と因果関係の誇張に関する実験と一致する、因果関係の錯覚の程度が最も低いモデルであることを発見しました。
一方、我々の調査結果は、これらのモデル、特に GPT-4o-Mini では、模倣のおべっかが因果関係の錯覚の可能性を高める一方で、Claude-3.5-Sonnet が依然としてこの認知バイアスに対して最も堅牢であることを示唆しています。

要約(オリジナル)

Illusions of causality occur when people develop the belief that there is a causal connection between two variables with no supporting evidence. This cognitive bias has been proposed to underlie many societal problems including social prejudice, stereotype formation, misinformation and superstitious thinking. In this research we investigate whether large language models develop the illusion of causality in real-world settings. We evaluated and compared news headlines generated by GPT-4o-Mini, Claude-3.5-Sonnet, and Gemini-1.5-Pro to determine whether the models incorrectly framed correlations as causal relationships. In order to also measure sycophantic behavior, which occurs when a model aligns with a user’s beliefs in order to look favorable even if it is not objectively correct, we additionally incorporated the bias into the prompts, observing if this manipulation increases the likelihood of the models exhibiting the illusion of causality. We found that Claude-3.5-Sonnet is the model that presents the lowest degree of causal illusion aligned with experiments on Correlation-to-Causation Exaggeration in human-written press releases. On the other hand, our findings suggest that while mimicry sycophancy increases the likelihood of causal illusions in these models, especially in GPT-4o-Mini, Claude-3.5-Sonnet remains the most robust against this cognitive bias.

arxiv情報

著者 María Victoria Carro,Francisca Gauna Selasco,Denise Alejandra Mester,Mario Alejandro Leiva
発行日 2024-10-15 15:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Are UFOs Driving Innovation? The Illusion of Causality in Large Language Models はコメントを受け付けていません

State-space models can learn in-context by gradient descent

要約

深い状態空間モデル (Deep SSM) は、トランスフォーマーと同様に、自己回帰タスクに関するコンテキスト内学習の機能を示しています。
ただし、リカレント ネットワークでこれを可能にするアーキテクチャ上の要件とメカニズムは依然として不明瞭です。
この研究は、状態空間モデル アーキテクチャが勾配ベースの学習を実行し、それをコンテキスト内学習に使用できることを示しています。
局所的な自己注意を強化した単一の構造化状態空間モデル層が、勾配降下法の 1 ステップ後に最小二乗損失を伴う陰的線形モデルの出力を再現できることを証明します。
私たちの重要な洞察は、対角線形再帰層が勾配アキュムレーターとして機能し、陰的回帰モデルのパラメーターに「適用」できるということです。
ランダムに初期化された拡張 SSM を単純な線形回帰タスクでトレーニングすることによって、構築を検証します。
経験的に最適化されたパラメーターは、陰的モデル構築から分析的に得られた理論的なパラメーターと一致します。
複数ステップの線形回帰および非線形回帰を拡張すると、一貫した結果が得られます。
構築された SSM には、最新の深状態空間モデルの機能が組み込まれており、一般的なタスクでもスケーラブルなトレーニングと有効性を実現できる可能性があります。
この理論的構築により、基盤モデルに特有の表現力を可能にする重要な要素として、リカレント アーキテクチャにおける局所的な自己注意と乗算的相互作用の役割が解明されます。

要約(オリジナル)

Deep state-space models (Deep SSMs) have shown capabilities for in-context learning on autoregressive tasks, similar to transformers. However, the architectural requirements and mechanisms enabling this in recurrent networks remain unclear. This study demonstrates that state-space model architectures can perform gradient-based learning and use it for in-context learning. We prove that a single structured state-space model layer, augmented with local self-attention, can reproduce the outputs of an implicit linear model with least squares loss after one step of gradient descent. Our key insight is that the diagonal linear recurrent layer can act as a gradient accumulator, which can be `applied’ to the parameters of the implicit regression model. We validate our construction by training randomly initialized augmented SSMs on simple linear regression tasks. The empirically optimized parameters match the theoretical ones, obtained analytically from the implicit model construction. Extensions to multi-step linear and non-linear regression yield consistent results. The constructed SSM encompasses features of modern deep state-space models, with the potential for scalable training and effectiveness even in general tasks. The theoretical construction elucidates the role of local self-attention and multiplicative interactions in recurrent architectures as the key ingredients for enabling the expressive power typical of foundation models.

arxiv情報

著者 Neeraj Mohan Sushma,Yudou Tian,Harshvardhan Mestha,Nicolo Colombo,David Kappel,Anand Subramoney
発行日 2024-10-15 15:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | State-space models can learn in-context by gradient descent はコメントを受け付けていません

BlendRL: A Framework for Merging Symbolic and Neural Policy Learning

要約

人間は、象徴的な推論と直感的な反応の両方を活用できます。
対照的に、強化学習ポリシーは通常、ニューラル ネットワークのような不透明なシステム、または事前定義されたシンボルとルールに依存する記号システムのいずれかでエンコードされます。
このばらばらのアプローチは、ニューラル エージェントの特徴である柔軟な低レベルの反応や、記号エージェントの解釈可能な推論のいずれかを欠いていることが多いため、エージェントの能力を大幅に制限します。
この課題を克服するために、ロジックとニューラル ポリシーの両方を組み合わせて使用​​する RL エージェント内で両方のパラダイムを調和して統合するニューロシンボリック RL フレームワークである BlendRL を導入します。
私たちは、BlendRL エージェントが標準の Atari 環境でニューラル ベースラインとシンボリック ベースラインの両方を上回るパフォーマンスを示すことを経験的に実証し、環境変化に対する堅牢性を示します。
さらに、ニューラル ポリシーとシンボリック ポリシーの間の相互作用を分析し、それらのハイブリッド使用がエージェントが互いの制限を克服するのにどのように役立つかを示します。

要約(オリジナル)

Humans can leverage both symbolic reasoning and intuitive reactions. In contrast, reinforcement learning policies are typically encoded in either opaque systems like neural networks or symbolic systems that rely on predefined symbols and rules. This disjointed approach severely limits the agents’ capabilities, as they often lack either the flexible low-level reaction characteristic of neural agents or the interpretable reasoning of symbolic agents. To overcome this challenge, we introduce BlendRL, a neuro-symbolic RL framework that harmoniously integrates both paradigms within RL agents that use mixtures of both logic and neural policies. We empirically demonstrate that BlendRL agents outperform both neural and symbolic baselines in standard Atari environments, and showcase their robustness to environmental changes. Additionally, we analyze the interaction between neural and symbolic policies, illustrating how their hybrid use helps agents overcome each other’s limitations.

arxiv情報

著者 Hikaru Shindo,Quentin Delfosse,Devendra Singh Dhami,Kristian Kersting
発行日 2024-10-15 15:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | BlendRL: A Framework for Merging Symbolic and Neural Policy Learning はコメントを受け付けていません

DISCO: A Hierarchical Disentangled Cognitive Diagnosis Framework for Interpretable Job Recommendation

要約

オンライン採用プラットフォームの急速な発展により、求職者にとって前例のない機会が創出されると同時に、求職者のスキルや好みに合ったポジションを迅速かつ正確に特定するという重大な課題が生じています。
求人推薦システムは、クリック数や応募数などのユーザー エンゲージメント指標を最適化することで、求職者の広範な検索負担を大幅に軽減し、顕著な成功を収めています。
近年、効果的な仕事推奨モデルの開発に多くの研究が費やされており、主にテキスト マッチング ベースおよび行動モデリング ベースの手法に焦点が当てられています。
これらのアプローチは目覚ましい成果をもたらしましたが、採用推奨の説明可能性に関する研究は依然として深く研究されていないことに注意する必要があります。
この目的を達成するために、この論文では、効果的で解釈可能な仕事の推奨のための基礎となる表現学習モデルに柔軟に対応することを目的とした、階層的もつれ解除ベースの認知診断フレームワークである DISCO を提案します。
具体的には、まず、求職者と仕事の隠された表現に暗示される階層的スキル関連の要素を明示的にマイニングするための階層的表現解きほぐしモジュールを設計します。
続いて、レベル間知識影響モジュールとレベルごとの対照学習で構成される、レベル間およびレベル内の両方での情報通信と堅牢な表現学習を強化するために、レベルを意識した関連モデリングを提案します。
最後に、求職者と求人の間のマルチレベルの採用インタラクションプロセスを効果的にモデル化するための神経診断機能を組み込んだインタラクション診断モジュールを考案し、認知測定理論を導入します。

要約(オリジナル)

The rapid development of online recruitment platforms has created unprecedented opportunities for job seekers while concurrently posing the significant challenge of quickly and accurately pinpointing positions that align with their skills and preferences. Job recommendation systems have significantly alleviated the extensive search burden for job seekers by optimizing user engagement metrics, such as clicks and applications, thus achieving notable success. In recent years, a substantial amount of research has been devoted to developing effective job recommendation models, primarily focusing on text-matching based and behavior modeling based methods. While these approaches have realized impressive outcomes, it is imperative to note that research on the explainability of recruitment recommendations remains profoundly unexplored. To this end, in this paper, we propose DISCO, a hierarchical Disentanglement based Cognitive diagnosis framework, aimed at flexibly accommodating the underlying representation learning model for effective and interpretable job recommendations. Specifically, we first design a hierarchical representation disentangling module to explicitly mine the hierarchical skill-related factors implied in hidden representations of job seekers and jobs. Subsequently, we propose level-aware association modeling to enhance information communication and robust representation learning both inter- and intra-level, which consists of the interlevel knowledge influence module and the level-wise contrastive learning. Finally, we devise an interaction diagnosis module incorporating a neural diagnosis function for effectively modeling the multi-level recruitment interaction process between job seekers and jobs, which introduces the cognitive measurement theory.

arxiv情報

著者 Xiaoshan Yu,Chuan Qin,Qi Zhang,Chen Zhu,Haiping Ma,Xingyi Zhang,Hengshu Zhu
発行日 2024-10-15 15:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | DISCO: A Hierarchical Disentangled Cognitive Diagnosis Framework for Interpretable Job Recommendation はコメントを受け付けていません

Enhancing Agent Learning through World Dynamics Modeling

要約

大規模言語モデル (LLM) は、言語理解やインタラクティブな意思決定のタスクにますます適用されており、その優れたパフォーマンスは、LLM に組み込まれた広範なドメイン知識に大きく起因しています。
ただし、この知識の深さと広さはドメインによって異なる場合があります。
既存のアプローチの多くは、LLM が環境を包括的に理解していることを前提としており、実際の世界のダイナミクスの把握における潜在的なギャップを見逃していることがよくあります。
これに対処するために、少数のデモンストレーションから世界のダイナミクスを発見し、そのダイナミクスの精度を検証し、現在の状況に合わせた新しい高度なダイナミクスを進化させるフレームワークである Discover、Verify、Evolve (DiVE) を導入します。
広範な評価を通じて、各コンポーネントがパフォーマンスに与える影響を評価し、DiVE によって生成されたダイナミクスを人間が注釈を付けたダイナミクスと比較します。
私たちの結果は、DiVE によって導かれた LLM がより多くの情報に基づいた意思決定を行い、Crafter 環境では人間のプレイヤーと同等の報酬を達成し、MiniHack 環境では事前のタスク固有のトレーニングを必要とする方法を上回っていることを示しています。

要約(オリジナル)

Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment.

arxiv情報

著者 Zhiyuan Sun,Haochen Shi,Marc-Alexandre Côté,Glen Berseth,Xingdi Yuan,Bang Liu
発行日 2024-10-15 15:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Enhancing Agent Learning through World Dynamics Modeling はコメントを受け付けていません

Data Interpreter: An LLM Agent For Data Science

要約

Large Language Model (LLM) ベースのエージェントは、多くのアプリケーションにわたって有効性を示しています。
ただし、長期にわたる相互接続されたタスクの解決、動的なデータ調整、およびドメインの専門知識が必要なデータ サイエンスのシナリオでの使用は依然として困難です。
これまでのアプローチは主に個々のタスクに焦点を当てていたため、完全なデータ サイエンス ワークフローを評価することが困難でした。
さらに、中間データのリアルタイムの変更を処理するのに苦労し、データ サイエンスの問題に固有の進化するタスクの依存関係に動的に適応することができません。
このペーパーでは、さまざまなデータ サイエンスの問題をエンドツーエンドで自動的に解決するように設計された LLM ベースのエージェントである Data Interpreter について説明します。
当社のデータ インタープリターには、次の 2 つの主要なモジュールが組み込まれています。1) 階層グラフ モデリング。複雑な問題を管理可能なサブ問題に分解し、動的なノード生成とグラフの最適化を可能にします。
2) プログラマブル ノード生成。各部分問題を改良および検証して、コード生成の結果と堅牢性を反復的に向上させる手法です。
広範な実験により、Data Interpreter の優位性が一貫して実証されています。
InfiAgent-DABench では、パフォーマンスが 25% 向上し、精度が 75.9% から 94.9% に向上しました。
機械学習とオープンエンド タスクの場合、パフォーマンスがそれぞれ 88% から 95%、60% から 97% 向上します。
さらに、MATH データセットでは、Data Interpreter は最先端のベースラインと比較して 26% 向上という驚くべきパフォーマンスを達成しました。
コードは https://github.com/geekan/MetaGPT で入手できます。

要約(オリジナル)

Large Language Model (LLM)-based agents have shown effectiveness across many applications. However, their use in data science scenarios requiring solving long-term interconnected tasks, dynamic data adjustments and domain expertise remains challenging. Previous approaches primarily focus on individual tasks, making it difficult to assess the complete data science workflow. Moreover, they struggle to handle real-time changes in intermediate data and fail to adapt dynamically to evolving task dependencies inherent to data science problems. In this paper, we present Data Interpreter, an LLM-based agent designed to automatically solve various data science problems end-to-end. Our Data Interpreter incorporates two key modules: 1) Hierarchical Graph Modeling, which breaks down complex problems into manageable subproblems, enabling dynamic node generation and graph optimization; and 2) Programmable Node Generation, a technique that refines and verifies each subproblem to iteratively improve code generation results and robustness. Extensive experiments consistently demonstrate the superiority of Data Interpreter. On InfiAgent-DABench, it achieves a 25% performance boost, raising accuracy from 75.9% to 94.9%. For machine learning and open-ended tasks, it improves performance from 88% to 95%, and from 60% to 97%, respectively. Moreover, on the MATH dataset, Data Interpreter achieves remarkable performance with a 26% improvement compared to state-of-the-art baselines. The code is available at https://github.com/geekan/MetaGPT.

arxiv情報

著者 Sirui Hong,Yizhang Lin,Bang Liu,Bangbang Liu,Binhao Wu,Ceyao Zhang,Chenxing Wei,Danyang Li,Jiaqi Chen,Jiayi Zhang,Jinlin Wang,Li Zhang,Lingyao Zhang,Min Yang,Mingchen Zhuge,Taicheng Guo,Tuo Zhou,Wei Tao,Xiangru Tang,Xiangtao Lu,Xiawu Zheng,Xinbing Liang,Yaying Fei,Yuheng Cheng,Zhibin Gou,Zongze Xu,Chenglin Wu
発行日 2024-10-15 15:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Data Interpreter: An LLM Agent For Data Science はコメントを受け付けていません