OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code

要約

オープンエンドおよびAIの生成アルゴリズムは、ますます複雑なタスクを無期限に継続的に生成し、解決することを目的としており、より一般的な知性への有望な道を提供します。
この壮大なビジョンを達成するには、潜在的なタスクの膨大な配列内で学習が行われなければなりません。
環境を自動的に生成するための既存のアプローチは、手動で定義された、しばしば狭い環境の分布内で制約され、学習環境を作成する能力が制限されます。
この制限に対処するために、コード(EPIC)でプログラムされた環境を使用して、人間の興味深い概念(OMNI)のモデルを介して以前の作業をオープンエンドネスで増強する新しいフレームワークであるOmni-Epicを紹介します。
OMNI-EPICは、基礎モデルを活用して、次の学習可能な(つまり、エージェントの現在のスキルセットでは簡単すぎる、または困難ではない)と興味深い(たとえば、価値のある斬新な)タスクを指定するコードを自律的に生成します。
OMNI-EPICは、両方の環境(障害物コースなど)と報酬機能(たとえば、赤いオブジェクトに触れることなく障害物コースを迅速に進行する)を生成し、原則として、シミュレーション可能な学習タスクを作成できるようにします。
Omni-EPICの爆発的な創造性を紹介します。これは、新しい興味深い学習の課題を示唆するために継続的に革新します。
また、OMNI-EPICがどのように強化学習エージェントの学習の進歩に適応し、適切な困難なタスクを生成できるかを強調しています。
全体として、OMNI-EPICは、学習可能で興味深い環境を際限なく作成し、自己改善AIシステムとAI生成アルゴリズムの開発をさらに推進することができます。
ビデオ付きプロジェクトWebサイト:https://dub.sh/omniepic

要約(オリジナル)

Open-ended and AI-generating algorithms aim to continuously generate and solve increasingly complex tasks indefinitely, offering a promising path toward more general intelligence. To accomplish this grand vision, learning must occur within a vast array of potential tasks. Existing approaches to automatically generating environments are constrained within manually predefined, often narrow distributions of environment, limiting their ability to create any learning environment. To address this limitation, we introduce a novel framework, OMNI-EPIC, that augments previous work in Open-endedness via Models of human Notions of Interestingness (OMNI) with Environments Programmed in Code (EPIC). OMNI-EPIC leverages foundation models to autonomously generate code specifying the next learnable (i.e., not too easy or difficult for the agent’s current skill set) and interesting (e.g., worthwhile and novel) tasks. OMNI-EPIC generates both environments (e.g., an obstacle course) and reward functions (e.g., progress through the obstacle course quickly without touching red objects), enabling it, in principle, to create any simulatable learning task. We showcase the explosive creativity of OMNI-EPIC, which continuously innovates to suggest new, interesting learning challenges. We also highlight how OMNI-EPIC can adapt to reinforcement learning agents’ learning progress, generating tasks that are of suitable difficulty. Overall, OMNI-EPIC can endlessly create learnable and interesting environments, further propelling the development of self-improving AI systems and AI-Generating Algorithms. Project website with videos: https://dub.sh/omniepic

arxiv情報

著者 Maxence Faldor,Jenny Zhang,Antoine Cully,Jeff Clune
発行日 2025-02-14 14:24:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code はコメントを受け付けていません

RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation

要約

このホワイトペーパーでは、96のオブジェクトクラスを含む479の多様なタスクにわたって107kのデモンストレーション軌跡を含むデータセットであるRobomind(ロボット操作のためのマルチボジメントインテリジェンス規範データ)を紹介します。
Robomindは、人間のテレオ操作を通じて収集され、マルチビューの観察、固有受容ロボット状態情報、言語タスクの説明など、包括的なロボット関連情報を包含します。
模倣学習のデータの一貫性と信頼性を確保するために、Robomindは統一されたデータ収集プラットフォームと標準化されたプロトコルに基づいて構築されており、4つの異なるロボットの実施形態をカバーしています:Franka Emika Panda、UR5E、Agilex Dual-Armロボット、およびヒューマノイドロボットを備えたヒューマノイドロボット
二重の器用な手。
私たちのデータセットには、5Kの実際の障害デモも含まれており、それぞれに詳細な原因が伴い、ポリシー学習中に障害の反射と修正が可能になります。
さらに、Isaac Simシミュレーターにデジタルツイン環境を作成し、実際のタスクと資産を複製し、追加のトレーニングデータの低コストコレクションを容易にし、効率的な評価を可能にします。
データセットの品質と多様性を実証するために、シングルタスク設定のさまざまな模倣学習方法とマルチタスクシナリオ用の最先端のビジョンアクション(VLA)モデルを使用して、広範な実験を実施しました。
Robomindを活用することにより、VLAモデルは高い操作成功率を達成し、強力な一般化能力を実証しました。
私たちの知る限り、Robomindは統一されたプラットフォームで収集された最大の多体積視運動データセットであり、大規模で高品質のロボットトレーニングデータを提供します。
私たちのプロジェクトはhttps://x-humanoid-robomind.github.io/にあります。

要約(オリジナル)

In this paper, we introduce RoboMIND (Multi-embodiment Intelligence Normative Data for Robot Manipulation), a dataset containing 107k demonstration trajectories across 479 diverse tasks involving 96 object classes. RoboMIND is collected through human teleoperation and encompasses comprehensive robotic-related information, including multi-view observations, proprioceptive robot state information, and linguistic task descriptions. To ensure data consistency and reliability for imitation learning, RoboMIND is built on a unified data collection platform and a standardized protocol, covering four distinct robotic embodiments: the Franka Emika Panda, the UR5e, the AgileX dual-arm robot, and a humanoid robot with dual dexterous hands. Our dataset also includes 5k real-world failure demonstrations, each accompanied by detailed causes, enabling failure reflection and correction during policy learning. Additionally, we created a digital twin environment in the Isaac Sim simulator, replicating the real-world tasks and assets, which facilitates the low-cost collection of additional training data and enables efficient evaluation. To demonstrate the quality and diversity of our dataset, we conducted extensive experiments using various imitation learning methods for single-task settings and state-of-the-art Vision-Language-Action (VLA) models for multi-task scenarios. By leveraging RoboMIND, the VLA models achieved high manipulation success rates and demonstrated strong generalization capabilities. To the best of our knowledge, RoboMIND is the largest multi-embodiment teleoperation dataset collected on a unified platform, providing large-scale and high-quality robotic training data. Our project is at https://x-humanoid-robomind.github.io/.

arxiv情報

著者 Kun Wu,Chengkai Hou,Jiaming Liu,Zhengping Che,Xiaozhu Ju,Zhuqin Yang,Meng Li,Yinuo Zhao,Zhiyuan Xu,Guang Yang,Shichao Fan,Xinhua Wang,Fei Liao,Zhen Zhao,Guangyu Li,Zhao Jin,Lecheng Wang,Jilei Mao,Ning Liu,Pei Ren,Qiang Zhang,Yaoxu Lyu,Mengzhen Liu,Jingyang He,Yulin Luo,Zeyu Gao,Chenxuan Li,Chenyang Gu,Yankai Fu,Di Wu,Xingyu Wang,Sixiang Chen,Zhenyu Wang,Pengju An,Siyuan Qian,Shanghang Zhang,Jian Tang
発行日 2025-02-14 14:32:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation はコメントを受け付けていません

Merging public elementary schools to reduce racial/ethnic segregation

要約

多様な学校は、さまざまな人種/民族、社会経済、およびその他の背景の生徒間のつながりを促進することにより、暗黙のバイアスに対処し、共感、相互尊重、反省的思考を高めるのに役立ちます。
残念ながら、人種による隔離を正式に非合法化してから70年以上経っても、人口統計学的分離は米国の公立学校でramp延しています。
ただし、生徒が学校に割り当てられる方法を変更すると、より統合された学習環境を促進することができます。
このホワイトペーパーでは、「学校の合併」を、そのような未調査でありながら有望な学生の割り当てポリシーの変更として探索します。
学校の合併には、学校の出席境界または集水域を統合し、その後、各学校が提供する成績を変更することが含まれます。
450万人の小学生にサービスを提供している200の大規模な学区の小学校合併をシミュレートするアルゴリズムを開発し、このようにしてペアリングまたはトリプリングスクールが人種/民族の分離を中央値の相対的な20%に減らすことができることを発見しました。
一部の地区では、片道平均数分で学校への運転時間を増やしながら。
人種的/民族的に異なる地域の間に多くのインターフェイスがある地区は、合併の主要な候補者である傾向があります。
また、学校の合併の期待される結果を、再区画などの他の典型的な統合ポリシーと比較し、異なるポリシーが多かれ少なかれ異なる場所で多かれ少なかれ適切である可能性があることがわかります。
最後に、政策立案者とコミュニティメンバーがさらに探索するためのパブリックダッシュボードを通じて結果を利用できるようにします(https://mergers.schooldiversity.org)。
一緒に、私たちの調査では、米国の公立学区全体で統合政策立案をサポートするための新しい調査結果とツールを提供しています。

要約(オリジナル)

Diverse schools can help address implicit biases and increase empathy, mutual respect, and reflective thought by fostering connections between students from different racial/ethnic, socioeconomic, and other backgrounds. Unfortunately, demographic segregation remains rampant in US public schools, despite over 70 years since the passing of federal legislation formally outlawing segregation by race. However, changing how students are assigned to schools can help foster more integrated learning environments. In this paper, we explore ‘school mergers’ as one such under-explored, yet promising, student assignment policy change. School mergers involve merging the school attendance boundaries, or catchment areas, of schools and subsequently changing the grades each school offers. We develop an algorithm to simulate elementary school mergers across 200 large school districts serving 4.5 million elementary school students and find that pairing or tripling schools in this way could reduce racial/ethnic segregation by a median relative 20% — and as much as nearly 60% in some districts — while increasing driving times to schools by an average of a few minutes each way. Districts with many interfaces between racially/ethnically-disparate neighborhoods tend to be prime candidates for mergers. We also compare the expected results of school mergers to other typical integration policies, like redistricting, and find that different policies may be more or less suitable in different places. Finally, we make our results available through a public dashboard for policymakers and community members to explore further (https://mergers.schooldiversity.org). Together, our study offers new findings and tools to support integration policy-making across US public school districts.

arxiv情報

著者 Madison Landry,Nabeel Gillani
発行日 2025-02-14 14:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Merging public elementary schools to reduce racial/ethnic segregation はコメントを受け付けていません

Is Deep Learning finally better than Decision Trees on Tabular Data?

要約

表形式データは、多くの実際のアプリケーションでの汎用性と使いやすさのために、遍在するデータモダリティです。
表形式データの分類タスクを処理するための主なヒューリスティックは、深い学習モデルの優位性がまだ実証されていないため、古典的な機械学習技術に依存しています。
これは、新しい深い学習パラダイムが古典的なアプローチを上回ることができるかどうかという問題を提起します。
表形式データに関する最近の研究は、このドメインのニューラルネットワークの限界に関するユニークな視点を提供し、さまざまなデータセットにわたるスケーラビリティと堅牢性の観点から、勾配ブースト決定ツリー(GBDT)の優位性を強調しています。
ただし、新しい基礎モデルは、品質に関して徹底的に評価されていないか、表形式分類のための既存の方法と比較してかなり評価されていません。
私たちの研究では、基礎となる学習パラダイムに基づいて、最先端の10のニューラルモデルを分類し、特にメタ学習された基礎モデルが小さなデータレジームでGBDTを上回ることを示しています。
データセット固有のニューラルネットワークは一般にLLMベースの表形式分類器よりも優れていますが、それらは、より高い計算需要を犠牲にして、最高のパフォーマンスを示すAutomlライブラリによって超えられています。

要約(オリジナル)

Tabular data is a ubiquitous data modality due to its versatility and ease of use in many real-world applications. The predominant heuristics for handling classification tasks on tabular data rely on classical machine learning techniques, as the superiority of deep learning models has not yet been demonstrated. This raises the question of whether new deep learning paradigms can surpass classical approaches. Recent studies on tabular data offer a unique perspective on the limitations of neural networks in this domain and highlight the superiority of gradient boosted decision trees (GBDTs) in terms of scalability and robustness across various datasets. However, novel foundation models have not been thoroughly assessed regarding quality or fairly compared to existing methods for tabular classification. Our study categorizes ten state-of-the-art neural models based on their underlying learning paradigm, demonstrating specifically that meta-learned foundation models outperform GBDTs in small data regimes. Although dataset-specific neural networks generally outperform LLM-based tabular classifiers, they are surpassed by an AutoML library which exhibits the best performance but at the cost of higher computational demands.

arxiv情報

著者 Guri Zabërgja,Arlind Kadra,Christian M. M. Frey,Josif Grabocka
発行日 2025-02-14 14:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Is Deep Learning finally better than Decision Trees on Tabular Data? はコメントを受け付けていません

Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving

要約

数学的問題のための自動化された正式な証明生成で最先端の(SOTA)パフォーマンスを達成するオープンソースの大手言語モデル(LLM)であるGoedel-Proverを紹介します。
この分野の重要な課題は、正式な数学の声明と証明の希少性であり、次の方法で取り組んでいます。
Numinaの自然言語の数学の問題を正式な言語(Lean 4)に翻訳するために、声明のフォーマライザーを訓練し、164万人の正式な声明のデータセットを作成します。
LLMは、正式な声明が元の自然言語の問題の内容を正確に保持することを確認するために使用されます。
次に、一連のプロバーをトレーニングすることにより、正式な証明の大きなデータセットを繰り返し作成します。
各プロバーは、以前のものができないことができない多くの声明を証明することに成功し、これらの新しい証明は次のプロバーのトレーニングセットに追加されます。
監視された微調整のみを使用しているにもかかわらず、私たちの最終的な得点者は、強化学習を採用する以前のベストオープンソースモデルであるDeepSeek-Prover-V1.5を大幅に上回ります。
MINIF2Fベンチマークでは、モデルの成功率は57.6%(@32に合格)を達成し、DeepSeek-Prover-V1.5を7.6%上回ります。
Putnambenchでは、Goedel-Proverは7つの問題(@512を渡す)を正常に解決し、リーダーボードで最初にランキングします。
さらに、リーンワークブックの問題について29.7kの正式な証明を生成し、以前の作品によって生成された15.7kをほぼ2倍にします。

要約(オリジナル)

We introduce Goedel-Prover, an open-source large language model (LLM) that achieves the state-of-the-art (SOTA) performance in automated formal proof generation for mathematical problems. The key challenge in this field is the scarcity of formalized math statements and proofs, which we tackle in the following ways. We train statement formalizers to translate the natural language math problems from Numina into formal language (Lean 4), creating a dataset of 1.64 million formal statements. LLMs are used to check that the formal statements accurately preserve the content of the original natural language problems. We then iteratively build a large dataset of formal proofs by training a series of provers. Each prover succeeds in proving many statements that the previous ones could not, and these new proofs are added to the training set for the next prover. Despite using only supervised fine-tuning, our final prover significantly outperforms the previous best open-source model, DeepSeek-Prover-V1.5, which employs reinforcement learning. On the miniF2F benchmark, our model achieves a success rate of 57.6% (Pass@32), surpassing DeepSeek-Prover-V1.5 by 7.6%. On PutnamBench, Goedel-Prover successfully solves 7 problems (Pass@512), ranking first on the leaderboard. Furthermore, it generates 29.7K formal proofs for Lean Workbook problems, nearly doubling the 15.7K produced by earlier works.

arxiv情報

著者 Yong Lin,Shange Tang,Bohan Lyu,Jiayun Wu,Hongzhou Lin,Kaiyu Yang,Jia Li,Mengzhou Xia,Danqi Chen,Sanjeev Arora,Chi Jin
発行日 2025-02-14 14:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Goedel-Prover: A Frontier Model for Open-Source Automated Theorem Proving はコメントを受け付けていません

MathConstruct: Challenging LLM Reasoning with Constructive Proofs

要約

大規模な言語モデル(LLMS)は数学の印象的なパフォーマンスを示していますが、既存の数学ベンチマークには大きな制限があります。
多くの人が固定された地下真実の回答の問題に焦点を当てており、問題の単純さや推測や暗記の実行可能性のために、しばしば飽和します。
重要なことに、それらは関連する数学の問題の狭いサブセットのみをキャプチャします。
この研究のギャップに対処するために、さまざまな数学競争から供給された126の挑戦的な問題の新しいベンチマークである\ MCを紹介します。これは、特定の特性を持つ数学的オブジェクトの構築を必要とする広く遭遇する問題タイプです。
これらの証明は、ソリューションの正確性を簡単に検証できるため、LLM評価に特に適しています。
また、自動化された検証剤により、MathConstructは堅牢性を評価するために使用される問題のバリエーションを生成できます。
最先端のLLMは、MathConstructの問題の54%のみを解決し、LLM評価の複雑さと重要性を強調しています。

要約(オリジナル)

While Large Language Models (LLMs) demonstrate impressive performance in mathematics, existing math benchmarks come with significant limitations. Many focus on problems with fixed ground-truth answers, and are often saturated due to problem simplicity or the viability of guessing or memorization. Crucially, they capture only a narrow subset of relevant math problems. To address this research gap, we introduce \mc, a new benchmark of 126 challenging problems sourced from various math competitions, which targets constructive proofs, a widely encountered problem type requiring the construction of mathematical objects with specific properties. These proofs are particularly suitable for LLM evaluation, as solution correctness can be easily verified. Our automated verifiers also enable MathConstruct to generate problem variations, used to evaluate robustness. State-of-the-art LLMs solve only 54% of MathConstruct problems, highlighting its complexity and importance for LLM evaluation.

arxiv情報

著者 Mislav Balunović,Jasper Dekoninck,Nikola Jovanović,Ivo Petrov,Martin Vechev
発行日 2025-02-14 14:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MathConstruct: Challenging LLM Reasoning with Constructive Proofs はコメントを受け付けていません

Dynamic Reinforcement Learning for Actors

要約

この論文で提案されている動的強化学習(動的RL)は、各瞬間にアクター(アクション生成ニューラルネットワーク)出力の代わりにシステムのダイナミクスを直接制御し、静的から動的に補強学習(RL)の主要な定性的変化をもたらします。

俳優は当初、環境を備えたループを通じてカオスダイナミクスを生成するように設計されており、エージェントが柔軟で決定論的な探索を実行できるようにします。
Dynamic RLは、「感度」と呼ばれるローカルインデックスを使用してグローバルシステムのダイナミクスを制御します。これは、各ニューロンの処理を介して、入力近隣が対応する出力近傍にどれだけ縮小するか、または拡張するかを示します。
感度調整学習(SAL)はダイナミクスの過度の収束を防ぎますが、感度制御補強学習(SRL)がそれらを調整します。
負のTDエラーがあります。
ダイナミックRLは、批評家に適用する一方で、俳優批評家のRLアーキテクチャの俳優にのみ適用されました。
2つの動的タスクでテストされ、外部探査ノイズや時間を経て後方計算なしで効果的に機能しました。
さらに、いくつかの問題は残っていますが、新しい環境への優れた適応性を示しました。
著者は「探索」と「思考」との類似点を描いて、「探索は学習を通じて思考に成長する」と仮定し、このRLは、既存の大規模なテキストデータから再構築できないインスピレーションを含む、思考の出現の重要なテクニックであると考えています。
最後に、著者は、議論を奨励することを目指して、この研究が潜在的に致命的なリスクのために進むべきではないという議論を提示します。

要約(オリジナル)

Dynamic Reinforcement Learning (Dynamic RL), proposed in this paper, directly controls system dynamics, instead of the actor (action-generating neural network) outputs at each moment, bringing about a major qualitative shift in reinforcement learning (RL) from static to dynamic. The actor is initially designed to generate chaotic dynamics through the loop with its environment, enabling the agent to perform flexible and deterministic exploration. Dynamic RL controls global system dynamics using a local index called ‘sensitivity,’ which indicates how much the input neighborhood contracts or expands into the corresponding output neighborhood through each neuron’s processing. While sensitivity adjustment learning (SAL) prevents excessive convergence of the dynamics, sensitivity-controlled reinforcement learning (SRL) adjusts them — to converge more to improve reproducibility around better state transitions with positive TD error and to diverge more to enhance exploration around worse transitions with negative TD error. Dynamic RL was applied only to the actor in an Actor-Critic RL architecture while applying it to the critic remains a challenge. It was tested on two dynamic tasks and functioned effectively without external exploration noise or backward computation through time. Moreover, it exhibited excellent adaptability to new environments, although some problems remain. Drawing parallels between ‘exploration’ and ‘thinking,’ the author hypothesizes that ‘exploration grows into thinking through learning’ and believes this RL could be a key technique for the emergence of thinking, including inspiration that cannot be reconstructed from massive existing text data. Finally, despite being presumptuous, the author presents the argument that this research should not proceed due to its potentially fatal risks, aiming to encourage discussion.

arxiv情報

著者 Katsunari Shibata
発行日 2025-02-14 14:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Dynamic Reinforcement Learning for Actors はコメントを受け付けていません

Prediction hubs are context-informed frequent tokens in LLMs

要約

ハブネス、少数のポイントの傾向は、他のポイントの不均衡な数の最近隣人の中にあります。これは、高次元データに標準距離測定を適用すると一般的に発生し、多くの場合、距離ベースの分析に悪影響を及ぼします。
自己回帰の大手言語モデル(LLMS)は高次元表現で動作するため、それらがハブネスの影響を受けているかどうかを尋ねます。
理論的には、LLMSによって実行される唯一の表現比較操作、すなわち、継続確率を決定するためのコンテキストと具体化されていないベクトルの間で、通常、厄介なハブネスの出現を引き起こす距離現象の濃度によって特徴付けられないことを示しています。
次に、この比較が依然として高度なハブネスにつながることを経験的に示しますが、この場合のハブは妨害を構成しません。
それらはむしろ、次のトークン予測の可能性のある候補者のプールにしばしば現れるコンテキストに変化する頻繁なトークンの結果です。
一方、LLM表現を含む他の距離計算が実行されると、同じ理論的保証はありません。実際、迷惑なハブが現れます。
要約すると、私たちの作品は、一方では、高次元の空間で遍在する一方で、ハブネスが常に緩和する必要がある否定的な特性ではなく、さまざまな広く使用されているLLMSを強調しています。
頻繁なトークンに高い確率を絶えず割り当てることで構成される推測戦略を開発しました。

要約(オリジナル)

Hubness, the tendency for few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first show, theoretically, that the only representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appeareance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. On the other hand, when other distance computations involving LLM representations are performed, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. In summary, our work highlights, on the one hand, how hubness, while omnipresent in high-dimensional spaces, is not always a negative property that needs to be mitigated, and, on the other hand, it shows that various widely-used LLMs have developed a guessing strategy that consists in constantly assigning a high probability to frequent tokens.

arxiv情報

著者 Beatrix M. G. Nielsen,Iuri Macocco,Marco Baroni
発行日 2025-02-14 14:52:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Prediction hubs are context-informed frequent tokens in LLMs はコメントを受け付けていません

Do Large Language Models Reason Causally Like Us? Even Better?

要約

因果推論は、知性のコアコンポーネントです。
大規模な言語モデル(LLM)は、人間のようなテキストを生成する際に印象的な能力を示しており、彼らの応答が真の理解または統計的パターンを反映しているかどうかについて疑問を提起しています。
コライダーグラフに基づいたタスクを使用して、人間の因果推論と4つのLLMを比較し、他の変数からの証拠が与えられたクエリ変数が発生する可能性を評価しました。
LLMSは、モデル、コンテキスト、およびタスクに基づいてアラインメントシフトを備えて、人間のようなものから規範的推論までのスペクトルに沿って因果的に推論されることがわかります。
全体として、GPT-4OとClaudeは「説明」を含む最も規範的な行動を示しましたが、Gemini-ProとGPT-3.5はそうではありませんでした。
すべてのエージェントは、予想される原因の独立性から逸脱しましたが、最小限には、その原因を考慮して効果の可能性を評価する際に、強い連想推論と予測推論を示しました。
これらの発見は、AIバイアスが人間の意思決定をますます助けるため、AIバイアスを評価する必要性を強調しています。

要約(オリジナル)

Causal reasoning is a core component of intelligence. Large language models (LLMs) have shown impressive capabilities in generating human-like text, raising questions about whether their responses reflect true understanding or statistical patterns. We compared causal reasoning in humans and four LLMs using tasks based on collider graphs, rating the likelihood of a query variable occurring given evidence from other variables. We find that LLMs reason causally along a spectrum from human-like to normative inference, with alignment shifting based on model, context, and task. Overall, GPT-4o and Claude showed the most normative behavior, including ‘explaining away’, whereas Gemini-Pro and GPT-3.5 did not. Although all agents deviated from the expected independence of causes – Claude the least – they exhibited strong associative reasoning and predictive inference when assessing the likelihood of the effect given its causes. These findings underscore the need to assess AI biases as they increasingly assist human decision-making.

arxiv情報

著者 Hanna M. Dettki,Brenden M. Lake,Charley M. Wu,Bob Rehder
発行日 2025-02-14 15:09:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Do Large Language Models Reason Causally Like Us? Even Better? はコメントを受け付けていません

Forget the Data and Fine-Tuning! Just Fold the Network to Compress

要約

モデル折りたたみを導入します。これは、層全体で構造的に類似したニューロンをマージする新しいデータフリーモデル圧縮技術であり、微調整やトレーニングデータへのアクセスを必要とせずにモデルサイズを大幅に削減します。
既存の方法とは異なり、モデルの折り畳みは、K-Meansクラスタリングを活用し、変動の崩壊または爆発を防ぐために新しいデータフリーの手法を使用して、圧縮中のデータ統計を保持します。
ResNet18やLlama-7Bを含む標準的なベンチマーク全体の理論的枠組みと実験は、モデルの折り畳みがデータ駆動型の圧縮技術に匹敵するパフォーマンスを達成し、最近提案されたデータフリーの方法、特に高いスパースレベルで優れていることを示しています。
このアプローチは、大規模なモデルを圧縮するために特に効果的であり、リソースに制約のある環境での展開に適しています。

要約(オリジナル)

We introduce model folding, a novel data-free model compression technique that merges structurally similar neurons across layers, significantly reducing the model size without the need for fine-tuning or access to training data. Unlike existing methods, model folding preserves data statistics during compression by leveraging k-means clustering, and using novel data-free techniques to prevent variance collapse or explosion. Our theoretical framework and experiments across standard benchmarks, including ResNet18 and LLaMA-7B, demonstrate that model folding achieves comparable performance to data-driven compression techniques and outperforms recently proposed data-free methods, especially at high sparsity levels. This approach is particularly effective for compressing large-scale models, making it suitable for deployment in resource-constrained environments.

arxiv情報

著者 Dong Wang,Haris Šikić,Lothar Thiele,Olga Saukh
発行日 2025-02-14 15:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Forget the Data and Fine-Tuning! Just Fold the Network to Compress はコメントを受け付けていません