EXP-Bench: Can AI Conduct AI Research Experiments?

要約

AIの研究を自動化することは、科学的進歩を加速するための計り知れない可能性を秘めていますが、現在のAIエージェントは、厳密でエンドツーエンドの実験の複雑さと闘っています。
影響力のあるAI出版物から調達された完全な研究実験でAIエージェントを体系的に評価するように設計された新しいベンチマークであるExp-Benchを紹介します。
研究の質問と不完全なスターターコードを考慮して、Exp-benchはAIエージェントに課題であり、仮説を策定し、実験手順を設計および実装し、それらを実行し、結果を分析します。
このような忠実度を持つこのような複雑で本物のタスクの作成を可能にするために、これらの研究論文とそれに関連するオープンソースコードから重要な実験的詳細を抽出および構築するために、半自律パイプラインを設計します。
パイプラインにより、Exp-benchは51の最高層AI研究論文から461 AI研究タスクをキュレーションしました。
Exp-benchでのOpenHandsやIterativeagentなどの主要なLLMベースのエージェントの評価は部分的な能力を示しています。設計や実装の正しさなどの個々の実験的側面のスコアは20〜35%に達しますが、完全な実行可能な実験の成功率はわずか0.5%でした。
これらのボトルネックを特定し、現実的な段階的な実験手順を提供することにより、Exp-benchは、将来のAIエージェントがAI研究実験を実施する能力を向上させるための重要なツールとして機能します。
exp-benchはhttps://github.com/just-curious/curie/tree/main/benchmark/exp_benchでオープンソーシングされています。

要約(オリジナル)

Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.

arxiv情報

著者 Patrick Tser Jern Kon,Jiachen Liu,Xinyi Zhu,Qiuyi Ding,Jingjia Peng,Jiarong Xing,Yibo Huang,Yiming Qiu,Jayanth Srinivasa,Myungjin Lee,Mosharaf Chowdhury,Matei Zaharia,Ang Chen
発行日 2025-05-30 16:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EXP-Bench: Can AI Conduct AI Research Experiments? はコメントを受け付けていません

Drop Dropout on Single-Epoch Language Model Pretraining

要約

もともと、ドロップアウトは、過剰適合を減らすことにより、深い学習のほぼすべてのアプリケーションで過剰適合と改善されたパフォーマンスを低下させる画期的な正則化手法と見なされていました。
しかし、最新のLLMに共通する単一エポックの前削減タスクは、最小限の過剰適合をもたらし、大規模なLLMに使用されないドロップアウトにつながります。
それにもかかわらず、LM前脱出におけるドロップアウトの役割について、徹底的な経験的調査は行われていません。
さまざまなレベルのドロップアウトを伴うマスク(BERT)と自己回帰(Pythia 160Mおよび1.4B)の両方のシングルエポック事前削除の実験を通じて、言語モデリング、モルフォシンタックス(BLIMP)、質問応答(チーム)、および自然な言語的推論(MNLI)のドロップが無視されないときは、自然な言語的推論(チーム)の下流のパフォーマンスが見られます。
さらに、最近紹介された「早期ドロップアウト」は、ドロップアウトをまったく適用していないパフォーマンスも低下させることがわかりました。
さらに、モデルの編集可能性を調査し、ドロップアウトなしで訓練されたモデルがグラデーションベースのモデル編集(MEND)でより成功し、表現ベースのモデル編集(REFT)で同等であることがわかります。
したがって、シングルエポック事前にドロップアウトをドロップアウトすることを提唱しています。

要約(オリジナル)

Originally, dropout was seen as a breakthrough regularization technique that reduced overfitting and improved performance in almost all applications of deep learning by reducing overfitting. Yet, single-epoch pretraining tasks common to modern LLMs yield minimal overfitting, leading to dropout not being used for large LLMs. Nevertheless, no thorough empirical investigation has been done on the role of dropout in LM pretraining. Through experiments in single-epoch pretraining of both masked (BERT) and autoregressive (Pythia 160M and 1.4B) LMs with varying levels of dropout, we find that downstream performance in language modeling, morpho-syntax (BLiMP), question answering (SQuAD), and natural-language inference (MNLI) improves when dropout is not applied during pretraining. We additionally find that the recently-introduced ‘early dropout’ also degrades performance over applying no dropout at all. We further investigate the models’ editability, and find that models trained without dropout are more successful in gradient-based model editing (MEND) and equivalent in representation-based model editing (ReFT). Therefore, we advocate to drop dropout during single-epoch pretraining.

arxiv情報

著者 Houjun Liu,John Bauer,Christopher D. Manning
発行日 2025-05-30 16:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Drop Dropout on Single-Epoch Language Model Pretraining はコメントを受け付けていません

From the Pursuit of Universal AGI Architecture to Systematic Approach to Heterogenous AGI: Addressing Alignment, Energy, & AGI Grand Challenges

要約

人工知能(AI)は、エネルギー壁、アライメントの問題、狭いAIからAGIへの飛躍という壮大な課題の三連に直面しています。
Sagiは、システム設計の原則を利用してエネルギー壁とアライメントの課題を克服するためのAGIへの体系的なアプローチです。
このペーパーでは、AGIは、多数の設計固有のパスウェイを通じて実現し、特異な包括的なアーキテクチャではなくシステム設計を通じてカスタマイズできると主張しています。
AGIシステムは、意図したユースケースを条件とするダイバーアーキテクチャの構成と機能を示す場合があります。
AISの最も恐ろしい課題として広く認識されている課題であるアラインメントは、システム設計に最も大きく依存し、AGIの基本基準としての主要な推進力として機能するものです。
人間の道徳の複雑さを調整するための複雑さを捉えるには、道徳的な意思決定の複雑さとあらゆるレベルでの広範な倫理的処理を表すために建築的支援が必要であり、パフォーマンスの信頼性は人間の道徳的判断の信頼性を超えています。
したがって、人間の脳を複製したり似たりすることなく、安全性とアラインメントの目標に向けてより堅牢なアーキテクチャを必要とします。
学習基板(システムアーキテクチャを学習できる)のシステム設計(フィードバックループ、エネルギー、パフォーマンスの最適化など)は、AGIの目標と保証を達成するためにより基本的であり、古典的な象徴的、緊急、ハイブリッドアプローチに取って代わると主張します。
システムアーキテクチャ自体を学習することにより、結果として生じるAGIは、自発的な出現の産物ではなく、統合された道徳アーキテクチャを含むコア機能を備えた系統的な設計と意図的なエンジニアリングの産物であり、そのアーキテクチャに深く埋め込まれています。
このアプローチは、アラインメント、自己学習システムアーキテクチャによる効率などの設計目標を保証することを目的としています。

要約(オリジナル)

Artificial intelligence (AI) faces a trifecta of grand challenges: the Energy Wall, the Alignment Problem and the Leap from Narrow AI to AGI. We present SAGI, a Systematic Approach to AGI that utilizes system design principles to overcome the energy wall and alignment challenges. This paper asserts that AGI can be realized through multiplicity of design specific pathways and customized through system design rather than a singular overarching architecture. AGI systems may exhibit diver architectural configurations and capabilities, contingent upon their intended use cases. Alignment, a challenge broadly recognized as AIs most formidable, is the one that depends most critically on system design and serves as its primary driving force as a foundational criterion for AGI. Capturing the complexities of human morality for alignment requires architectural support to represent the intricacies of moral decision-making and the pervasive ethical processing at every level, with performance reliability exceeding that of human moral judgment. Hence, requiring a more robust architecture towards safety and alignment goals, without replicating or resembling the human brain. We argue that system design (such as feedback loops, energy and performance optimization) on learning substrates (capable of learning its system architecture) is more fundamental to achieving AGI goals and guarantees, superseding classical symbolic, emergentist and hybrid approaches. Through learning of the system architecture itself, the resulting AGI is not a product of spontaneous emergence but of systematic design and deliberate engineering, with core features, including an integrated moral architecture, deeply embedded within its architecture. The approach aims to guarantee design goals such as alignment, efficiency by self-learning system architecture.

arxiv情報

著者 Eren Kurshan
発行日 2025-05-30 16:49:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | From the Pursuit of Universal AGI Architecture to Systematic Approach to Heterogenous AGI: Addressing Alignment, Energy, & AGI Grand Challenges はコメントを受け付けていません

Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding

要約

フローの正常化は、理論的な厳密さ、分析的対数尤度計算、エンドツーエンドのトレーニングなどの利点を持つ有望な生成モデルです。
ただし、逆転性と扱いやすいヤコビアン計算を確保するためのアーキテクチャの制約により、表現力のある力と実用的な使いやすさが制限されます。
最近の進歩は、自動回帰モデリングを利用して、表現力と生成の品質を大幅に向上させています。
ただし、このようなシーケンシャルモデリングは、推論中の並列計算を本質的に制限し、実用的な展開を妨げる遅い発電につながります。
このホワイトペーパーでは、最初に、高品質のサンプルを生成するために、推論における厳密な連続依存性が不要であることを特定します。
シーケンシャルモデリングのパッチは、前のすべてのパッチを厳密に条件付けすることなく近似できることが観察されます。
さらに、モデルは、初期層での依存性冗長性が低く、後続の層でより高い冗長性を示す傾向があります。
これらの観察を活用して、並行反復的最適化を通じて自己回帰推論を加速する選択的なJacobiデコード(SEJD)戦略を提案します。
理論分析は、メソッドの超線形収束率を示し、必要な反復の数が元のシーケンシャルアプローチよりも大きくないことを保証します。
複数のデータセットにわたる経験的評価は、加速手法の一般性と有効性を検証します。
実験は、生成の品質と忠実度を維持しながら、推論の最大4.7倍の大幅な速度の改善を示しています。

要約(オリジナル)

Normalizing flows are promising generative models with advantages such as theoretical rigor, analytical log-likelihood computation, and end-to-end training. However, the architectural constraints to ensure invertibility and tractable Jacobian computation limit their expressive power and practical usability. Recent advancements utilize autoregressive modeling, significantly enhancing expressive power and generation quality. However, such sequential modeling inherently restricts parallel computation during inference, leading to slow generation that impedes practical deployment. In this paper, we first identify that strict sequential dependency in inference is unnecessary to generate high-quality samples. We observe that patches in sequential modeling can also be approximated without strictly conditioning on all preceding patches. Moreover, the models tend to exhibit low dependency redundancy in the initial layer and higher redundancy in subsequent layers. Leveraging these observations, we propose a selective Jacobi decoding (SeJD) strategy that accelerates autoregressive inference through parallel iterative optimization. Theoretical analyses demonstrate the method’s superlinear convergence rate and guarantee that the number of iterations required is no greater than the original sequential approach. Empirical evaluations across multiple datasets validate the generality and effectiveness of our acceleration technique. Experiments demonstrate substantial speed improvements up to 4.7 times faster inference while keeping the generation quality and fidelity.

arxiv情報

著者 Jiaru Zhang,Juanwu Lu,Ziran Wang,Ruqi Zhang
発行日 2025-05-30 16:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding はコメントを受け付けていません

AI for Just Work: Constructing Diverse Imaginations of AI beyond ‘Replacing Humans’

要約

「なぜ」私たちはAIを開発します。
AIの一般的なビジョンと目的に関する批判的な反省がないと、コミュニティが操作に対して脆弱になる可能性があります。
このポジションペーパーでは、AIの「なぜ」という質問を探ります。
AIの一般的なビジョン、フレーム、および考え方を描いたAIの想像力を「なぜ」という質問に対する答えを示します。
AIコミュニティの一般的なビジョンは、人間の交換や生産性の向上などの目的を強調する単一栽培であることを特定します。
この主流の想像力の批判的な調査は、その基盤と潜在的に不当な仮定を強調しています。
次に、AIの集合的な想像力を多様化し、AIの想像力の最初から倫理的仮定を埋め込むよう呼びかけます。
コミュニティの多様な想像力の追求を促進するために、「仕事のためのAI」の新しい想像力を構築するための1つのプロセスを実証し、より倫理的にするために医療画像合成タスクにその応用を紹介します。
この作業が、AIコミュニティがAIのビジョンと目的について市民社会との重要な対話を開くのに役立ち、公共の利益のためのAIの価値を回復するための多様で倫理的な想像力を追求するために、より技術的な作品と擁護を刺激することを願っています。

要約(オリジナル)

‘why’ we develop AI. Lacking critical reflections on the general visions and purposes of AI may make the community vulnerable to manipulation. In this position paper, we explore the ‘why’ question of AI. We denote answers to the ‘why’ question the imaginations of AI, which depict our general visions, frames, and mindsets for the prospects of AI. We identify that the prevailing vision in the AI community is largely a monoculture that emphasizes objectives such as replacing humans and improving productivity. Our critical examination of this mainstream imagination highlights its underpinning and potentially unjust assumptions. We then call to diversify our collective imaginations of AI, embedding ethical assumptions from the outset in the imaginations of AI. To facilitate the community’s pursuit of diverse imaginations, we demonstrate one process for constructing a new imagination of ‘AI for just work,’ and showcase its application in the medical image synthesis task to make it more ethical. We hope this work will help the AI community to open critical dialogues with civil society on the visions and purposes of AI, and inspire more technical works and advocacy in pursuit of diverse and ethical imaginations to restore the value of AI for the public good.

arxiv情報

著者 Weina Jin,Nicholas Vincent,Ghassan Hamarneh
発行日 2025-05-30 17:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | AI for Just Work: Constructing Diverse Imaginations of AI beyond ‘Replacing Humans’ はコメントを受け付けていません

RealDrive: Retrieval-Augmented Driving with Diffusion Models

要約

学習ベースのプランナーは、データからの微妙な相互作用について推論することを学び、ルールベースのプランナーから生じる厳格な行動を克服することにより、自然な人間のような運転行動を生成します。
それにもかかわらず、データ駆動型のアプローチはしばしば、まれで安全批判的なシナリオと闘い、生成された軌跡にわたって制限された制御可能性を提供します。
これらの課題に対処するために、トレーニングデータセットから最も関連性の高い専門家デモを取得することにより、拡散ベースの計画ポリシーを初期化する検索された生成(RAG)フレームワークであるRealdriveを提案します。
現在の観察と検索された例を除去プロセスを通じて補間することにより、私たちのアプローチは、多様なシナリオ全体で細粒の制御と安全な行動を可能にし、検索されたシナリオによって提供される強力な事前を活用します。
私たちが生み出すもう1つの重要な洞察は、計画ベースの目標で訓練されたタスク関連の検索モデルが、タスクに依存しないレトリバーと比較して、フレームワークで優れた計画パフォーマンスをもたらすことです。
実験結果は、標準的な学習ベースのプランナーと比較して、ロングテールイベントへの一般化の改善と軌道の多様性の向上を示しています。WaymoOpenMotion Datasetの衝突率が40%減少していることがわかります。

要約(オリジナル)

Learning-based planners generate natural human-like driving behaviors by learning to reason about nuanced interactions from data, overcoming the rigid behaviors that arise from rule-based planners. Nonetheless, data-driven approaches often struggle with rare, safety-critical scenarios and offer limited controllability over the generated trajectories. To address these challenges, we propose RealDrive, a Retrieval-Augmented Generation (RAG) framework that initializes a diffusion-based planning policy by retrieving the most relevant expert demonstrations from the training dataset. By interpolating between current observations and retrieved examples through a denoising process, our approach enables fine-grained control and safe behavior across diverse scenarios, leveraging the strong prior provided by the retrieved scenario. Another key insight we produce is that a task-relevant retrieval model trained with planning-based objectives results in superior planning performance in our framework compared to a task-agnostic retriever. Experimental results demonstrate improved generalization to long-tail events and enhanced trajectory diversity compared to standard learning-based planners — we observe a 40% reduction in collision rate on the Waymo Open Motion dataset with RAG.

arxiv情報

著者 Wenhao Ding,Sushant Veer,Yuxiao Chen,Yulong Cao,Chaowei Xiao,Marco Pavone
発行日 2025-05-30 17:15:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | RealDrive: Retrieval-Augmented Driving with Diffusion Models はコメントを受け付けていません

Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs

要約

汎用命令チューニングされたカウンターパートと比較して、特定の技術分野で優れたトレーニングドメインエクスペルLLMに関心が高まっています。
ただし、これらの専門モデルは、プロセスで安全能力の損失を経験し、有害なコンテンツを生成できることがよくあります。
解決策として、ドメインとアライメントベクターを補間する\ textSc {mergealign}と呼ばれる効率的かつ効果的なマージベースのアライメントメソッドを導入し、ユーティリティを維持しながらより安全なドメイン固有のモデルを作成します。
医学と金融の専門家であるLlama3バリアントに\ textSc {mergeAlign}を適用し、ドメイン固有のベンチマークで最小限から分解しないことで実質的な整合性の改善を取得します。
モデルの類似性メトリックと統合されている個々のモデルの貢献を通じてモデルマージの影響を研究します。
私たちの調査結果は、新しい研究道を開き、安全な専門家LLMのより効率的な開発を促すことを願っています。

要約(オリジナル)

There is a growing interest in training domain-expert LLMs that excel in specific technical fields compared to their general-purpose instruction-tuned counterparts. However, these expert models often experience a loss in their safety abilities in the process, making them capable of generating harmful content. As a solution, we introduce an efficient and effective merging-based alignment method called \textsc{MergeAlign} that interpolates the domain and alignment vectors, creating safer domain-specific models while preserving their utility. We apply \textsc{MergeAlign} on Llama3 variants that are experts in medicine and finance, obtaining substantial alignment improvements with minimal to no degradation on domain-specific benchmarks. We study the impact of model merging through model similarity metrics and contributions of individual models being merged. We hope our findings open new research avenues and inspire more efficient development of safe expert LLMs.

arxiv情報

著者 Megh Thakkar,Quentin Fournier,Matthew Riemer,Pin-Yu Chen,Amal Zouaq,Payel Das,Sarath Chandar
発行日 2025-05-30 17:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs はコメントを受け付けていません

Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

要約

大規模な言語モデルは、微調整を通じてタスク固有のアプリケーションで顕著な能力を示していますが、さまざまな言語全体にこれらの利点を拡大することが幅広いアクセシビリティに不可欠です。
ただし、言語間のLLMパフォーマンスのギャップと、多くの言語での微調整データの希少性によって、効果的な横断転送が妨げられています。
1,000以上の言語ペアからのLLM内部表現の分析を通じて、中間層が横断的なアライメントの最も強力な可能性を示すことがわかります。
この発見に基づいて、タスク固有のトレーニングに統合された中間層アライメント目標を提案します。
スロットの充填、機械翻訳、および構造化されたテキスト生成に関する実験は、特にリソース言語の低い言語に対する一貫した改善を示しています。
この方法は、アライメント言語の選択に堅牢であり、アラインメント中に目にされていない言語に一般化します。
さらに、個別にトレーニングされたアライメントモジュールを既存のタスク固有のモジュールと統合して、完全な再トレーニングなしで横断的機能を改善できることを示します。
私たちのコードは公開されています(https://github.com/dannigt/mid-align)。

要約(オリジナル)

While large language models demonstrate remarkable capabilities at task-specific applications through fine-tuning, extending these benefits across diverse languages is essential for broad accessibility. However, effective cross-lingual transfer is hindered by LLM performance gaps across languages and the scarcity of fine-tuning data in many languages. Through analysis of LLM internal representations from over 1,000+ language pairs, we discover that middle layers exhibit the strongest potential for cross-lingual alignment. Building on this finding, we propose a middle-layer alignment objective integrated into task-specific training. Our experiments on slot filling, machine translation, and structured text generation show consistent improvements in cross-lingual transfer, especially to lower-resource languages. The method is robust to the choice of alignment languages and generalizes to languages unseen during alignment. Furthermore, we show that separately trained alignment modules can be merged with existing task-specific modules, improving cross-lingual capabilities without full re-training. Our code is publicly available (https://github.com/dannigt/mid-align).

arxiv情報

著者 Danni Liu,Jan Niehues
発行日 2025-05-30 17:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs はコメントを受け付けていません

You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations

要約

会議の要約は、主にプライバシーの制限と高価な収集プロセスのために、限られた高品質のデータに苦しんでいます。
このギャップには、英語で500回の会議と300回のドイツ語でこのギャップに対処します。MIMICがプロデュースしたドイツ語では、心理的に接地された参加者プロファイルを定義し、会話の概要を定義し、大規模な言語モデル(LLM)の議論をオーメストレートすることにより、特定の知識ソースでトランスクリプトを生成します。
モジュール式後処理ステップは、これらの出力を改良し、潜在的な繰り返しと過度に正式なトーンを緩和し、大規模な一貫した信頼できる対話を確保します。
また、自然性、社会的行動の信頼性、および転写の困難を評価する心理的に根拠のある評価フレームワークを提案します。
人間の評価は、名声が現実的な自発性(自然性では4.5/5)に近似し、スピーカー中心の課題(音声言語では3/5)を保持し、より豊かな情報指向の難易度(4/5が難易度)を導入することを示しています。
これらの調査結果は、名声が現実世界の会議条件にとって優れたスケーラブルなプロキシであることを強調しています。
これにより、会話のデータを必要とするタスクで、要約調査やその他の会話中心のアプリケーションを満たすための新しいテストシナリオを可能にし、行動制約の下でソーシャルシナリオをシミュレートする必要があります。

要約(オリジナル)

Meeting summarization suffers from limited high-quality data, mainly due to privacy restrictions and expensive collection processes. We address this gap with FAME, a dataset of 500 meetings in English and 300 in German produced by MIMIC, our new multi-agent meeting synthesis framework that generates meeting transcripts on a given knowledge source by defining psychologically grounded participant profiles, outlining the conversation, and orchestrating a large language model (LLM) debate. A modular post-processing step refines these outputs, mitigating potential repetitiveness and overly formal tones, ensuring coherent, credible dialogues at scale. We also propose a psychologically grounded evaluation framework assessing naturalness, social behavior authenticity, and transcript difficulties. Human assessments show that FAME approximates real-meeting spontaneity (4.5/5 in naturalness), preserves speaker-centric challenges (3/5 in spoken language), and introduces richer information-oriented difficulty (4/5 in difficulty). These findings highlight that FAME is a good and scalable proxy for real-world meeting conditions. It enables new test scenarios for meeting summarization research and other conversation-centric applications in tasks requiring conversation data or simulating social scenarios under behavioral constraints.

arxiv情報

著者 Frederic Kirstein,Muneeb Khan,Jan Philip Wahle,Terry Ruas,Bela Gipp
発行日 2025-05-30 17:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations はコメントを受け付けていません

PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models

要約

大規模な言語モデル(LLM)は急速に進歩しており、物理学の問題を含む複雑な科学的問題に取り組むことができるようになりました。
この進歩にもかかわらず、現在のLLMはしばしば、人間の専門家の特徴である簡潔で原則に基づいた推論をエミュレートできず、代わりに長くて不透明なソリューションを生成します。
この矛盾は、効率的で解釈可能な問題解決のためにコアの物理的原理を適用する能力の重要なギャップを強調しています。
この制限を体系的に調査するために、指導原則を使用して専門家が簡単に解決できるように設計された新しい原則ベースの物理的推論ベンチマークであるPhysenseを紹介しますが、原則的な推論なしではLLMSにとっては一見困難です。
複数の最先端のLLMとプロンプトタイプにわたる評価により、専門家のような推論パスと一致する一貫した失敗が明らかになり、効率的で堅牢で解釈可能な原則に基づいた科学的推論を備えたAIシステムを開発するための洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have rapidly advanced and are increasingly capable of tackling complex scientific problems, including those in physics. Despite this progress, current LLMs often fail to emulate the concise, principle-based reasoning characteristic of human experts, instead generating lengthy and opaque solutions. This discrepancy highlights a crucial gap in their ability to apply core physical principles for efficient and interpretable problem solving. To systematically investigate this limitation, we introduce PhySense, a novel principle-based physics reasoning benchmark designed to be easily solvable by experts using guiding principles, yet deceptively difficult for LLMs without principle-first reasoning. Our evaluation across multiple state-of-the-art LLMs and prompt types reveals a consistent failure to align with expert-like reasoning paths, providing insights for developing AI systems with efficient, robust and interpretable principle-based scientific reasoning.

arxiv情報

著者 Yinggan Xu,Yue Liu,Zhiqiang Gao,Changnan Peng,Di Luo
発行日 2025-05-30 17:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models はコメントを受け付けていません