A Self-Improving Coding Agent

要約

基本的なコーディングツールを装備したLLMコーディングエージェントが自律的に編集し、それによりベンチマークタスクでのパフォーマンスを向上させることができることを実証します。
SWEベンチのランダムサブセットでパフォーマンスの向上が17%から53%で検証されており、LiveCodebenchでのパフォーマンスの追加利益と、合成的に生成されたエージェントベンチマークがあります。
私たちの作業は、エージェントシステムの自動化されたオープンエンドの設計の進歩を表しており、ツールの使用やその他のエージェントタスクに関するトレイン後のLLMSを求めている人に参照エージェントフレームワークを提供します。

要約(オリジナル)

We demonstrate that an LLM coding agent, equipped with basic coding tools, can autonomously edit itself, and thereby improve its performance on benchmark tasks. We find performance gains from 17% to 53% on a random subset of SWE Bench Verified, with additional performance gains on LiveCodeBench, as well as synthetically generated agent benchmarks. Our work represents an advancement in the automated and open-ended design of agentic systems, and provides a reference agent framework for those seeking to post-train LLMs on tool use and other agentic tasks.

arxiv情報

著者 Maxime Robeyns,Martin Szummer,Laurence Aitchison
発行日 2025-04-21 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Values in the Wild: Discovering and Analyzing Values in Real-World Language Model Interactions

要約

AIアシスタントは、人々の決定や世界観を形作る価値判断を与えることができますが、これらのシステムが実際にどのような価値を依存しているかについては、経験的にはほとんど知られていません。
これに対処するために、クロード3および3.5モデルが数十万の実世界の相互作用で示す値(モデル応答で記載または実証された規範的な考慮事項)を抽出するためのボトムアップのプライバシー圧力方法を開発します。
3,307 AIの値を経験的に発見し、分類し、それらがコンテキストによってどのように変化するかを研究します。
クロードは多くの実用的で認識論的な価値を表現し、通常、「道徳的ニヒリズム」のような価値に抵抗しながら、向社会的人間の価値をサポートしていることがわかります。
コンテキスト全体で一貫して表示される一部の値(「透明性」など)は、人間の対話者の多様性とその多様なコンテキストを反映して、より専門的でコンテキスト依存性があります。
たとえば、Claudeがユーザーに抵抗すると、「Harm Prevention」は、論争の的となっている出来事についての質問に応答する際に「歴史的正確さ」、「関係のアドバイス」を求められたときの「健康的な境界」、技術倫理の議論における「人間の代理店」に抵抗すると現れます。
展開におけるAI値の最初の大規模な経験的マッピングを提供することにより、我々の作業は、AIシステムのより根拠のある評価と設計の基礎を作り出します。

要約(オリジナル)

AI assistants can impart value judgments that shape people’s decisions and worldviews, yet little is known empirically about what values these systems rely on in practice. To address this, we develop a bottom-up, privacy-preserving method to extract the values (normative considerations stated or demonstrated in model responses) that Claude 3 and 3.5 models exhibit in hundreds of thousands of real-world interactions. We empirically discover and taxonomize 3,307 AI values and study how they vary by context. We find that Claude expresses many practical and epistemic values, and typically supports prosocial human values while resisting values like ‘moral nihilism’. While some values appear consistently across contexts (e.g. ‘transparency’), many are more specialized and context-dependent, reflecting the diversity of human interlocutors and their varied contexts. For example, ‘harm prevention’ emerges when Claude resists users, ‘historical accuracy’ when responding to queries about controversial events, ‘healthy boundaries’ when asked for relationship advice, and ‘human agency’ in technology ethics discussions. By providing the first large-scale empirical mapping of AI values in deployment, our work creates a foundation for more grounded evaluation and design of values in AI systems.

arxiv情報

著者 Saffron Huang,Esin Durmus,Miles McCain,Kunal Handa,Alex Tamkin,Jerry Hong,Michael Stern,Arushi Somani,Xiuruo Zhang,Deep Ganguli
発行日 2025-04-21 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG | コメントする

FlowReasoner: Reinforcing Query-Level Meta-Agents

要約

このペーパーでは、クエリレベルのマルチエージェントシステムの設計、つまりユーザークエリごとの1つのシステムを自動化するためのクエリレベルのメタエージェントという名前のFlow-Reasonerを提案します。
私たちの核となるアイデアは、外部実行フィードバックを介して推論ベースのメタエージェントを奨励することです。
具体的には、DeepSeek R1を蒸留することにより、まず、マルチエージェントシステムの生成に関する基本的な推論能力をフローリアーズに捧げます。
次に、外部の実行フィードバックを使用して、強化学習(RL)を介してさらに強化します。
多目的報酬は、パフォーマンス、複雑さ、効率の側面からのRLトレーニングをガイドするために設計されています。
この方法で、Flow-Reasonerは、審議的推論を介して各ユーザークエリのパーソナライズされたマルチエージェントシステムを生成できるようになります。
エンジニアリングと競争コードの両方のベンチマークでの実験は、フローリアーズの優位性を示しています。
驚くべきことに、3つのベンチマークでO1-MINIを10.52%の精度を上回ります。
このコードは、https://github.com/sail-sg/flowrisonerで入手できます。

要約(オリジナル)

This paper proposes a query-level meta-agent named FlowReasoner to automate the design of query-level multi-agent systems, i.e., one system per user query. Our core idea is to incentivize a reasoning-based meta-agent via external execution feedback. Concretely, by distilling DeepSeek R1, we first endow the basic reasoning ability regarding the generation of multi-agent systems to FlowReasoner. Then, we further enhance it via reinforcement learning (RL) with external execution feedback. A multi-purpose reward is designed to guide the RL training from aspects of performance, complexity, and efficiency. In this manner, FlowReasoner is enabled to generate a personalized multi-agent system for each user query via deliberative reasoning. Experiments on both engineering and competition code benchmarks demonstrate the superiority of FlowReasoner. Remarkably, it surpasses o1-mini by 10.52% accuracy across three benchmarks. The code is available at https://github.com/sail-sg/FlowReasoner.

arxiv情報

著者 Hongcheng Gao,Yue Liu,Yufei He,Longxu Dou,Chao Du,Zhijie Deng,Bryan Hooi,Min Lin,Tianyu Pang
発行日 2025-04-21 17:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Leveraging Language Models for Automated Patient Record Linkage

要約

目的:ヘルスケアデータの断片化は、患者データをリンクするための主要な課題を提示し、多様なソースから患者記録を統合するための堅牢なレコードリンクを必要とします。
この研究では、自動化された患者の記録的なリンケージの言語モデルを活用する可能性を調査し、ブロッキングとマッチングという2つの重要なタスクに焦点を当てています。
材料と方法:ミズーリ州がん登録および研究センターからの実際の医療データを利用し、ベースラインとして確率的リンケージを使用して2つの独立したソースの患者記録をリンクしました。
トランスベースのモデルであるロベルタは、文の埋め込みを使用してブロッキングするために微調整されました。
一致するために、いくつかの言語モデルを微調整されたゼロショット設定で実験し、グラウンドトゥルースラベルに対するパフォーマンスを評価しました。
結果:微調整されたブロッキングモデルは、ほぼ完璧なリコールを維持しながら、候補ペアの数が92%減少しました。
一致するタスクでは、微調整されたミストラル-7Bは、わずか6つの誤った予測で最高のパフォーマンスを達成しました。
ゼロショットモデルの中で、Mistral-Small-24Bが最高のパフォーマンスを発揮し、合計55の誤った予測がありました。
ディスカッション:微調整された言語モデルは、患者の記録ブロッキングと最小限のエラーとのマッチングで強力なパフォーマンスを達成しました。
ただし、ハイブリッドルールベースのバックアプローチよりも正確で効率的ではありません。
さらに、DeepSeek-R1などの推論モデルは、計算コストが高いため、大規模なレコードリンクに対しては非現実的です。
結論:この研究は、患者の記録的なリンケージを自動化するための言語モデルの可能性を強調し、患者の記録的なリンケージを実行するために必要な手動の努力を排除することにより、効率を向上させます。
全体として、言語モデルは、データの統合を強化し、手動の努力を削減し、病気の監視と研究をサポートできるスケーラブルなソリューションを提供します。

要約(オリジナル)

Objective: Healthcare data fragmentation presents a major challenge for linking patient data, necessitating robust record linkage to integrate patient records from diverse sources. This study investigates the feasibility of leveraging language models for automated patient record linkage, focusing on two key tasks: blocking and matching. Materials and Methods: We utilized real-world healthcare data from the Missouri Cancer Registry and Research Center, linking patient records from two independent sources using probabilistic linkage as a baseline. A transformer-based model, RoBERTa, was fine-tuned for blocking using sentence embeddings. For matching, several language models were experimented under fine-tuned and zero-shot settings, assessing their performance against ground truth labels. Results: The fine-tuned blocking model achieved a 92% reduction in the number of candidate pairs while maintaining near-perfect recall. In the matching task, fine-tuned Mistral-7B achieved the best performance with only 6 incorrect predictions. Among zero-shot models, Mistral-Small-24B performed best, with a total of 55 incorrect predictions. Discussion: Fine-tuned language models achieved strong performance in patient record blocking and matching with minimal errors. However, they remain less accurate and efficient than a hybrid rule-based and probabilistic approach for blocking. Additionally, reasoning models like DeepSeek-R1 are impractical for large-scale record linkage due to high computational costs. Conclusion: This study highlights the potential of language models for automating patient record linkage, offering improved efficiency by eliminating the manual efforts required to perform patient record linkage. Overall, language models offer a scalable solution that can enhance data integration, reduce manual effort, and support disease surveillance and research.

arxiv情報

著者 Mohammad Beheshti,Lovedeep Gondara,Iris Zachary
発行日 2025-04-21 17:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction

要約

オープンエンドの実世界のタスクのゆるい抽象化である一連の最小アルゴリズムタスクを設計します。
これにより、現在の言語モデルの創造的な限界をきれいかつ制御できるようにすることができます。
創造的で先見の明のある思考の飛躍を必要とする現実世界のタスクと同じように、私たちのタスクは、(a)抽象的な知識グラフで新しいつながりを発見し、抽象的な知識グラフ(類推、または研究の描画など)または(b)が新しいパターンを構築するという暗黙のオープンエンドの確率的計画ステップを必要とします。
これらのタスクでは、次のトークン学習が近視であり、過度に記憶される方法を経験的および概念的に議論します。
それに比べて、マルチトークンアプローチ、すなわち教師レストレーニングと拡散モデルは、多様で元の出力の生産に優れています。
第二に、私たちのタスクでは、コヒーレンスを傷つけずにトランスからランダム性を引き出すために、出力層からの温度サンプリングに延期するのではなく、入力層にノイズを(ハッシュ条件付けをダブする方法を介して)注入する方が良いことがわかります。
したがって、私たちの作品は、オープンエンドのクリエイティブスキルを分析するための原則的で最小限のテストベッドを提供し、次のトークン学習とソフトマックスベースのサンプリングを超えて新しい議論を提供します。
コードの一部をhttps://github.com/chenwu98/algorithmic-creativityで利用可能にします

要約(オリジナル)

We design a suite of minimal algorithmic tasks that are a loose abstraction of open-ended real-world tasks. This allows us to cleanly and controllably quantify the creative limits of the present-day language model. Much like real-world tasks that require a creative, far-sighted leap of thought, our tasks require an implicit, open-ended stochastic planning step that either (a) discovers new connections in an abstract knowledge graph (like in wordplay, drawing analogies, or research) or (b) constructs new patterns (like in designing math problems or new proteins). In these tasks, we empirically and conceptually argue how next-token learning is myopic and memorizes excessively; comparatively, multi-token approaches, namely teacherless training and diffusion models, excel in producing diverse and original output. Secondly, in our tasks, we find that to elicit randomness from the Transformer without hurting coherence, it is better to inject noise right at the input layer (via a method we dub hash-conditioning) rather than defer to temperature sampling from the output layer. Thus, our work offers a principled, minimal test-bed for analyzing open-ended creative skills, and offers new arguments for going beyond next-token learning and softmax-based sampling. We make part of the code available under https://github.com/chenwu98/algorithmic-creativity

arxiv情報

著者 Vaishnavh Nagarajan,Chen Henry Wu,Charles Ding,Aditi Raghunathan
発行日 2025-04-21 17:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Causal-Copilot: An Autonomous Causal Analysis Agent

要約

因果分析は、科学的発見と信頼できる意思決定において基本的な役割を果たしますが、概念的およびアルゴリズムの複雑さにより、ドメインの専門家がほとんどアクセスできないままです。
因果的方法論と実用的な使いやすさとの間のこの切断は、二重の課題を提示します。ドメインの専門家は因果学習の最近の進歩を活用することができませんが、因果研究者は、方法をテストおよび改良するための広範な現実世界の展開を欠いています。
これに対処するために、大規模な言語モデルフレームワーク内で専門家レベルの因果分析を運用する自律剤である因果関係者を紹介します。
因果コピロットは、原因発見、因果推論、アルゴリズムの選択、ハイパーパラメーターの最適化、結果の解釈、実用的な洞察の生成など、表形式および時系列の両方のデータの因果分析の完全なパイプラインを自動化します。
自然言語を通じてインタラクティブな洗練をサポートし、方法論的な厳密さを維持しながら、非専門家の障壁を下げます。
20を超える最先端の因果分析手法を統合することにより、システムは好循環を促進します。ドメインの専門家の高度な因果手法へのアクセスを拡大しながら、因果理論を通知および前進させるリッチで現実世界のアプリケーションを生成します。
実証的評価は、因果関係者が既存のベースラインと比較して優れた性能を達成することを示しており、因果分析における理論的洗練と現実世界の適用性のギャップを橋渡しする信頼性が高く、スケーラブルで拡張可能なソリューションを提供します。
原因とコピロットのライブインタラクティブなデモは、https://causalcopilot.com/で入手できます。

要約(オリジナル)

Causal analysis plays a foundational role in scientific discovery and reliable decision-making, yet it remains largely inaccessible to domain experts due to its conceptual and algorithmic complexity. This disconnect between causal methodology and practical usability presents a dual challenge: domain experts are unable to leverage recent advances in causal learning, while causal researchers lack broad, real-world deployment to test and refine their methods. To address this, we introduce Causal-Copilot, an autonomous agent that operationalizes expert-level causal analysis within a large language model framework. Causal-Copilot automates the full pipeline of causal analysis for both tabular and time-series data — including causal discovery, causal inference, algorithm selection, hyperparameter optimization, result interpretation, and generation of actionable insights. It supports interactive refinement through natural language, lowering the barrier for non-specialists while preserving methodological rigor. By integrating over 20 state-of-the-art causal analysis techniques, our system fosters a virtuous cycle — expanding access to advanced causal methods for domain experts while generating rich, real-world applications that inform and advance causal theory. Empirical evaluations demonstrate that Causal-Copilot achieves superior performance compared to existing baselines, offering a reliable, scalable, and extensible solution that bridges the gap between theoretical sophistication and real-world applicability in causal analysis. A live interactive demo of Causal-Copilot is available at https://causalcopilot.com/.

arxiv情報

著者 Xinyue Wang,Kun Zhou,Wenyi Wu,Har Simrat Singh,Fang Nan,Songyao Jin,Aryan Philip,Saloni Patnaik,Hou Zhu,Shivam Singh,Parjanya Prashant,Qian Shen,Biwei Huang
発行日 2025-04-21 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

要約

プロセス報酬モデル(PRMS)は、挑戦的な推論タスクに関する大規模な言語モデル(LLM)のテスト時間スケーリングに効果的であることが証明されています。
ただし、PRMSの報酬のハッキングの問題は、補強材の微調整における成功したアプリケーションを制限しています。
このホワイトペーパーでは、PRM誘発報酬ハッキングの主な原因を特定します。累積ガンマが課せられた将来の報酬として価値を定義する補強学習(RL)における標準的な合計形式のクレジット割り当ては、LLMSを高い報酬でハッキングするように簡単に誘導します。
これに対処するために、純粋なものを提案します。プロセス監視された強化学習。
Pureの主要な革新は、将来の報酬の最小値として値関数を策定するMin-Formクレジット割り当てです。
この方法は、値関数範囲を制限し、利点をより合理的に分配することにより、報酬のハッキングを大幅に軽減します。
3つのベースモデルでの広範な実験を通じて、PRMベースのアプローチが最小型クレジットの割り当てを可能にするアプローチが、わずか30%のステップで検証可能な報酬ベースの方法に同等の推論パフォーマンスを達成することを示しています。
対照的に、Canonical Sum-Formクレジットの割り当ては、最初でもトレーニングを崩壊させます!
さらに、PRMベースの微調整を10%検証可能な報酬で補足すると、報酬のハッキングをさらに軽減し、実験でQWEN2.5-MATH-7Bに基づいて最高の微調整されたモデルを生成し、AMC23および53.3%の平均精度で82.5%の精度を達成します。
さらに、観察された報酬ハッキングケースを要約し、トレーニングの崩壊の原因を分析します。
コードとモデルはhttps://github.com/cjreinforce/pureで入手できます。

要約(オリジナル)

Process reward models (PRMs) have proven effective for test-time scaling of Large Language Models (LLMs) on challenging reasoning tasks. However, reward hacking issues with PRMs limit their successful application in reinforcement fine-tuning. In this paper, we identify the main cause of PRM-induced reward hacking: the canonical summation-form credit assignment in reinforcement learning (RL), which defines the value as cumulative gamma-decayed future rewards, easily induces LLMs to hack steps with high rewards. To address this, we propose PURE: Process sUpervised Reinforcement lEarning. The key innovation of PURE is a min-form credit assignment that formulates the value function as the minimum of future rewards. This method significantly alleviates reward hacking by limiting the value function range and distributing advantages more reasonably. Through extensive experiments on 3 base models, we show that PRM-based approaches enabling min-form credit assignment achieve comparable reasoning performance to verifiable reward-based methods within only 30% steps. In contrast, the canonical sum-form credit assignment collapses training even at the beginning! Additionally, when we supplement PRM-based fine-tuning with just 10% verifiable rewards, we further alleviate reward hacking and produce the best fine-tuned model based on Qwen2.5-Math-7B in our experiments, achieving 82.5% accuracy on AMC23 and 53.3% average accuracy across 5 benchmarks. Moreover, we summarize the observed reward hacking cases and analyze the causes of training collapse. Code and models are available at https://github.com/CJReinforce/PURE.

arxiv情報

著者 Jie Cheng,Ruixi Qiao,Lijun Li,Chao Guo,Junle Wang,Gang Xiong,Yisheng Lv,Fei-Yue Wang
発行日 2025-04-21 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

RILe: Reinforced Imitation Learning

要約

複雑な行動を取得することは、人為的にインテリジェントなエージェントに不可欠ですが、高次元の設定でこれらの動作を学ぶことは、広大な検索スペースのために重要な課題をもたらします。
従来の強化学習(RL)には、報酬機能エンジニアリングのための広範な手動努力が必要です。
逆強化学習(IRL)は、専門家のデモンストレーションから報酬機能を明らかにしますが、多くの場合計算上の高価な反復プロセスに依存しています。
模倣学習(IL)は、エージェントのアクションを専門家のデモンストレーションと直接比較することにより、より効率的な代替手段を提供します。
ただし、高次元の環境では、このような直接的な比較は、多くの場合、効果的な学習のために不十分なフィードバックを提供します。
Rile(強化模倣学習)を紹介します。これは、模倣学習と逆補強学習の強みを組み合わせて、高次元のタスクで高密度の報酬機能を学習し、強力なパフォーマンスを達成するための逆補強学習です。
Rileは新しいトレーナーと学生のフレームワークを採用しています。トレーナーは適応的な報酬機能を学び、学生はこの報酬信号を使用して専門家の行動を模倣します。
学生が進化するにつれてガイダンスを動的に調整することにより、トレーナーは学習のさまざまな段階で微妙なフィードバックを提供します。
私たちのフレームワークは、直接的な模倣が複雑な動作を再現できない高次元のタスクで高性能のポリシーを生成します。
挑戦的なロボットの移動タスクでRileを検証し、既存の方法を大幅に上回り、複数の設定にわたってExpertに近いパフォーマンスを達成することを示しています。

要約(オリジナル)

Acquiring complex behaviors is essential for artificially intelligent agents, yet learning these behaviors in high-dimensional settings poses a significant challenge due to the vast search space. Traditional reinforcement learning (RL) requires extensive manual effort for reward function engineering. Inverse reinforcement learning (IRL) uncovers reward functions from expert demonstrations but relies on an iterative process that is often computationally expensive. Imitation learning (IL) provides a more efficient alternative by directly comparing an agent’s actions to expert demonstrations; however, in high-dimensional environments, such direct comparisons often offer insufficient feedback for effective learning. We introduce RILe (Reinforced Imitation Learning), a framework that combines the strengths of imitation learning and inverse reinforcement learning to learn a dense reward function efficiently and achieve strong performance in high-dimensional tasks. RILe employs a novel trainer-student framework: the trainer learns an adaptive reward function, and the student uses this reward signal to imitate expert behaviors. By dynamically adjusting its guidance as the student evolves, the trainer provides nuanced feedback across different phases of learning. Our framework produces high-performing policies in high-dimensional tasks where direct imitation fails to replicate complex behaviors. We validate RILe in challenging robotic locomotion tasks, demonstrating that it significantly outperforms existing methods and achieves near-expert performance across multiple settings.

arxiv情報

著者 Mert Albaba,Sammy Christen,Thomas Langarek,Christoph Gebhardt,Otmar Hilliges,Michael J. Black
発行日 2025-04-21 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

A Controllable Appearance Representation for Flexible Transfer and Editing

要約

非常にコンパクトで解き放たれた潜在空間内で、物質的な外観の解釈可能な表現を計算する方法を提示します。
この表現は、適応された因子を使用して、自己教師のやり方で学習されます。
慎重に設計された非標識データセットでモデルを訓練し、人間で生成されたラベルによって誘発される可能性のあるバイアスを回避します。
私たちのモデルは、明示的な監督がないにもかかわらず、物質的な外観と照明を効果的にコードすることにより、強力な解体と解釈可能性を示しています。
次に、軽量のIPアダプターをトレーニングするためのガイダンスとして表現を使用して、1つ以上の画像の外観をターゲットジオメトリに転送し、ユーザーが結果の外観をさらに編集できるようにする拡散パイプラインを条件付けます。
私たちのアプローチは、生成された結果をきれいに制御することを提供します。よく構成されたコンパクトな潜在スペースのおかげで、ユーザーは画像スペースの色相や光沢などの属性を直感的に操作して、望ましい最終的な外観を実現できます。

要約(オリジナル)

We present a method that computes an interpretable representation of material appearance within a highly compact, disentangled latent space. This representation is learned in a self-supervised fashion using an adapted FactorVAE. We train our model with a carefully designed unlabeled dataset, avoiding possible biases induced by human-generated labels. Our model demonstrates strong disentanglement and interpretability by effectively encoding material appearance and illumination, despite the absence of explicit supervision. Then, we use our representation as guidance for training a lightweight IP-Adapter to condition a diffusion pipeline that transfers the appearance of one or more images onto a target geometry, and allows the user to further edit the resulting appearance. Our approach offers fine-grained control over the generated results: thanks to the well-structured compact latent space, users can intuitively manipulate attributes such as hue or glossiness in image space to achieve the desired final appearance.

arxiv情報

著者 Santiago Jimenez-Navarro,Julia Guerrero-Viu,Belen Masia
発行日 2025-04-21 11:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | コメントする

DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation

要約

複数の相互作用エンティティと正確な空間的関係を備えた動的シーンを合成する必要がある構成テキストからビデオへの生成は、拡散ベースのモデルにとって重要な課題のままです。
既存の方法は、レイアウトの不連続性、エンティティのアイデンティティドリフト、および制約のない交差に関するメカニズムと不十分な物理的認識の推論により、信じられない相互作用のダイナミクスと闘っています。
これらの制限に対処するために、フレーム認識制御を介して既製のテキストからビデオへのテキストモデル(cogvideox-5bなど)を強化する\ textbf {トレーニングフリー}フレームワーク、dyst-xlを提案します。
DYST-XLは3つの重要なイノベーションを統合します。(1)大規模な言語モデル(LLM)を活用して、入力プロンプトをエンティティアトリブグラフに解析し、物理学を認識するキーフレームレイアウトを生成する動的なレイアウトプランナー。
(2)フレーム認識の注意マスキングを通じてローカライズされたテキストビデオアライメントを強制し、個々のエンティティを正確に制御することを実現するデュアルプロンプト制御の注意メカニズム。
(3)最初のフレームの特徴を伝播するエンティティの整合性制約戦略。除去中に後続のフレームに埋め込みを拡張し、手動注釈なしでオブジェクトのアイデンティティを保存します。
実験は、DYST-XLが組成テキストからビデオへの生成に優れており、複雑なプロンプトのパフォーマンスを大幅に改善し、トレーニングのないビデオ統合の重要なギャップを埋めることを示しています。

要約(オリジナル)

Compositional text-to-video generation, which requires synthesizing dynamic scenes with multiple interacting entities and precise spatial-temporal relationships, remains a critical challenge for diffusion-based models. Existing methods struggle with layout discontinuity, entity identity drift, and implausible interaction dynamics due to unconstrained cross-attention mechanisms and inadequate physics-aware reasoning. To address these limitations, we propose DyST-XL, a \textbf{training-free} framework that enhances off-the-shelf text-to-video models (e.g., CogVideoX-5B) through frame-aware control. DyST-XL integrates three key innovations: (1) A Dynamic Layout Planner that leverages large language models (LLMs) to parse input prompts into entity-attribute graphs and generates physics-aware keyframe layouts, with intermediate frames interpolated via trajectory optimization; (2) A Dual-Prompt Controlled Attention Mechanism that enforces localized text-video alignment through frame-aware attention masking, achieving the precise control over individual entities; and (3) An Entity-Consistency Constraint strategy that propagates first-frame feature embeddings to subsequent frames during denoising, preserving object identity without manual annotation. Experiments demonstrate that DyST-XL excels in compositional text-to-video generation, significantly improving performance on complex prompts and bridging a crucial gap in training-free video synthesis.

arxiv情報

著者 Weijie He,Mushui Liu,Yunlong Yu,Zhao Wang,Chao Wu
発行日 2025-04-21 11:41:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする