Automating Thought of Search: A Journey Towards Soundness and Completeness

要約

大規模な言語モデル(LLM)が使用されており、検索が必要な計画問題を解決しています。
ほとんどの文献では、LLMSを世界モデルとして使用して検索スペースを定義し、柔軟性のために健全性を控えています。
最近の研究、検索の考え(TOS)は、コードを使用して検索スペースを定義することを提案し、LLMSにそのコードを生成することを提案しました。
TOSはループ内の人間を必要とし、サウンド後継の機能と目標テストを共同で生成します。
ただし、結果は努力する価値があります。テストされたすべてのデータセットは、100%の精度で解決されました。
その結果、TOSプロセスを自動化する大きな可能性があります。
TOS(AutoTOS)の自動化に向けて最初の大きなステップを踏み、言語モデルとの相互作用のループから人間を取り出します。
AutoTOSは、一般的な単位テストとドメイン固有の単位テストの両方からのフィードバックを通じて、サウンドと完全な検索コンポーネントの生成に向けて、言語モデルを段階的に導きます。
AutoTOSは、少数のLLMコールを使用して、評価されたすべてのドメインで100%の精度を達成できることを示しています。

要約(オリジナル)

Large language models (LLMs) are being used to solve planning problems that require search. Most of the literature uses LLMs as world models to define the search space, forgoing soundness for the sake of flexibility. A recent work, Thought of Search (ToS), proposed defining the search space with code, having LLMs produce that code. ToS requires a human in the loop, collaboratively producing a sound successor function and goal test. The result, however, is worth the effort: all the tested datasets were solved with 100% accuracy. Consequently, there is great potential to automate the ToS process. We take a first major step towards automating ToS (AutoToS), taking the human out of the loop of interactions with the language model. AutoToS guides the language model step by step towards the generation of sound and complete search components, through feedback from both generic and domain specific unit tests. We show that AutoToS is able to achieve 100% accuracy on all the evaluated domains with a small number of LLM calls.

arxiv情報

著者 Daniel Cao,Michael Katz,Harsha Kokel,Kavitha Srinivas,Shirin Sohrabi
発行日 2025-05-28 17:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Automating Thought of Search: A Journey Towards Soundness and Completeness はコメントを受け付けていません

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

要約

このペーパーは、LLMSとの推論のためにRLをスケーリングする際の大きな障害、つまり政策エントロピーの崩壊を克服することを目的としています。
このような現象は、エントロピー介入なしに広大なRLの実行全体で一貫して観察されます。そこでは、ポリシーエントロピーが初期のトレーニング段階で急激に低下し、この探索能力の低下は常に政策パフォーマンスの飽和状態に伴います。
実際には、エントロピーHと下流のパフォーマンスR間の変換方程式r = -a*e^h+bを確立します。この経験的法則は、ポリシーのパフォーマンスがポリシーエントロピーから取引されていることを強く示しています。
私たちの発見は、RLのスケーリング計算に向けた継続的な探索のためにエントロピー管理を必要とします。
この目的のために、理論的および経験的にエントロピーダイナミクスを調査します。
私たちの派生は、ポリシーエントロピーの変化は、アクション確率とロジットの変化との共分散によって促進されていることを強調しています。これは、ポリシーグラデーション様アルゴリズムを使用する場合の利点に比例します。
経験的研究は、共分散項とエントロピーの違いの値が正確に一致し、理論的結論を裏付けることを示しています。
さらに、共分散期間はトレーニングを通じてほぼ正のままであり、政策エントロピーが単調に減少する理由をさらに説明します。
エントロピーダイナミクスの背後にあるメカニズムを理解することにより、高カリキントークンの更新を制限することにより、エントロピーを制御するように動機付けます。
具体的には、2つのシンプルで効果的な手法、すなわちクリップCOVとKL-COVを提案します。これは、それぞれ高い共分散を備えたトークンにKLペナルティをクリップして適用します。
実験では、これらの方法が探索を促進し、ポリシーがエントロピーの崩壊を逃れ、より良い下流のパフォーマンスを達成するのに役立つことが示されています。

要約(オリジナル)

This paper aims to overcome a major obstacle in scaling RL for reasoning with LLMs, namely the collapse of policy entropy. Such phenomenon is consistently observed across vast RL runs without entropy intervention, where the policy entropy dropped sharply at the early training stage, this diminished exploratory ability is always accompanied with the saturation of policy performance. In practice, we establish a transformation equation R=-a*e^H+b between entropy H and downstream performance R. This empirical law strongly indicates that, the policy performance is traded from policy entropy, thus bottlenecked by its exhaustion, and the ceiling is fully predictable H=0, R=-a+b. Our finding necessitates entropy management for continuous exploration toward scaling compute for RL. To this end, we investigate entropy dynamics both theoretically and empirically. Our derivation highlights that, the change in policy entropy is driven by the covariance between action probability and the change in logits, which is proportional to its advantage when using Policy Gradient-like algorithms. Empirical study shows that, the values of covariance term and entropy differences matched exactly, supporting the theoretical conclusion. Moreover, the covariance term stays mostly positive throughout training, further explaining why policy entropy would decrease monotonically. Through understanding the mechanism behind entropy dynamics, we motivate to control entropy by restricting the update of high-covariance tokens. Specifically, we propose two simple yet effective techniques, namely Clip-Cov and KL-Cov, which clip and apply KL penalty to tokens with high covariances respectively. Experiments show that these methods encourage exploration, thus helping policy escape entropy collapse and achieve better downstream performance.

arxiv情報

著者 Ganqu Cui,Yuchen Zhang,Jiacheng Chen,Lifan Yuan,Zhi Wang,Yuxin Zuo,Haozhan Li,Yuchen Fan,Huayu Chen,Weize Chen,Zhiyuan Liu,Hao Peng,Lei Bai,Wanli Ouyang,Yu Cheng,Bowen Zhou,Ning Ding
発行日 2025-05-28 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models はコメントを受け付けていません

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning

要約

模倣学習は、人間のデモンストレーションから多様な行動を取得できるようにすることにより、ロボット機能を進めます。
ただし、ポリシートレーニングに使用される大規模なデータセットは、多くの場合、品質に大きなばらつきをもたらし、パフォーマンスに悪影響を与える可能性があります。
その結果、低品質のサンプルをフィルタリングして品質を向上させることにより、データセットを自動的にキュレートすることが不可欠になります。
既存のロボットキュレーションアプローチは、コストのかかる手動注釈に依存し、データセットや軌跡レベルなどの粗い粒度でキュレーションを実行し、個々の状態アクションペアの品質を考慮していません。
これに対処するために、模倣学習ポリシーのパフォーマンスを向上させるために低品質の状態アクションペアを除去する自己監視データキュレーションフレームワークであるScizorを紹介します。
SCIZORは、低品質のデータの2つの補完的なソースをターゲットにしています。これは、望ましくないアクションで学習を妨げる最適下データと、トレーニングを反復パターンで希釈する冗長データです。
SCIZORは、非近似データの自己監視タスクの進行状況予測因子を活用して、タスクの進行を欠くサンプルと、冗長パターンのサンプルの共同状態アクション表現で動作する重複排除モジュールを削除します。
経験的には、Scizorが模倣学習ポリシーがより少ないデータでより高いパフォーマンスを達成することを可能にし、複数のベンチマークで15.4%の平均改善をもたらすことを示しています。
詳細については、https://ut-austin-rpl.github.io/scizor/をご覧ください。

要約(オリジナル)

Imitation learning advances robot capabilities by enabling the acquisition of diverse behaviors from human demonstrations. However, large-scale datasets used for policy training often introduce substantial variability in quality, which can negatively impact performance. As a result, automatically curating datasets by filtering low-quality samples to improve quality becomes essential. Existing robotic curation approaches rely on costly manual annotations and perform curation at a coarse granularity, such as the dataset or trajectory level, failing to account for the quality of individual state-action pairs. To address this, we introduce SCIZOR, a self-supervised data curation framework that filters out low-quality state-action pairs to improve the performance of imitation learning policies. SCIZOR targets two complementary sources of low-quality data: suboptimal data, which hinders learning with undesirable actions, and redundant data, which dilutes training with repetitive patterns. SCIZOR leverages a self-supervised task progress predictor for suboptimal data to remove samples lacking task progression, and a deduplication module operating on joint state-action representation for samples with redundant patterns. Empirically, we show that SCIZOR enables imitation learning policies to achieve higher performance with less data, yielding an average improvement of 15.4% across multiple benchmarks. More information is available at: https://ut-austin-rpl.github.io/SCIZOR/

arxiv情報

著者 Yu Zhang,Yuqi Xie,Huihan Liu,Rutav Shah,Michael Wan,Linxi Fan,Yuke Zhu
発行日 2025-05-28 17:45:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning はコメントを受け付けていません

Learning Composable Chains-of-Thought

要約

大規模な言語モデル(LLM)を推論するための一般的なアプローチは、分布内の推論の問題のチェーン(COT)の痕跡をトレーニングすることですが、そのような注釈付きデータは、関心のあるすべての問題について取得するために費用がかかります。
推論モデルがトレーニングの分布を超えて一般化し、理想的には構成を一般化することを望んでいます。原子推論スキルを組み合わせて、より厳しく目に見えない推論タスクを解決します。
COTデータとラベル付けされていないターゲット構成タスクに対処する際に、推論スキルの構成一般化に向けて一歩を踏み出します。
原子タスクのCOTデータに関する単純なトレーニングモデルは、一般化が限られているが、構成可能になる構成原子タスクのCOT形式を最小限に整えることができることがわかったことがわかります。
複合COTデータを使用してアトミックタスクで「アトミックコット」モデルをトレーニングし、それらをマルチタスク学習またはモデルの合併と組み合わせて、ターゲット組成タスクでゼロショットパフォーマンスを向上させることができます。
このような組み合わせモデルは、除去サンプリング微調整(RFT)を使用して、少量の組成データでさらにブートストラップできます。
ストリング操作と自然言語スキルの構成に関する結果は、合成可能なCOTでのトレーニングLLMがマルチタスク学習を上回り、特定のトレーニングデータ予算内で微調整ベースラインを継続することを示しています。

要約(オリジナル)

A common approach for teaching large language models (LLMs) to reason is to train on chain-of-thought (CoT) traces of in-distribution reasoning problems, but such annotated data is costly to obtain for every problem of interest. We want reasoning models to generalize beyond their training distribution, and ideally to generalize compositionally: combine atomic reasoning skills to solve harder, unseen reasoning tasks. We take a step towards compositional generalization of reasoning skills when addressing a target compositional task that has no labeled CoT data. We find that simply training models on CoT data of atomic tasks leads to limited generalization, but minimally modifying CoT formats of constituent atomic tasks to be composable can lead to improvements. We can train ‘atomic CoT’ models on the atomic tasks with Composable CoT data and combine them with multitask learning or model merging for better zero-shot performance on the target compositional task. Such a combined model can be further bootstrapped on a small amount of compositional data using rejection sampling fine-tuning (RFT). Results on string operations and natural language skill compositions show that training LLMs on Composable CoT outperforms multitask learning and continued fine-tuning baselines within a given training data budget.

arxiv情報

著者 Fangcong Yin,Zeyu Leo Liu,Liu Leqi,Xi Ye,Greg Durrett
発行日 2025-05-28 17:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Learning Composable Chains-of-Thought はコメントを受け付けていません

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

要約

強化学習(RL)はロボット工学の大きな進歩を遂げていますが、その複雑さと長いトレーニング時間は大きなボトルネックのままです。
このレポートでは、ヒューマノイドベンチ、イサクラブ、ムジョコプレイグラウンドなどの人気スイートでヒューマノイドロボットのトレーニングを大幅に高速化するシンプルで高速で有能なRLアルゴリズムであるFASTTD3を導入します。
私たちのレシピは非常に簡単です。並列シミュレーション、大型バッチアップデート、流通批評家、慎重に調整されたハイパーパラメーターなど、いくつかの変更を加えたオフポリシーTD3エージェントをトレーニングします。
FASTTD3は、トレーニング中は安定したままで、1つのA100 GPUで3時間以内にヒューマノイドベンチの範囲を3時間以内に解決します。
また、FASTTD3の軽量で使いやすい実装を提供して、ロボット工学のRL研究を加速します。

要約(オリジナル)

Reinforcement learning (RL) has driven significant progress in robotics, but its complexity and long training times remain major bottlenecks. In this report, we introduce FastTD3, a simple, fast, and capable RL algorithm that significantly speeds up training for humanoid robots in popular suites such as HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably simple: we train an off-policy TD3 agent with several modifications — parallel simulation, large-batch updates, a distributional critic, and carefully tuned hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours on a single A100 GPU, while remaining stable during training. We also provide a lightweight and easy-to-use implementation of FastTD3 to accelerate RL research in robotics.

arxiv情報

著者 Younggyo Seo,Carmelo Sferrazza,Haoran Geng,Michal Nauman,Zhao-Heng Yin,Pieter Abbeel
発行日 2025-05-28 17:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control はコメントを受け付けていません

Pre-training for Recommendation Unlearning

要約

グラフニューラルネットワーク(GNNS)を搭載した最新の推奨システム(GNNS)は、複雑なユーザー項目インタラクションのモデリングに優れていますが、トレーニングデータを選択的に忘れる必要があるシナリオがますます増えています。
プライバシーの懸念や好みの変更により特定のインタラクションを削除するためのユーザー要求を超えて、規制フレームワークは、モデルからの特定のユーザーデータの影響を排除する推奨システムの能力を義務付けています。
この推奨事項を解き放つチャレンジは、インタラクショングラフ内の接続を削除するとモデル全体に​​リップル効果が生じ、多数のユーザーの推奨事項に影響を与える可能性があるため、独自の困難が提示されます。
従来のアプローチには重大な欠点があります。フラグメンテーション方法にグラフ構造に損傷を与え、パフォーマンスを低下させますが、影響力の技術は、特に自己監視またはランダムアーキテクチャでは、複雑なGNNには当てはまらないと仮定します。
これらの制限に対処するために、システムを効率的に解き放つ運用のためにシステムを準備する新しいモデルに依存しない前訓練前パラダイムを提案します。
影響エンコーダは、既存のモデルパラメーターと一緒にリクエストを解除し、モデルのパフォーマンス特性を維持しながら完全な再訓練を避けて、ほとんど微調整されていない未学習モデルの更新されたパラメーターを直接生成します。
パブリックベンチマークでの広範な評価は、私たちの方法が、再トレーニングアプローチと比較して10倍以上のスピードアップを提供しながら、例外的な学習効果を提供することを示しています。
https://github.com/hkuds/unlearnrecでメソッドの実装をリリースします。

要約(オリジナル)

Modern recommender systems powered by Graph Neural Networks (GNNs) excel at modeling complex user-item interactions, yet increasingly face scenarios requiring selective forgetting of training data. Beyond user requests to remove specific interactions due to privacy concerns or preference changes, regulatory frameworks mandate recommender systems’ ability to eliminate the influence of certain user data from models. This recommendation unlearning challenge presents unique difficulties as removing connections within interaction graphs creates ripple effects throughout the model, potentially impacting recommendations for numerous users. Traditional approaches suffer from significant drawbacks: fragmentation methods damage graph structure and diminish performance, while influence function techniques make assumptions that may not hold in complex GNNs, particularly with self-supervised or random architectures. To address these limitations, we propose a novel model-agnostic pre-training paradigm UnlearnRec that prepares systems for efficient unlearning operations. Our Influence Encoder takes unlearning requests together with existing model parameters and directly produces updated parameters of unlearned model with little fine-tuning, avoiding complete retraining while preserving model performance characteristics. Extensive evaluation on public benchmarks demonstrates that our method delivers exceptional unlearning effectiveness while providing more than 10x speedup compared to retraining approaches. We release our method implementation at: https://github.com/HKUDS/UnlearnRec.

arxiv情報

著者 Guoxuan Chen,Lianghao Xia,Chao Huang
発行日 2025-05-28 17:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Pre-training for Recommendation Unlearning はコメントを受け付けていません

Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents

要約

大規模な言語モデル(LLMS)とチャットボットエージェントは、時々間違った出力を提供することが知られており、最近、これを完全に防ぐことができないことがわかりました。
したがって、不確実性の定量化は重要な役割を果たし、aleatoricおよび認識論の不確実性のために、1つの全体数または2つの数字のいずれかの曖昧さのレベルを定量化することを目指しています。
このポジションペーパーでは、この不確実性の伝統的な二分法は、ユーザーと通信するときにLLMエージェントが動作するオープンでインタラクティブなセットアップには限られすぎており、この新しいシナリオで不確実性を豊かにする手段を研究する必要があると主張しています。
私たちは文献をレビューし、アレアトリックおよび認識論の不確実性の一般的な定義が互いに直接矛盾し、インタラクティブなLLMエージェント設定での意味を失うことを発見しました。
したがって、このような人間コンピューターの相互作用の不確実性に焦点を当てた3つの新しい研究方向を提案します。ユーザーがすべての情報を提供したり、正確なタスクを定義したり、インタラクティブな学習を定義したり、フォローアップの質問をしたり、現在のコンテキストに関する不確実性を軽減したり、豊富な言語を使用して豊富な言語を使用したりするために、現在のコンテキストについての不確実性を軽減します。
不確実性に対処して伝えるこれらの新しい方法が、より透明性が高く、信頼できる、直感的なLLMエージェントの相互作用につながると予想しています。

要約(オリジナル)

Large-language models (LLMs) and chatbot agents are known to provide wrong outputs at times, and it was recently found that this can never be fully prevented. Hence, uncertainty quantification plays a crucial role, aiming to quantify the level of ambiguity in either one overall number or two numbers for aleatoric and epistemic uncertainty. This position paper argues that this traditional dichotomy of uncertainties is too limited for the open and interactive setup that LLM agents operate in when communicating with a user, and that we need to research avenues that enrich uncertainties in this novel scenario. We review the literature and find that popular definitions of aleatoric and epistemic uncertainties directly contradict each other and lose their meaning in interactive LLM agent settings. Hence, we propose three novel research directions that focus on uncertainties in such human-computer interactions: Underspecification uncertainties, for when users do not provide all information or define the exact task at the first go, interactive learning, to ask follow-up questions and reduce the uncertainty about the current context, and output uncertainties, to utilize the rich language and speech space to express uncertainties as more than mere numbers. We expect that these new ways of dealing with and communicating uncertainties will lead to LLM agent interactions that are more transparent, trustworthy, and intuitive.

arxiv情報

著者 Michael Kirchhof,Gjergji Kasneci,Enkelejda Kasneci
発行日 2025-05-28 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents はコメントを受け付けていません

Maximizing Confidence Alone Improves Reasoning

要約

強化学習(RL)により、機械学習モデルが多くの分野で大きな進歩を達成できるようになりました。
最近では、RLは、挑戦的な数学、科学、コーディングの問題を解決できるフロンティア言語モデルに力を与えました。
ただし、RLアルゴリズムの中心は報酬機能であり、報酬エンジニアリングはどのドメインでも有名な問題です。
このホワイトペーパーでは、家賃を提案します。エントロピー最小化による補強学習 – 外部報酬や根本的な回答を必要とせず、その基礎となる分布のモデルのエントロピーを本質的な報酬として使用します。
生成された答えにモデルの信頼が高くなる思考の鎖を強化することにより、モデルはその推論能力を向上させることがわかります。
実験では、GSM8K、Math500、AMC、AIME、GPQAなど、一般的に使用されている推論ベンチマークの広範なスイート、およびQwenおよびMistralファミリーのさまざまなサイズのモデルでこれらの改善を紹介します。
私たちの監視されていない学習方法の一般性は、外部の監督が制限または利用できない幅広いドメインでの適用性に役立ちます。

要約(オリジナル)

Reinforcement learning (RL) has enabled machine learning models to achieve significant advances in many fields. Most recently, RL has empowered frontier language models to solve challenging math, science, and coding problems. However, central to any RL algorithm is the reward function, and reward engineering is a notoriously difficult problem in any domain. In this paper, we propose RENT: Reinforcement Learning via Entropy Minimization — a fully unsupervised RL method that requires no external reward or ground-truth answers, and instead uses the model’s entropy of its underlying distribution as an intrinsic reward. We find that by reinforcing the chains of thought that yield high model confidence on its generated answers, the model improves its reasoning ability. In our experiments, we showcase these improvements on an extensive suite of commonly-used reasoning benchmarks, including GSM8K, MATH500, AMC, AIME, and GPQA, and models of varying sizes from the Qwen and Mistral families. The generality of our unsupervised learning method lends itself to applicability in a wide range of domains where external supervision is limited or unavailable.

arxiv情報

著者 Mihir Prabhudesai,Lili Chen,Alex Ippoliti,Katerina Fragkiadaki,Hao Liu,Deepak Pathak
発行日 2025-05-28 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Maximizing Confidence Alone Improves Reasoning はコメントを受け付けていません

Fostering Video Reasoning via Next-Event Prediction

要約

次のトークン予測は、LLMSの推論を可能にする基礎学習タスクとして機能します。
しかし、MLLMSにビデオ入力に対する一時的な推論能力を装備することを目指すとき、学習タスクはどうあるべきでしょうか?
ビデオの質問への回答などの既存のタスクは、多くの場合、人間からの注釈やより強いMLLMに依存していますが、ビデオキャプションは空間情報に一時的な推論を巻き込む傾向があります。
このギャップに対処するために、次のイベント予測(NEP)を提案します。これは、将来のビデオセグメントを豊かで自己評価された信号として活用して、時間的推論を促進することを提案します。
各ビデオを過去および将来のフレームにセグメント化します。MLLMは過去のフレームを入力として取得し、将来のフレームから派生したイベントの概要を予測し、それによりモデルがタスクを完了するために一時的に推論するよう奨励します。
このタスクをサポートするために、V1-33Kをキュレートします。これは、多様な現実世界のシナリオにまたがる33,000個の自動的に抽出されたビデオセグメントを含むデータセットです。
さらに、一時的な推論に対する効果を研究するために、さまざまなビデオ指導調整戦略を探ります。
進捗状況を評価するために、未来のベンチを導入して、目に見えない将来のイベントを予測する際の一貫性を評価します。
実験では、NEPがMLLMの時間的推論を促進するためのスケーラブルで効果的なトレーニングパラダイムを提供することを検証します。

要約(オリジナル)

Next-token prediction serves as the foundational learning task enabling reasoning in LLMs. But what should the learning task be when aiming to equip MLLMs with temporal reasoning capabilities over video inputs? Existing tasks such as video question answering often rely on annotations from humans or much stronger MLLMs, while video captioning tends to entangle temporal reasoning with spatial information. To address this gap, we propose next-event prediction (NEP), a learning task that harnesses future video segments as a rich, self-supervised signal to foster temporal reasoning. We segment each video into past and future frames: the MLLM takes the past frames as input and predicts a summary of events derived from the future frames, thereby encouraging the model to reason temporally in order to complete the task. To support this task, we curate V1-33K, a dataset comprising 33,000 automatically extracted video segments spanning diverse real-world scenarios. We further explore a range of video instruction-tuning strategies to study their effects on temporal reasoning. To evaluate progress, we introduce FutureBench to assess coherence in predicting unseen future events. Experiments validate that NEP offers a scalable and effective training paradigm for fostering temporal reasoning in MLLMs.

arxiv情報

著者 Haonan Wang,Hongfu Liu,Xiangyan Liu,Chao Du,Kenji Kawaguchi,Ye Wang,Tianyu Pang
発行日 2025-05-28 15:13:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Fostering Video Reasoning via Next-Event Prediction はコメントを受け付けていません

Universal Domain Adaptation for Semantic Segmentation

要約

セマンティックセグメンテーション(UDA-SS)の監視されていないドメイン適応は、ラベル付きのソースデータから非標識ターゲットデータに知識を転送することを目的としています。
ただし、従来のUDA-SSメソッドは、ソースドメインとターゲットドメイン間のカテゴリ設定が既知であると想定しています。これは、実際のシナリオでは非現実的です。
これは、プライベートクラスが存在する場合、パフォーマンスの劣化につながります。
この制限に対処するために、セマンティックセグメンテーションのためのユニバーサルドメイン適応(UNIDA-SS)を提案し、カテゴリ設定の事前知識がなくても堅牢な適応を達成します。
Unida-SSシナリオの問題を、ターゲットドメインの共通クラスの低い信頼スコアとして定義し、プライベートクラスとの混乱につながります。
この問題を解決するために、2つの重要なコンポーネントで構成される新しいフレームワークである画像マッチングとプロトタイプベースの区別を備えたUnimap:Unida-SSを提案します。
まず、ドメイン固有のプロトタイプベースの区別(DSPD)を2つのドメイン固有のプロトタイプに分割し、ドメイン固有の特徴をより細かく分離し、ドメイン全体の共通クラスの識別を強化します。
第二に、ターゲットベースの画像マッチング(TIM)は、ターゲットの擬似ラベルに基づいて最も一般的なクラスのピクセルを含むソース画像を選択し、共通クラスの効果的な学習を促進するためにバッチでペアになります。
また、新しいUNIDA-SSベンチマークを導入し、ベースラインを大幅に上回る想像を妨げるさまざまな実験を実証します。
このコードは、\ href {https://github.com/ku-vgi/unimap} {このhttps url}で利用できます。

要約(オリジナル)

Unsupervised domain adaptation for semantic segmentation (UDA-SS) aims to transfer knowledge from labeled source data to unlabeled target data. However, traditional UDA-SS methods assume that category settings between source and target domains are known, which is unrealistic in real-world scenarios. This leads to performance degradation if private classes exist. To address this limitation, we propose Universal Domain Adaptation for Semantic Segmentation (UniDA-SS), achieving robust adaptation even without prior knowledge of category settings. We define the problem in the UniDA-SS scenario as low confidence scores of common classes in the target domain, which leads to confusion with private classes. To solve this problem, we propose UniMAP: UniDA-SS with Image Matching and Prototype-based Distinction, a novel framework composed of two key components. First, Domain-Specific Prototype-based Distinction (DSPD) divides each class into two domain-specific prototypes, enabling finer separation of domain-specific features and enhancing the identification of common classes across domains. Second, Target-based Image Matching (TIM) selects a source image containing the most common-class pixels based on the target pseudo-label and pairs it in a batch to promote effective learning of common classes. We also introduce a new UniDA-SS benchmark and demonstrate through various experiments that UniMAP significantly outperforms baselines. The code is available at \href{https://github.com/KU-VGI/UniMAP}{this https URL}.

arxiv情報

著者 Seun-An Choe,Keon-Hee Park,Jinwoo Choi,Gyeong-Moon Park
発行日 2025-05-28 15:14:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Universal Domain Adaptation for Semantic Segmentation はコメントを受け付けていません