TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection

要約

高度な生成モデルによって促進されたトーキングヘッドディープファークジェネレーションの急速な進歩は、合成ビデオのリアリズムを、メディア、政治、金融などのドメインでかなりのリスクをもたらすレベルに引き上げました。
ただし、Deepfake Talking-Head検出の現在のベンチマークは、この進捗を反映することができず、時代遅れのジェネレーターに依存し、モデルの堅牢性と一般化に関する限られた洞察を提供します。
TalkingHeadbenchを紹介します。TalkingHeadbenchは、包括的なマルチモデルマルチジェネレーターベンチマークと、最先端の発電機の最先端の検出器のパフォーマンスを評価するために設計されたキュレーションデータセットを紹介します。
データセットには、主要な学術モデルおよび商業モデルによって統合されたディープフェイクが含まれており、アイデンティティとジェネレーターの特性の分布シフトで一般化を評価するために慎重に構築されたプロトコルを機能します。
CNN、視覚変圧器、時間モデルを含む多様な既存の検出方法のセットをベンチマークし、それらの堅牢性と一般化機能を分析します。
さらに、Grad-CAMの視覚化を使用したエラー分析を提供して、一般的な障害モードと検出器バイアスを公開します。
Talkingheadbenchは、すべてのデータスプリットとプロトコルにオープンアクセスできるhttps://huggingface.co/datasets/luchaoqi/talkingheadbenchでホストされています。
私たちのベンチマークは、急速に進化する生成技術に直面して、より堅牢で一般化可能な検出モデルへの研究を加速することを目的としています。

要約(オリジナル)

The rapid advancement of talking-head deepfake generation fueled by advanced generative models has elevated the realism of synthetic videos to a level that poses substantial risks in domains such as media, politics, and finance. However, current benchmarks for deepfake talking-head detection fail to reflect this progress, relying on outdated generators and offering limited insight into model robustness and generalization. We introduce TalkingHeadBench, a comprehensive multi-model multi-generator benchmark and curated dataset designed to evaluate the performance of state-of-the-art detectors on the most advanced generators. Our dataset includes deepfakes synthesized by leading academic and commercial models and features carefully constructed protocols to assess generalization under distribution shifts in identity and generator characteristics. We benchmark a diverse set of existing detection methods, including CNNs, vision transformers, and temporal models, and analyze their robustness and generalization capabilities. In addition, we provide error analysis using Grad-CAM visualizations to expose common failure modes and detector biases. TalkingHeadBench is hosted on https://huggingface.co/datasets/luchaoqi/TalkingHeadBench with open access to all data splits and protocols. Our benchmark aims to accelerate research towards more robust and generalizable detection models in the face of rapidly evolving generative techniques.

arxiv情報

著者 Xinqi Xiong,Prakrut Patel,Qingyuan Fan,Amisha Wadhwa,Sarathy Selvam,Xiao Guo,Luchao Qi,Xiaoming Liu,Roni Sengupta
発行日 2025-05-30 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TalkingHeadBench: A Multi-Modal Benchmark & Analysis of Talking-Head DeepFake Detection はコメントを受け付けていません

Time Blindness: Why Video-Language Models Can’t See What Humans Can?

要約

ビジョン言語モデル(VLM)の最近の進歩は、ビデオで時空間的関係を理解する上で印象的な進歩をもたらしました。
ただし、空間情報が不明瞭になった場合、これらのモデルは純粋に一時的なパターンをキャプチャするのに苦労しています。
$ \ textbf {spookybench} $を紹介します。これは、生物学的シグナル伝達から秘密のコミュニケーションまでの自然現象を反映して、ノイズのようなフレームの時間的なシーケンスのみで情報がエンコードされるベンチマークです。
興味深いことに、人間はこれらのシーケンスの形状、テキスト、パターンを98%以上の精度で認識することができますが、最先端のVLMは0%の精度を達成します。
このパフォーマンスのギャップは、重要な制限を強調しています。フレームレベルの空間的特徴に過度に依存していることと、時間的キューから意味を抽出できないことです。
さらに、低空間信号対雑音比(SNR)のデータセットで訓練された場合、モデルの時間的理解は、特に細粒の時間的推論を必要とするタスクで、人間の知覚よりも迅速に分解されます。
この制限を克服するには、時間的処理から空間的依存関係を分離する新しいアーキテクチャまたはトレーニングパラダイムが必要です。
私たちの体系的な分析は、この問題がモデルのスケールとアーキテクチャ全体で持続することを示しています。
Spookybenchをリリースして、時間的パターン認識の研究を触媒し、人間とマシンのビデオ理解のギャップを埋めます。
データセットとコードは、プロジェクトWebサイトhttps://timeblindness.github.io/で利用可能になりました。

要約(オリジナル)

Recent advances in vision-language models (VLMs) have made impressive strides in understanding spatio-temporal relationships in videos. However, when spatial information is obscured, these models struggle to capture purely temporal patterns. We introduce $\textbf{SpookyBench}$, a benchmark where information is encoded solely in temporal sequences of noise-like frames, mirroring natural phenomena from biological signaling to covert communication. Interestingly, while humans can recognize shapes, text, and patterns in these sequences with over 98% accuracy, state-of-the-art VLMs achieve 0% accuracy. This performance gap highlights a critical limitation: an over-reliance on frame-level spatial features and an inability to extract meaning from temporal cues. Furthermore, when trained in data sets with low spatial signal-to-noise ratios (SNR), temporal understanding of models degrades more rapidly than human perception, especially in tasks requiring fine-grained temporal reasoning. Overcoming this limitation will require novel architectures or training paradigms that decouple spatial dependencies from temporal processing. Our systematic analysis shows that this issue persists across model scales and architectures. We release SpookyBench to catalyze research in temporal pattern recognition and bridge the gap between human and machine video understanding. Dataset and code has been made available on our project website: https://timeblindness.github.io/.

arxiv情報

著者 Ujjwal Upadhyay,Mukul Ranjan,Zhiqiang Shen,Mohamed Elhoseiny
発行日 2025-05-30 17:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Time Blindness: Why Video-Language Models Can’t See What Humans Can? はコメントを受け付けていません

SiLVR: A Simple Language-based Video Reasoning Framework

要約

テスト時間最適化の最近の進歩により、大規模な言語モデル(LLM)の顕著な推論能力が発生し、数学とコーディングの非常に複雑な問題を解決できるようになりました。
ただし、マルチモーダルLLMS(MLLM)の推論機能は、特に複雑なビデオ言語タスクの場合、依然として大幅に遅れています。
この問題に対処するために、複雑なビデオ理解を2つの段階に分解する単純な言語ベースのビデオ推論フレームワークであるSilvrを提示します。
最初の段階では、SILVRは、短いクリップキャプションやオーディオ/音声字幕などの多感覚入力を使用して、RAWビデオを言語ベースの表現に変換します。
第2段階では、言語の説明は、複雑なビデオ言語理解タスクを解決するために、強力な推論LLMに供給されます。
長いコンテキストの多感覚入力を処理するために、適応トークン削減スキームを使用します。これは、トークンをサンプリングする時間的粒度を動的に決定します。
当社のシンプルでモジュール式、およびトレーニングフリーのビデオ推論フレームワークは、Video-MME(LONG)、Video-MMMU(理解)、Video-MMLU、CGBench、およびEgolifeで最も報告された結果を達成します。
さらに、ビデオの推論機能に焦点を当てた私たちの経験的研究は、ビデオで明示的に訓練されていないにもかかわらず、LLMSがビデオ、因果関係、長期、および知識取得推論の推論の複雑な、因果関係、長期、および知識取得推論のためのビデオ、スピーチ、およびオーディオからの多感覚入力情報を効果的に集約できることを示しています。
コードはhttps://github.com/ceezh/silvrで入手できます。

要約(オリジナル)

Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Language Models (LLMs), enabling them to solve highly complex problems in math and coding. However, the reasoning capabilities of multimodal LLMs (MLLMs) still significantly lag, especially for complex video-language tasks. To address this issue, we present SiLVR, a Simple Language-based Video Reasoning framework that decomposes complex video understanding into two stages. In the first stage, SiLVR transforms raw video into language-based representations using multisensory inputs, such as short clip captions and audio/speech subtitles. In the second stage, language descriptions are fed into a powerful reasoning LLM to solve complex video-language understanding tasks. To handle long-context multisensory inputs, we use an adaptive token reduction scheme, which dynamically determines the temporal granularity with which to sample the tokens. Our simple, modular, and training-free video reasoning framework achieves the best-reported results on Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife. Furthermore, our empirical study focused on video reasoning capabilities shows that, despite not being explicitly trained on video, strong reasoning LLMs can effectively aggregate multisensory input information from video, speech, and audio for complex temporal, causal, long-context, and knowledge acquisition reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.

arxiv情報

著者 Ce Zhang,Yan-Bo Lin,Ziyang Wang,Mohit Bansal,Gedas Bertasius
発行日 2025-05-30 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SiLVR: A Simple Language-based Video Reasoning Framework はコメントを受け付けていません

GenSpace: Benchmarking Spatially-Aware Image Generation

要約

人間は、写真のために3Dスペースでシーンを直感的に構成して配置できます。
ただし、テキストまたは画像プロンプトから画像を作成する際に、同様の3D空間認識を持つ高度なAIイメージジェネレーターは、シーンを計画できますか?
現在の画像生成モデルの空間的認識を包括的に評価するために、新しいベンチマークと評価パイプラインであるGenspaceを紹介します。
さらに、一般的な視覚言語モデル(VLM)を使用した標準的な評価は、詳細な空間エラーをキャプチャできないことがよくあります。
この課題を処理するために、複数の視覚基盤モデルを使用して3Dシーンのジオメトリを再構築し、より正確で人間に合わせた空間的忠実さのメトリックを提供する専門的な評価パイプラインとメトリックを提案します。
私たちの調査結果は、AIモデルが視覚的に魅力的な画像を作成し、一般的な指示に従うことができる一方で、オブジェクトの配置、関係、測定などの特定の3Dの詳細と闘っていることを示しています。
現在の最先端の画像生成モデルの空間認識における3つのコア制限を要約します。1)オブジェクトの視点の理解、2)エゴセントリックアロコンセントリック変換、3)メトリック測定順守。画像生成における空間知能を改善するための可能な方向を強調します。

要約(オリジナル)

Humans can intuitively compose and arrange scenes in the 3D space for photography. However, can advanced AI image generators plan scenes with similar 3D spatial awareness when creating images from text or image prompts? We present GenSpace, a novel benchmark and evaluation pipeline to comprehensively assess the spatial awareness of current image generation models. Furthermore, standard evaluations using general Vision-Language Models (VLMs) frequently fail to capture the detailed spatial errors. To handle this challenge, we propose a specialized evaluation pipeline and metric, which reconstructs 3D scene geometry using multiple visual foundation models and provides a more accurate and human-aligned metric of spatial faithfulness. Our findings show that while AI models create visually appealing images and can follow general instructions, they struggle with specific 3D details like object placement, relationships, and measurements. We summarize three core limitations in the spatial perception of current state-of-the-art image generation models: 1) Object Perspective Understanding, 2) Egocentric-Allocentric Transformation and 3) Metric Measurement Adherence, highlighting possible directions for improving spatial intelligence in image generation.

arxiv情報

著者 Zehan Wang,Jiayang Xu,Ziang Zhang,Tianyu Pan,Chao Du,Hengshuang Zhao,Zhou Zhao
発行日 2025-05-30 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GenSpace: Benchmarking Spatially-Aware Image Generation はコメントを受け付けていません

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

要約

検証可能な報酬(RLVR)による強化学習は、最近、トレーニング後の大手言語モデル(LLMS)の強力なパラダイムとして浮上し、構造化された検証可能な回答を伴うタスクで最先端のパフォーマンスを達成しました。
RLVRをマルチモーダルLLMS(MLLMS)に適用することは重要な機会をもたらしますが、微妙な視覚的、論理的、空間的能力を必要とする視覚言語タスクのより広範で不均一な性質によって複雑になります。
そのため、複数のデータセットでRLVRを使用してMLLMをトレーニングすることは有益ですが、多様なデータセット間の相互作用から矛盾する目標を伴う課題を生み出し、一般化と推論を改善するための最適なデータセット混合戦略の必要性を強調します。
厳密なデータ混合問題の定式化とベンチマークの実装を特徴とするマルチモーダルLLM RLVRの体系的なトレーニング後のフレームワークを紹介します。
具体的には、(1)さまざまな検証可能なビジョン言語の問題を含むデータセットをキュレーションし、検証可能な報酬を異なる異なる報酬でマルチドメインオンラインRL学習を可能にすることにより、トレーニング後のマルチデータセットのマルチモーダルRLVRフレームワークを開発しました。
(2)データ混合分布からRL微調整結果を予測することを学ぶデータ混合戦略を提案し、その結果、最適な混合物を最適化しました。
包括的な実験では、混合予測戦略と組み合わせると、マルチドメインRLVRトレーニングがMLLMの一般的な推論能力を大幅に高めることができることを示しています。
当社の最良の混合物は、分散外のベンチマークに対する訓練後のモデルの精度を改善し、均一なデータ混合物を使用した訓練後の同じモデルと比較して、平均5.24%、および事前に融合したベースラインと比較して合計20.74%を改善します。

要約(オリジナル)

Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model’s accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.

arxiv情報

著者 Yiqing Liang,Jielin Qiu,Wenhao Ding,Zuxin Liu,James Tompkin,Mengdi Xu,Mengzhou Xia,Zhengzhong Tu,Laixi Shi,Jiacheng Zhu
発行日 2025-05-30 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG | MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning はコメントを受け付けていません

ProxyThinker: Test-Time Guidance through Small Visual Reasoners

要約

検証可能な報酬による強化学習の最近の進歩により、大規模なビジョン言語モデル(LVLMS)の視覚的推論能力の境界が押し上げられました。
ただし、強化微調整(RFT)を使用したLVLMSのトレーニングは計算高価であり、モデルサイズのスケーリングに大きな課題を抱えています。
この作業では、Proxythinkerを提案します。これは、大規模なモデルがトレーニングなしで小さくゆっくりと考えている視覚的推論者から視覚的推論機能を継承できるようにすることを提案します。
RFT推論者のベースモデルの出力分布を減算することにより、Proxythinkerはデコードダイナミクスを変更し、自己検証や自己修正などの洗練された洗練された行動によって実証された遅い考えの推論をうまく引き出します。
Proxythinkerは、空間的、数学的、および学際的な推論での挑戦的な視覚的ベンチマークのパフォーマンスを一貫して向上させ、本格的なRFTカウンターパートのパフォーマンスと競合できるようになります。
さらに、実装は、複数の言語モデルを並列処理テクニックと効率的に調整し、以前のデコード時間方法と比較して最大38 $ \ Times $の推論を達成し、Proxythinkerの実際の展開への道を開きます。
コードはhttps://github.com/mrzilinxiao/proxythinkerで入手できます。

要約(オリジナル)

Recent advancements in reinforcement learning with verifiable rewards have pushed the boundaries of the visual reasoning capabilities in large vision-language models (LVLMs). However, training LVLMs with reinforcement fine-tuning (RFT) is computationally expensive, posing a significant challenge to scaling model size. In this work, we propose ProxyThinker, an inference-time technique that enables large models to inherit the visual reasoning capabilities from small, slow-thinking visual reasoners without any training. By subtracting the output distributions of base models from those of RFT reasoners, ProxyThinker modifies the decoding dynamics and successfully elicits the slow-thinking reasoning demonstrated by the emerged sophisticated behaviors such as self-verification and self-correction. ProxyThinker consistently boosts performance on challenging visual benchmarks on spatial, mathematical, and multi-disciplinary reasoning, enabling untuned base models to compete with the performance of their full-scale RFT counterparts. Furthermore, our implementation efficiently coordinates multiple language models with parallelism techniques and achieves up to 38 $\times$ faster inference compared to previous decoding-time methods, paving the way for the practical deployment of ProxyThinker. Code is available at https://github.com/MrZilinXiao/ProxyThinker.

arxiv情報

著者 Zilin Xiao,Jaywon Koo,Siru Ouyang,Jefferson Hernandez,Yu Meng,Vicente Ordonez
発行日 2025-05-30 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | ProxyThinker: Test-Time Guidance through Small Visual Reasoners はコメントを受け付けていません

MiniMax-Remover: Taming Bad Noise Helps Video Object Removal

要約

ビデオ拡散モデルの最近の進歩により、ビデオ編集技術の急速な進歩が促進されています。
ただし、ビデオ編集の重要なサブタスクであるビデオオブジェクトの削除は、幻覚オブジェクトや視覚アーティファクトなどの問題のために困難なままです。
さらに、既存の方法は、多くの場合、計算的に高価なサンプリング手順と分類器のないガイダンス(CFG)に依存しており、その結果、推論が遅くなります。
これらの制限に対処するために、新しい2段階のビデオオブジェクト削除アプローチであるMinimax-Removerを提案します。
テキスト条件はこのタスクに最適ではないという観察に動機付けられているため、テキスト入力とクロスアテナンス層を削除することにより、前提条件のビデオ生成モデルを簡素化し、最初の段階でより軽量で効率的なモデルアーキテクチャをもたらします。
第2段階では、ステージ1モデルによって生成され、人間のアノテーターによってキュレーションされた成功したビデオでリムーバーを蒸留しました。ミニマックス最適化戦略を使用して、編集品質と推論速度をさらに向上させました。
具体的には、内部の最大化は、故障の除去を行う敵対的な入力ノイズ(「悪いノイズ」)を識別しますが、外側の最小化ステップは、このような困難な条件下でも高品質の除去結果を生成するためにモデルを訓練します。
その結果、私たちの方法は、わずか6のサンプリングステップで最先端のビデオオブジェクト削除結果を達成し、CFGに依存せず、推論効率を大幅に改善します。
広範な実験は、既存の方法と比較してMinimax-Removerの有効性と優位性を示しています。
コードとビデオは、https://minimax-remover.github.ioで入手できます。

要約(オリジナル)

Recent advances in video diffusion models have driven rapid progress in video editing techniques. However, video object removal, a critical subtask of video editing, remains challenging due to issues such as hallucinated objects and visual artifacts. Furthermore, existing methods often rely on computationally expensive sampling procedures and classifier-free guidance (CFG), resulting in slow inference. To address these limitations, we propose MiniMax-Remover, a novel two-stage video object removal approach. Motivated by the observation that text condition is not best suited for this task, we simplify the pretrained video generation model by removing textual input and cross-attention layers, resulting in a more lightweight and efficient model architecture in the first stage. In the second stage, we distilled our remover on successful videos produced by the stage-1 model and curated by human annotators, using a minimax optimization strategy to further improve editing quality and inference speed. Specifically, the inner maximization identifies adversarial input noise (‘bad noise’) that makes failure removals, while the outer minimization step trains the model to generate high-quality removal results even under such challenging conditions. As a result, our method achieves a state-of-the-art video object removal results with as few as 6 sampling steps and doesn’t rely on CFG, significantly improving inference efficiency. Extensive experiments demonstrate the effectiveness and superiority of MiniMax-Remover compared to existing methods. Codes and Videos are available at: https://minimax-remover.github.io.

arxiv情報

著者 Bojia Zi,Weixuan Peng,Xianbiao Qi,Jianan Wang,Shihao Zhao,Rong Xiao,Kam-Fai Wong
発行日 2025-05-30 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MiniMax-Remover: Taming Bad Noise Helps Video Object Removal はコメントを受け付けていません

ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL

要約

考え方の推論と強化学習(RL)がNLPのブレークスルーを駆動していますが、生成ビジョンモデルへの統合は依存していないままです。
Reasongen-R1は、最初に、書かれた理論的根拠の新たに生成された推論データセットで監視された微調整を介して、明示的なテキストベースの「思考」スキルを自動再生画像ジェネレーターに吸収し、グループ相対ポリシーの最適化を使用して出力を改良します。
画像を生成する前にテキストを介してモデルを推論できるようにするために、視覚的なプロンプトと組み合わせたモデル作成された理論的根拠のコーパスを自動的に生成およびリリースし、オブジェクトレイアウト、スタイル、シーン構成の制御計画を可能にします。
当社のGRPOアルゴリズムは、前処理されたビジョン言語モデルからの報酬信号を使用して、全体的な視覚品質を評価し、各アップデートのポリシーを最適化します。
Geneval、DPG、およびT2Iベンチマークの評価は、Reasongen-R1が強力なベースラインと以前の最先端モデルを常に上回ることを示しています。
詳細:別名MMS/Reasongen。

要約(オリジナル)

Although chain-of-thought reasoning and reinforcement learning (RL) have driven breakthroughs in NLP, their integration into generative vision models remains underexplored. We introduce ReasonGen-R1, a two-stage framework that first imbues an autoregressive image generator with explicit text-based ‘thinking’ skills via supervised fine-tuning on a newly generated reasoning dataset of written rationales, and then refines its outputs using Group Relative Policy Optimization. To enable the model to reason through text before generating images, We automatically generate and release a corpus of model crafted rationales paired with visual prompts, enabling controlled planning of object layouts, styles, and scene compositions. Our GRPO algorithm uses reward signals from a pretrained vision language model to assess overall visual quality, optimizing the policy in each update. Evaluations on GenEval, DPG, and the T2I benchmark demonstrate that ReasonGen-R1 consistently outperforms strong baselines and prior state-of-the-art models. More: aka.ms/reasongen.

arxiv情報

著者 Yu Zhang,Yunqi Li,Yifan Yang,Rui Wang,Yuqing Yang,Dai Qi,Jianmin Bao,Dongdong Chen,Chong Luo,Lili Qiu
発行日 2025-05-30 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL はコメントを受け付けていません

Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks

要約

深い推論は、特に順次のマルチモーダル理解を必要とする視覚中心のシナリオで、複雑なタスクを解決するための基本です。
ただし、既存のベンチマークは通常、エージェントを完全に合成、単一ターンクエリ、限られた視覚モダリティを持つエージェントを評価し、実際の設定で必要な複数のステップで推論品質を評価するフレームワークを欠いています。
これに対処するために、視覚中心のエージェントを評価するための大規模なベンチマークであるAgent-Xを紹介します。
エージェント – Xには、画像、マルチイメージの比較、ビデオ、および教育テキストなど、本物の視覚的コンテキストを備えた828のエージェントタスクを備えています。
これらのタスクは、一般的な視覚的推論、Webブラウジング、セキュリティと監視、自律運転、スポーツ、数学の推論の6つの主要なエージェント環境に及びます。
当社のベンチマークでは、エージェントがこれらの多様な設定で明示的な段階的な意思決定とツールの使用を統合する必要があります。
さらに、各推論ステップの正確性と論理的一貫性、およびタスク全体のツール使用の有効性を評価する、微調整されたステップレベルの評価フレームワークを提案します。
私たちの結果は、GPT、Gemini、Qwenファミリーを含む最高のパフォーマンスモデルでさえ、マルチステップビジョンタスクを解決し、50%未満のフルチェーンの成功を達成するのに苦労していることを明らかにしています。
これらの調査結果は、現在のLMMの推論とツール使用機能の重要なボトルネックを強調し、視力中心のエージェント推論モデルの将来の研究方向を特定します。
データとコードは、https://github.com/mbzuai-oryx/agent-xで公開されています

要約(オリジナル)

Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that demand sequential, multimodal understanding. However, existing benchmarks typically evaluate agents with fully synthetic, single-turn queries, limited visual modalities, and lack a framework to assess reasoning quality over multiple steps as required in real-world settings. To address this, we introduce Agent-X, a large-scale benchmark for evaluating vision-centric agents multi-step and deep reasoning capabilities in real-world, multimodal settings. Agent- X features 828 agentic tasks with authentic visual contexts, including images, multi-image comparisons, videos, and instructional text. These tasks span six major agentic environments: general visual reasoning, web browsing, security and surveillance, autonomous driving, sports, and math reasoning. Our benchmark requires agents to integrate tool use with explicit, stepwise decision-making in these diverse settings. In addition, we propose a fine-grained, step-level evaluation framework that assesses the correctness and logical coherence of each reasoning step and the effectiveness of tool usage throughout the task. Our results reveal that even the best-performing models, including GPT, Gemini, and Qwen families, struggle to solve multi-step vision tasks, achieving less than 50% full-chain success. These findings highlight key bottlenecks in current LMM reasoning and tool-use capabilities and identify future research directions in vision-centric agentic reasoning models. Our data and code are publicly available at https://github.com/mbzuai-oryx/Agent-X

arxiv情報

著者 Tajamul Ashraf,Amal Saqib,Hanan Ghani,Muhra AlMahri,Yuhao Li,Noor Ahsan,Umair Nawaz,Jean Lahoud,Hisham Cholakkal,Mubarak Shah,Philip Torr,Fahad Shahbaz Khan,Rao Muhammad Anwer,Salman Khan
発行日 2025-05-30 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks はコメントを受け付けていません

AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion

要約

画像間のアバター世代の既存の方法は、実際のアプリケーションに適した非常に詳細なアニメーション対応のアバターを作成するために苦労しています。
Adahumanを紹介します。これは、単一の内部画像から高忠実度のアニメーション可能な3Dアバターを生成する新しいフレームワークです。
Adahumanには、2つの重要なイノベーションが組み込まれています。(1)各拡散ステップでの対応する3Dガウススプラット(3DG)再構成とともに、任意のポーズで一貫したマルチビュー画像を合成するポーズ条件付き3Dジョイント拡散モデル。
(2)画像から画像の洗練を通じてローカルの身体部分の詳細を強化し、新しい作物認識カメラレイマップを使用してシームレスに統合し、まとまりのある詳細な3Dアバターを生成する組成3DGS洗練モジュール。
これらのコンポーネントにより、Adahumanは、最小限の自己閉鎖を備えた非常に現実的な標準化されたAポーズアバターを生成し、入力モーションでリギングとアニメーションを可能にします。
パブリックベンチマークとワイルド画像に関する広範な評価は、Adahumanがアバターの再構築と後退の両方で最新の方法を大幅に上回ることを示しています。
コードとモデルは、研究目的で公開されます。

要約(オリジナル)

Existing methods for image-to-3D avatar generation struggle to produce highly detailed, animation-ready avatars suitable for real-world applications. We introduce AdaHuman, a novel framework that generates high-fidelity animatable 3D avatars from a single in-the-wild image. AdaHuman incorporates two key innovations: (1) A pose-conditioned 3D joint diffusion model that synthesizes consistent multi-view images in arbitrary poses alongside corresponding 3D Gaussian Splats (3DGS) reconstruction at each diffusion step; (2) A compositional 3DGS refinement module that enhances the details of local body parts through image-to-image refinement and seamlessly integrates them using a novel crop-aware camera ray map, producing a cohesive detailed 3D avatar. These components allow AdaHuman to generate highly realistic standardized A-pose avatars with minimal self-occlusion, enabling rigging and animation with any input motion. Extensive evaluation on public benchmarks and in-the-wild images demonstrates that AdaHuman significantly outperforms state-of-the-art methods in both avatar reconstruction and reposing. Code and models will be publicly available for research purposes.

arxiv情報

著者 Yangyi Huang,Ye Yuan,Xueting Li,Jan Kautz,Umar Iqbal
発行日 2025-05-30 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion はコメントを受け付けていません