R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

要約

大規模な言語モデルは、複雑なテキストタスクで顕著な推論能力を示しています。
ただし、視覚情報とテキスト情報を統合する必要があるマルチモーダル推論は、依然として重要な課題です。
既存の視覚言語モデルは、視覚コンテンツを効果的に分析し、推論するのに苦労していることが多く、複雑な推論タスクで最適ではないパフォーマンスをもたらします。
さらに、包括的なベンチマークがないことは、マルチモーダル推論能力の正確な評価を妨げます。
この論文では、視覚的知覚と深い推論の間のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-OneVisionを紹介します。
これを達成するために、画像を正式なテクスチャー表現に変換するクロスモーダル推論パイプラインを提案し、正確な言語ベースの推論を可能にします。
このパイプラインを活用すると、R1-OneVision Datasetを構築します。これにより、多様なドメイン全体で詳細な段階的なマルチモーダル推論注釈が提供されます。
さらに、高度な推論と堅牢な一般化能力を育成するための監視された微調整と強化学習を通じて、R1-OneVisionモデルをさらに開発します。
さまざまなグレードにわたってマルチモーダル推論パフォーマンスを包括的に評価するために、中学校から大学までの試験をカバーする人間の教育段階に沿ったベンチマークであるR1-OneVision-Benchを紹介します。
実験結果は、R1-OneVisionが、複数の挑戦的なマルチモーダル推論ベンチマークでGPT-4OやQWEN2.5-VLなどの最先端のパフォーマンス、アウトパフォーマンスモデルを達成することを示しています。

要約(オリジナル)

Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

arxiv情報

著者 Yi Yang,Xiaoxuan He,Hongkun Pan,Xiyan Jiang,Yan Deng,Xingtao Yang,Haoyu Lu,Dacheng Yin,Fengyun Rao,Minfeng Zhu,Bo Zhang,Wei Chen
発行日 2025-03-13 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization はコメントを受け付けていません

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

要約

オープンボキャブラリー複数のオブジェクトトラッキングは、トレーニング中にトラッカーを目に見えないカテゴリに一般化することを目的としており、さまざまな現実世界のシナリオでアプリケーションを可能にします。
ただし、既存のオープンボキャブラリートラッカーは、そのフレームワーク構造、分離されたフレームレベルの知覚、および不十分なモーダル相互作用によって制約されており、これにより、オープンポキュブの分類と追跡のパフォーマンスが妨げられます。
このホワイトペーパーでは、モーション、外観、カテゴリを同時にモデル化する最初のエンドツーエンドのオープンボキャブラリートラッカーであるOVTR(トランスを使用したエンドツーエンドのオープンボキャブラリーマルチオブジェクトトラッキング)を提案します。
安定した分類と継続的な追跡を実現するために、CIP(カテゴリ情報伝播)戦略を設計し、その後のフレームの複数の高レベルのカテゴリ情報事前を確立します。
さらに、一般化能力と深いマルチモーダル相互作用のためのデュアルブランチ構造を導入し、パフォーマンスを向上させるためにデコーダーに保護戦略を組み込みます。
実験結果は、私たちの方法では、オープンボキャブラリーMOTベンチマークで以前のトラッカーを上回り、推論速度が高速化し、前処理要件を大幅に削減することを示しています。
さらに、モデルを別のデータセットに転送する実験は、その強力な適応性を示しています。
モデルとコードはhttps://github.com/jinyanglii/ovtrでリリースされます。

要約(オリジナル)

Open-vocabulary multiple object tracking aims to generalize trackers to unseen categories during training, enabling their application across a variety of real-world scenarios. However, the existing open-vocabulary tracker is constrained by its framework structure, isolated frame-level perception, and insufficient modal interactions, which hinder its performance in open-vocabulary classification and tracking. In this paper, we propose OVTR (End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer), the first end-to-end open-vocabulary tracker that models motion, appearance, and category simultaneously. To achieve stable classification and continuous tracking, we design the CIP (Category Information Propagation) strategy, which establishes multiple high-level category information priors for subsequent frames. Additionally, we introduce a dual-branch structure for generalization capability and deep multimodal interaction, and incorporate protective strategies in the decoder to enhance performance. Experimental results show that our method surpasses previous trackers on the open-vocabulary MOT benchmark while also achieving faster inference speeds and significantly reducing preprocessing requirements. Moreover, the experiment transferring the model to another dataset demonstrates its strong adaptability. Models and code are released at https://github.com/jinyanglii/OVTR.

arxiv情報

著者 Jinyang Li,En Yu,Sijia Chen,Wenbing Tao
発行日 2025-03-13 17:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer はコメントを受け付けていません

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

要約

この作業では、テキストからイメージの生成のための拡散トランス(DIT)を経験的に研究し、建築の選択、テキスト条件の戦略、トレーニングプロトコルに焦点を当てています。
PixartスタイルとMMDITバリアントを含むさまざまなDITベースのアーキテクチャを評価し、連結したテキストとノイズ入力を直接処理する標準的なDITバリアントと比較します。
驚くべきことに、我々の調査結果は、特にスケーリングされた場合、優れたパラメーター効率を実証しながら、標準DITのパフォーマンスがこれらの特殊なモデルに匹敵することを明らかにしています。
レイヤーワイズパラメーター共有戦略を活用すると、MMDITアーキテクチャと比較してモデルサイズが66%のさらに減少し、パフォーマンスへの影響が最小限に抑えられます。
テキストエンコーダーや変分自動エンコーダー(VAE)などの重要なコンポーネントの詳細な分析に基づいて、DIT-AIRとDIT-AIR-LITEを紹介します。
監視された報酬の微調整により、Dit-AirはGenevalおよびT2I Compbenchで最先端のパフォーマンスを達成しますが、Dit-Air-Liteはコンパクトなサイズにもかかわらず、ほとんどの既存のモデルを上回り、非常に競争力があります。

要約(オリジナル)

In this work, we empirically study Diffusion Transformers (DiTs) for text-to-image generation, focusing on architectural choices, text-conditioning strategies, and training protocols. We evaluate a range of DiT-based architectures–including PixArt-style and MMDiT variants–and compare them with a standard DiT variant which directly processes concatenated text and noise inputs. Surprisingly, our findings reveal that the performance of standard DiT is comparable with those specialized models, while demonstrating superior parameter-efficiency, especially when scaled up. Leveraging the layer-wise parameter sharing strategy, we achieve a further reduction of 66% in model size compared to an MMDiT architecture, with minimal performance impact. Building on an in-depth analysis of critical components such as text encoders and Variational Auto-Encoders (VAEs), we introduce DiT-Air and DiT-Air-Lite. With supervised and reward fine-tuning, DiT-Air achieves state-of-the-art performance on GenEval and T2I CompBench, while DiT-Air-Lite remains highly competitive, surpassing most existing models despite its compact size.

arxiv情報

著者 Chen Chen,Rui Qian,Wenze Hu,Tsu-Jui Fu,Lezhi Li,Bowen Zhang,Alex Schwing,Wei Liu,Yinfei Yang
発行日 2025-03-13 17:57:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation はコメントを受け付けていません

DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

要約

大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的質問応答(VQA)タスクで強力なパフォーマンスを実証していますが、特定の課題には、正確な回答に到達するために複雑なマルチステップの推論が必要です。
特に挑戦的なタスクの1つは、自律的な運転であり、決定を下す前に徹底的な認知処理を必要とします。
このドメインでは、効果的な認識、予測、および計画のために、視覚的な手がかりの連続的かつ解釈的な理解が不可欠です。
それにもかかわらず、一般的なVQAベンチマークは、多くの場合、正確な応答の生成を可能にする推論プロセスを見落としながら、最終回答の正確性に焦点を当てています。
さらに、既存の方法には、現実的な運転シナリオで段階的な推論を評価するための包括的なフレームワークがありません。
このギャップに対処するために、自律運転の段階的な視覚的推論を進めるために特別に設計された新しいデータセットとベンチマークであるDrivelmm-O1を提案します。
当社のベンチマークは、トレーニングセットの18Kを超えるVQAの例と、テストセットで4K以上の特徴を特徴としており、それぞれが自律運転シナリオの論理的推論を確保するための段階的な推論で豊富な知覚、予測、および計画に関する多様な質問をカバーしています。
さらに、推論データセットで微調整された大規模なマルチモーダルモデルを紹介し、複雑な運転シナリオで堅牢なパフォーマンスを実証します。
さらに、提案されたデータセットにさまざまなオープンソースとクローズドソースのメソッドをベンチマークし、自律運転タスクの推論機能を体系的に比較します。
私たちのモデルは、以前のベストオープンソースモデルでの推論スコアの3.62%の改善とともに、最終的な回答の精度で +7.49%の増加を達成します。
フレームワーク、データセット、およびモデルは、https://github.com/ayesha-ishaq/drivelmm-o1で入手できます。

要約(オリジナル)

While large multimodal models (LMMs) have demonstrated strong performance across various Visual Question Answering (VQA) tasks, certain challenges require complex multi-step reasoning to reach accurate answers. One particularly challenging task is autonomous driving, which demands thorough cognitive processing before decisions can be made. In this domain, a sequential and interpretive understanding of visual cues is essential for effective perception, prediction, and planning. Nevertheless, common VQA benchmarks often focus on the accuracy of the final answer while overlooking the reasoning process that enables the generation of accurate responses. Moreover, existing methods lack a comprehensive framework for evaluating step-by-step reasoning in realistic driving scenarios. To address this gap, we propose DriveLMM-o1, a new dataset and benchmark specifically designed to advance step-wise visual reasoning for autonomous driving. Our benchmark features over 18k VQA examples in the training set and more than 4k in the test set, covering diverse questions on perception, prediction, and planning, each enriched with step-by-step reasoning to ensure logical inference in autonomous driving scenarios. We further introduce a large multimodal model that is fine-tuned on our reasoning dataset, demonstrating robust performance in complex driving scenarios. In addition, we benchmark various open-source and closed-source methods on our proposed dataset, systematically comparing their reasoning capabilities for autonomous driving tasks. Our model achieves a +7.49% gain in final answer accuracy, along with a 3.62% improvement in reasoning score over the previous best open-source model. Our framework, dataset, and model are available at https://github.com/ayesha-ishaq/DriveLMM-o1.

arxiv情報

著者 Ayesha Ishaq,Jean Lahoud,Ketan More,Omkar Thawakar,Ritesh Thawkar,Dinura Dissanayake,Noor Ahsan,Yuhao Li,Fahad Shahbaz Khan,Hisham Cholakkal,Ivan Laptev,Rao Muhammad Anwer,Salman Khan
発行日 2025-03-13 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding はコメントを受け付けていません

Transformers without Normalization

要約

正規化層は、現代のニューラルネットワークで遍在しており、長い間不可欠であると考えられてきました。
この作業は、正規化のないトランスは、非常にシンプルな手法を使用して同じパフォーマンスまたはより良いパフォーマンスを達成できることを示しています。
変圧器の正規化層のドロップイン置換として、要素ごとの操作$ dyt($ x $)= \ tanh(\ alpha $ x $)$であるダイナミックタン(dyt)を紹介します。
DYTは、変圧器の層の正規化がタン状の$ s $ shaped出力マッピングを生成することが多いという観察に触発されています。
DYTを組み込むことにより、正規化なしのトランスは、主にハイパーパラメーターの調整なしで、正規化された対応物のパフォーマンスと一致またはそれを超えることができます。
私たちは、認識から世代に至るまで、さまざまな設定を介したDYTを使用して、変圧器の有効性を検証し、自己教師の学習、およびコンピュータービジョンから言語モデルに至ります。
これらの調査結果は、正規化層が現代のニューラルネットワークで不可欠であるという従来の理解に挑戦し、ディープネットワークでの役割に関する新しい洞察を提供します。

要約(オリジナル)

Normalization layers are ubiquitous in modern neural networks and have long been considered essential. This work demonstrates that Transformers without normalization can achieve the same or better performance using a remarkably simple technique. We introduce Dynamic Tanh (DyT), an element-wise operation $DyT($x$) = \tanh(\alpha $x$)$, as a drop-in replacement for normalization layers in Transformers. DyT is inspired by the observation that layer normalization in Transformers often produces tanh-like, $S$-shaped input-output mappings. By incorporating DyT, Transformers without normalization can match or exceed the performance of their normalized counterparts, mostly without hyperparameter tuning. We validate the effectiveness of Transformers with DyT across diverse settings, ranging from recognition to generation, supervised to self-supervised learning, and computer vision to language models. These findings challenge the conventional understanding that normalization layers are indispensable in modern neural networks, and offer new insights into their role in deep networks.

arxiv情報

著者 Jiachen Zhu,Xinlei Chen,Kaiming He,Yann LeCun,Zhuang Liu
発行日 2025-03-13 17:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Transformers without Normalization はコメントを受け付けていません

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

要約

ボディを3D服を着た人間のポイントクラウドに取り付けることは、一般的でありながら挑戦的な作業です。
従来の最適化ベースのアプローチでは、初期化に敏感なマルチステージパイプラインを使用しますが、最近の学習ベースの方法は、多様なポーズや衣服の種類の一般化に苦労することがよくあります。
衣服を着た人間、またはエッチングを提案することを提案します。エッチングは、地域の近似SE(3)等量を介して布と体の表面マッピングを推定する新しいパイプラインであり、布から下にある体への変位ベクターとしての緊張をコードすることを提案します。
このマッピングに続いて、ポーズ不変のボディは、スパースボディマーカーを退行させ、衣服を着た人間のフィッティングを内部のマーカーフィッティングタスクに単純化します。
ケープと4Dドレスに関する広範な実験は、エッチングがゆるい衣服(16.7%〜69.5%)と形状の精度(平均49.9%)のボディフィッティング精度の最先端の方法(タイトネスとタイトネスの両方の両方)を大幅に上回ることを示しています。
当社の当社の等量性のタイトネス設計では、ワンショット(または分散型)設定で方向性エラーを(67.2%〜89.8%)減らすことさえできます。
定性的な結果は、挑戦的なポーズ、目に見えない形、ゆるい衣服、非剛性のダイナミクスに関係なく、エッチングの強力な一般化を示しています。
https://boqian-li.github.io/etch/で研究目的でコードとモデルをすぐにリリースします。

要約(オリジナル)

Fitting a body to a 3D clothed human point cloud is a common yet challenging task. Traditional optimization-based approaches use multi-stage pipelines that are sensitive to pose initialization, while recent learning-based methods often struggle with generalization across diverse poses and garment types. We propose Equivariant Tightness Fitting for Clothed Humans, or ETCH, a novel pipeline that estimates cloth-to-body surface mapping through locally approximate SE(3) equivariance, encoding tightness as displacement vectors from the cloth surface to the underlying body. Following this mapping, pose-invariant body features regress sparse body markers, simplifying clothed human fitting into an inner-body marker fitting task. Extensive experiments on CAPE and 4D-Dress show that ETCH significantly outperforms state-of-the-art methods — both tightness-agnostic and tightness-aware — in body fitting accuracy on loose clothing (16.7% ~ 69.5%) and shape accuracy (average 49.9%). Our equivariant tightness design can even reduce directional errors by (67.2% ~ 89.8%) in one-shot (or out-of-distribution) settings. Qualitative results demonstrate strong generalization of ETCH, regardless of challenging poses, unseen shapes, loose clothing, and non-rigid dynamics. We will release the code and models soon for research purposes at https://boqian-li.github.io/ETCH/.

arxiv情報

著者 Boqian Li,Haiwen Feng,Zeyu Cai,Michael J. Black,Yuliang Xiu
発行日 2025-03-13 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness はコメントを受け付けていません

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

要約

単一の画像からのアニメーション可能な3Dヒト再構築は、ジオメトリ、外観、および変形の分離の曖昧さのため、挑戦的な問題です。
3D人間の再構築における最近の進歩は、主に静的人間のモデリングに焦点を当てており、トレーニングに合成3Dスキャンを使用することは一般化能力を制限します。
逆に、最適化ベースのビデオ方法はより高い忠実度を達成しますが、需要制御されたキャプチャ条件と計算集中的な改良プロセスを実現します。
効率的な静的再構成のための大規模な再構成モデ​​ルの出現に動機付けられ、LHM(大規模なアニメーション可能な人間の再構成モデ​​ル)を提案して、フィードフォワードパスで3Dガウスのスプラッティングとして表される高忠実度のアバターを推測します。
私たちのモデルは、マルチモーダルトランスアーキテクチャを活用して、人体の位置の特徴と注意メカニズムを備えた画像機能を効果的にエンコードし、衣類のジオメトリとテクスチャの詳細な保存を可能にします。
顔のアイデンティティの保存と細かい詳細回復をさらに高めるために、ヘッドフィーチャーピラミッドエンコードスキームを提案して、ヘッド領域のマルチスケール機能を集約します。
広範な実験は、私たちのLHMが、顔と手の後処理なしに数秒でもっともらしいアニメーション可能な人間を生成し、再構築の精度と一般化能力の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Animatable 3D human reconstruction from a single image is a challenging problem due to the ambiguity in decoupling geometry, appearance, and deformation. Recent advances in 3D human reconstruction mainly focus on static human modeling, and the reliance of using synthetic 3D scans for training limits their generalization ability. Conversely, optimization-based video methods achieve higher fidelity but demand controlled capture conditions and computationally intensive refinement processes. Motivated by the emergence of large reconstruction models for efficient static reconstruction, we propose LHM (Large Animatable Human Reconstruction Model) to infer high-fidelity avatars represented as 3D Gaussian splatting in a feed-forward pass. Our model leverages a multimodal transformer architecture to effectively encode the human body positional features and image features with attention mechanism, enabling detailed preservation of clothing geometry and texture. To further boost the face identity preservation and fine detail recovery, we propose a head feature pyramid encoding scheme to aggregate multi-scale features of the head regions. Extensive experiments demonstrate that our LHM generates plausible animatable human in seconds without post-processing for face and hands, outperforming existing methods in both reconstruction accuracy and generalization ability.

arxiv情報

著者 Lingteng Qiu,Xiaodong Gu,Peihao Li,Qi Zuo,Weichao Shen,Junfei Zhang,Kejie Qiu,Weihao Yuan,Guanying Chen,Zilong Dong,Liefeng Bo
発行日 2025-03-13 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds はコメントを受け付けていません

NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

要約

ヒューマノイドロボット、4倍、動物など、多様で型破りな形態学を介して身体的にもっともらしい運動能力を獲得することは、キャラクターのシミュレーションとロボット工学を進めるために不可欠です。
強化学習(RL)などの従来の方法はタスクおよび身体固有であり、広範な報酬機能エンジニアリングを必要とし、一般化しないでください。
模倣学習は代替品を提供しますが、高品質の専門家デモンストレーションに大きく依存しています。
一方、ビデオ拡散モデルは、人間からアリまで、さまざまな形態学の現実的なビデオを生成することができます。
この機能を活用して、2D生成されたビデオから3Dモータースキルを学習するスキル獲得のためのデータに依存しないアプローチを提案し、型破りで非人間的なフォームに一般化する機能を備えています。
具体的には、ビデオ埋め込み間のペアワイズ距離を計算することにより、ビデオベースの比較のためにビジョン変圧器を活用することにより、模倣学習プロセスを導きます。
ビデオエンコード距離に加えて、ガイダンス報酬として、セグメント化されたビデオフレーム間の計算された類似性も使用します。
独自のボディ構成を含む移動タスクに関する方法を検証します。
ヒューマノイドロボットの移動タスクでは、3Dモーションキャプチャデータでトレーニングされたベースラインを「非データ模倣学習」(nil)よりも優れていることを示します。
私たちの結果は、物理的にもっともらしいスキル学習のための生成ビデオモデルを多様な形態学を使用して活用し、データ収集を模倣学習のためにデータ生成に効果的に置き換える可能性を強調しています。

要約(オリジナル)

Acquiring physically plausible motor skills across diverse and unconventional morphologies-including humanoid robots, quadrupeds, and animals-is essential for advancing character simulation and robotics. Traditional methods, such as reinforcement learning (RL) are task- and body-specific, require extensive reward function engineering, and do not generalize well. Imitation learning offers an alternative but relies heavily on high-quality expert demonstrations, which are difficult to obtain for non-human morphologies. Video diffusion models, on the other hand, are capable of generating realistic videos of various morphologies, from humans to ants. Leveraging this capability, we propose a data-independent approach for skill acquisition that learns 3D motor skills from 2D-generated videos, with generalization capability to unconventional and non-human forms. Specifically, we guide the imitation learning process by leveraging vision transformers for video-based comparisons by calculating pair-wise distance between video embeddings. Along with video-encoding distance, we also use a computed similarity between segmented video frames as a guidance reward. We validate our method on locomotion tasks involving unique body configurations. In humanoid robot locomotion tasks, we demonstrate that ‘No-data Imitation Learning’ (NIL) outperforms baselines trained on 3D motion-capture data. Our results highlight the potential of leveraging generative video models for physically plausible skill learning with diverse morphologies, effectively replacing data collection with data generation for imitation learning.

arxiv情報

著者 Mert Albaba,Chenhao Li,Markos Diomataris,Omid Taheri,Andreas Krause,Michael Black
発行日 2025-03-13 17:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models はコメントを受け付けていません

SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems

要約

大規模なマルチモーダルモデル(LMMS)の急速な進歩により、科学的問題解決への応用が可能になりましたが、それらの細かい能力は未調査のままです。
この論文では、5つの異なるバージョンで5,735のテストインスタンスでLMMを徹底的に評価するためのマルチモーダル科学的評価ベンチマークであるSciverseを紹介します。
LMMの3つの重要な側面を調査することを目指しています。科学的知識の理解、マルチモーダルコンテンツの解釈、およびチェーンオブテア(COT)推論です。
LMMSが十分な科学的専門知識を持っているかどうかを明らかにするために、最初に各問題を解決に必要なさまざまなレベルの知識、つまり、知識のない、ライト、およびリッチを含む3つのバージョンに変換します。
次に、LMMSがマルチモーダルの科学的コンテンツをどのように解釈するかを探るために、別の2つのバージョン、つまりビジョンが豊富で、そのみを注釈を付け、テキストから図までより多くの質問情報をマークします。
さまざまなバージョンの結果を比較すると、Sciverseは科学的領域におけるLMMの専門知識ストックと視覚的認識スキルを体系的に調べます。
さらに、COTの推論を厳密に評価するために、新しい科学的COT評価戦略を提案し、モデル出力の知識と論理エラーに関する段階的な評価を実施します。
SciverseでのさまざまなLMMの広範な評価は、科学的習熟度の重大な制限を明らかにし、将来の発展に関する新しい洞察を提供します。
プロジェクトページ:https://sciverse-cuhk.github.io

要約(オリジナル)

The rapid advancement of Large Multi-modal Models (LMMs) has enabled their application in scientific problem-solving, yet their fine-grained capabilities remain under-explored. In this paper, we introduce SciVerse, a multi-modal scientific evaluation benchmark to thoroughly assess LMMs across 5,735 test instances in five distinct versions. We aim to investigate three key dimensions of LMMs: scientific knowledge comprehension, multi-modal content interpretation, and Chain-of-Thought (CoT) reasoning. To unveil whether LMMs possess sufficient scientific expertise, we first transform each problem into three versions containing different levels of knowledge required for solving, i.e., Knowledge-free, -lite, and -rich. Then, to explore how LMMs interpret multi-modal scientific content, we annotate another two versions, i.e., Vision-rich and -only, marking more question information from texts to diagrams. Comparing the results of different versions, SciVerse systematically examines the professional knowledge stock and visual perception skills of LMMs in scientific domains. In addition, to rigorously assess CoT reasoning, we propose a new scientific CoT evaluation strategy, conducting a step-wise assessment on knowledge and logical errors in model outputs. Our extensive evaluation of different LMMs on SciVerse reveals critical limitations in their scientific proficiency and provides new insights into future developments. Project page: https://sciverse-cuhk.github.io

arxiv情報

著者 Ziyu Guo,Ray Zhang,Hao Chen,Jialin Gao,Dongzhi Jiang,Jiaze Wang,Pheng-Ann Heng
発行日 2025-03-13 17:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems はコメントを受け付けていません

Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology

要約

敵対的な攻撃は、信頼性が不可欠なヘルスケアのような重要な分野の視界モデルに大きな課題をもたらします。
敵対的な訓練は自然な画像でよく研究されていますが、生物医学および顕微鏡データへの適用は依然として限られたままです。
既存の自己監視官能的訓練方法は、患者のスライドパッチ関係が貴重な識別シグナルを提供する組織病理学画像の階層構造を見落としています。
これに対処するために、階層的な自己監視官能訓練(HSAT)を提案します。これは、これらの特性を活用して、マルチレベルの対照学習を使用して敵対例を作成し、それを強化された堅牢性のために敵対的なトレーニングに統合します。
マルチクラスの組織病理学データセットOpenSRHでHSATを評価し、結果は、HSATが生物医学的および自然画像ドメインの両方から既存の方法を上回ることを示しています。
HSATは堅牢性を高め、ホワイトボックス設定で54.31%の平均ゲインを達成し、ベースラインの25〜30%に対して、ブラックボックス設定でパフォーマンスを3〜4%に減らします。
これらの結果は、このドメインでの敵対的なトレーニングのための新しいベンチマークを設定し、より堅牢なモデルへの道を開いています。
トレーニングと評価のためのコードは、https://github.com/hashmatshadab/hsatで入手できます。

要約(オリジナル)

Adversarial attacks pose significant challenges for vision models in critical fields like healthcare, where reliability is essential. Although adversarial training has been well studied in natural images, its application to biomedical and microscopy data remains limited. Existing self-supervised adversarial training methods overlook the hierarchical structure of histopathology images, where patient-slide-patch relationships provide valuable discriminative signals. To address this, we propose Hierarchical Self-Supervised Adversarial Training (HSAT), which exploits these properties to craft adversarial examples using multi-level contrastive learning and integrate it into adversarial training for enhanced robustness. We evaluate HSAT on multiclass histopathology dataset OpenSRH and the results show that HSAT outperforms existing methods from both biomedical and natural image domains. HSAT enhances robustness, achieving an average gain of 54.31% in the white-box setting and reducing performance drops to 3-4% in the black-box setting, compared to 25-30% for the baseline. These results set a new benchmark for adversarial training in this domain, paving the way for more robust models. Our Code for training and evaluation is available at https://github.com/HashmatShadab/HSAT.

arxiv情報

著者 Hashmat Shadab Malik,Shahina Kunhimon,Muzammal Naseer,Fahad Shahbaz Khan,Salman Khan
発行日 2025-03-13 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology はコメントを受け付けていません