Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

要約

チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、COTの推論が必ずしも忠実ではないことが示されています。つまり、COTの推論は、モデルが結論に到達する方法を常に反映しているとは限りません。
これまでのところ、これらの研究のほとんどは、明示的なバイアスが導入された不自然な文脈の不誠実さに焦点を合わせてきました。
対照的に、人工的なバイアスのない現実的なプロンプトで不忠実なベッドが発生する可能性があることを示します。
我々の結果は、フロンティアモデルのいくつかの形態の不誠実な推論の割合に関する割合に関することを明らかにしました:Sonnet 3.7(30.6%)、Deepseek R1(15.8%)、ChatGPT-4o(12.6%)はすべて、質問のペアのペアの高い割合に答えます。
具体的には、モデルはバイナリ質問に対する回答(「暗黙の事後合理化」)で暗黙のバイアスを合理化することがわかります。
たとえば、質問を個別に提示した場合、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問に「はい」との回答を正当化するか、両方の質問にnoに答えることを正当化することがあります。
また、復元エラー(Dziri et al。、2023)を調査します。ここでは、モデルが推論で誤ったエラーを作成し、その後黙って修正します。また、モデルはパトナムの質問の解決を簡素化するために明らかに非論理的推論を使用します(ハードベンチマーク)。
私たちの調査結果は、COTの監視に依存して、望ましくない動作を検出することに依存しているAIの安全作業の課題を引き起こします。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful, i.e. CoT reasoning does not always reflect how models arrive at conclusions. So far, most of these studies have focused on unfaithfulness in unnatural contexts where an explicit bias has been introduced. In contrast, we show that unfaithful CoT can occur on realistic prompts with no artificial bias. Our results reveal concerning rates of several forms of unfaithful reasoning in frontier models: Sonnet 3.7 (30.6%), DeepSeek R1 (15.8%) and ChatGPT-4o (12.6%) all answer a high proportion of question pairs unfaithfully. Specifically, we find that models rationalize their implicit biases in answers to binary questions (‘implicit post-hoc rationalization’). For example, when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We also investigate restoration errors (Dziri et al., 2023), where models make and then silently correct errors in their reasoning, and unfaithful shortcuts, where models use clearly illogical reasoning to simplify solving problems in Putnam questions (a hard benchmark). Our findings raise challenges for AI safety work that relies on monitoring CoT to detect undesired behavior.

arxiv情報

著者 Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy
発行日 2025-03-11 17:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Chain-of-Thought Reasoning In The Wild Is Not Always Faithful はコメントを受け付けていません

Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

要約

以前の研究では、PLMベースの検索モデルがLLM生成コンテンツの好みを示すことがわかっており、セマンティック品質が人間が書いたものに匹敵する場合でも、これらのドキュメントに関連性​​の高いスコアを割り当てています。
ソースバイアスとして知られるこの現象は、情報アクセスエコシステムの持続可能な開発を脅かしています。
ただし、ソースバイアスの根本的な原因は未開拓のままです。
この論文では、因果グラフで情報検索のプロセスを説明し、PLMベースのレトリーバーが関連性推定のために困惑の特徴を学習し、低い困惑のあるドキュメントをランク付けすることによりソースバイアスを引き起こすことを発見します。
理論分析により、この現象は、言語モデリングタスクと検索タスクの損失関数の勾配間の正の相関に起因することがさらに明らかになりました。
分析に基づいて、因果診断と補正(CDC)と呼ばれる因果関係の推論時間衰弱法が提案されています。
CDCは最初に困惑のバイアス効果を診断し、次にバイアス効果を全体的な推定関連スコアから分離します。
3つのドメインにわたる実験結果は、CDCの優れた紛失効果を示しており、提案された説明フレームワークの妥当性を強調しています。
ソースコードは、https://github.com/whydwelledonai/perplexity-trapで入手できます。

要約(オリジナル)

Previous studies have found that PLM-based retrieval models exhibit a preference for LLM-generated content, assigning higher relevance scores to these documents even when their semantic quality is comparable to human-written ones. This phenomenon, known as source bias, threatens the sustainable development of the information access ecosystem. However, the underlying causes of source bias remain unexplored. In this paper, we explain the process of information retrieval with a causal graph and discover that PLM-based retrievers learn perplexity features for relevance estimation, causing source bias by ranking the documents with low perplexity higher. Theoretical analysis further reveals that the phenomenon stems from the positive correlation between the gradients of the loss functions in language modeling task and retrieval task. Based on the analysis, a causal-inspired inference-time debiasing method is proposed, called Causal Diagnosis and Correction (CDC). CDC first diagnoses the bias effect of the perplexity and then separates the bias effect from the overall estimated relevance score. Experimental results across three domains demonstrate the superior debiasing effectiveness of CDC, emphasizing the validity of our proposed explanatory framework. Source codes are available at https://github.com/WhyDwelledOnAi/Perplexity-Trap.

arxiv情報

著者 Haoyu Wang,Sunhao Dai,Haiyuan Zhao,Liang Pang,Xiao Zhang,Gang Wang,Zhenhua Dong,Jun Xu,Ji-Rong Wen
発行日 2025-03-11 17:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents はコメントを受け付けていません

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

要約

テキストからイメージ(T2I)の生成は、拡散モデルで大きな進歩を遂げており、テキストプロンプトからの写真リアリスティックな画像の生成を可能にします。
この進歩にもかかわらず、既存の方法は、複雑なテキストプロンプト、特に構成およびマルチステップの推論を必要とする複雑なテキストプロンプトに従うことで依然として課題に直面しています。
このような複雑な指示を考えると、SOTAモデルは、しばしばオブジェクト属性とそれらの間の関係を忠実にモデル化することに間違いを犯します。
この作業では、T2I合成の代替パラダイムを提示し、複雑なマルチステップ生成のタスクを3つのステップに分解します。
編集プラン。
(c)編集:既存のテキスト誘導画像編集モデルを使用して、生成された画像上で編集計画を順次実行して、元の命令に忠実な目的の画像を取得します。
私たちのアプローチは、本質的にモジュール式であり、無料のトレーニングであり、画像生成モデルと編集モデルの任意の組み合わせに適用できるという事実から強さを導き出します。
追加の貢献として、組成編集が可能なモデルも開発します。これは、提案されたアプローチの全体的な精度をさらに向上させるのに役立ちます。
私たちの方法は、推論時間を柔軟に取引し、構成テキストプロンプトのパフォーマンスとともに計算します。
Dalle-3を含む3つのベンチマークと10のT2Iモデルで広範な実験的評価を実行し、最新のSD-3.5-Largeを使用しています。
私たちのアプローチは、SOTAモデルのパフォーマンスを最大3ポイント改善するだけでなく、弱いモデルとより強力なモデルのパフォーマンスギャップも削減します。
$ \ href {https://dair-iitd.github.io/grape/} {https://dair-iitd.github.io/grape/} $

要約(オリジナル)

Text-to-image (T2I) generation has seen significant progress with diffusion models, enabling generation of photo-realistic images from text prompts. Despite this progress, existing methods still face challenges in following complex text prompts, especially those requiring compositional and multi-step reasoning. Given such complex instructions, SOTA models often make mistakes in faithfully modeling object attributes, and relationships among them. In this work, we present an alternate paradigm for T2I synthesis, decomposing the task of complex multi-step generation into three steps, (a) Generate: we first generate an image using existing diffusion models (b) Plan: we make use of Multi-Modal LLMs (MLLMs) to identify the mistakes in the generated image expressed in terms of individual objects and their properties, and produce a sequence of corrective steps required in the form of an edit-plan. (c) Edit: we make use of an existing text-guided image editing models to sequentially execute our edit-plan over the generated image to get the desired image which is faithful to the original instruction. Our approach derives its strength from the fact that it is modular in nature, is training free, and can be applied over any combination of image generation and editing models. As an added contribution, we also develop a model capable of compositional editing, which further helps improve the overall accuracy of our proposed approach. Our method flexibly trades inference time compute with performance on compositional text prompts. We perform extensive experimental evaluation across 3 benchmarks and 10 T2I models including DALLE-3 and the latest — SD-3.5-Large. Our approach not only improves the performance of the SOTA models, by upto 3 points, it also reduces the performance gap between weaker and stronger models. $\href{https://dair-iitd.github.io/GraPE/}{https://dair-iitd.github.io/GraPE/}$

arxiv情報

著者 Ashish Goswami,Satyam Kumar Modi,Santhosh Rishi Deshineni,Harman Singh,Prathosh A. P,Parag Singla
発行日 2025-03-11 15:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis はコメントを受け付けていません

TLA: Tactile-Language-Action Model for Contact-Rich Manipulation

要約

ビジョン言語モデルでは大きな進歩が遂げられています。
ただし、特に触覚センシングの観点から、接触豊富なタスクの言語条件付きロボット操作は未定です。
このギャップに対処するために、触覚言語アクション(TLA)モデルを導入します。これは、接触集中シナリオで堅牢なポリシー生成を可能にするために、クロスモーダル言語の接地を介してシーケンシャルな触覚フィードバックを効果的に処理します。
さらに、指先ペグインホールアセンブリ用にカスタマイズされた24Kペアの触覚アクション命令データを含む包括的なデータセットを構築し、TLAトレーニングと評価に不可欠なリソースを提供します。
我々の結果は、TLAが効果的なアクションの生成とアクションの精度の観点から、従来の模倣学習方法(拡散ポリシーなど)を大幅に上回ると同時に、以前に見えたアセンブリクリアランスとPEG形状で85 \%の成功率を達成することにより、強力な一般化能力を実証することを示しています。
言語条件付きの触覚操作スキル学習の研究を進めることを期待して、すべてのデータとコードを公開します。
プロジェクトWebサイト:https://sites.google.com/view/tactile-language-comtion/

要約(オリジナル)

Significant progress has been made in vision-language models. However, language-conditioned robotic manipulation for contact-rich tasks remains underexplored, particularly in terms of tactile sensing. To address this gap, we introduce the Tactile-Language-Action (TLA) model, which effectively processes sequential tactile feedback via cross-modal language grounding to enable robust policy generation in contact-intensive scenarios. In addition, we construct a comprehensive dataset that contains 24k pairs of tactile action instruction data, customized for fingertip peg-in-hole assembly, providing essential resources for TLA training and evaluation. Our results show that TLA significantly outperforms traditional imitation learning methods (e.g., diffusion policy) in terms of effective action generation and action accuracy, while demonstrating strong generalization capabilities by achieving over 85\% success rate on previously unseen assembly clearances and peg shapes. We publicly release all data and code in the hope of advancing research in language-conditioned tactile manipulation skill learning. Project website: https://sites.google.com/view/tactile-language-action/

arxiv情報

著者 Peng Hao,Chaofan Zhang,Dingzhe Li,Xiaoge Cao,Xiaoshuai Hao,Shaowei Cui,Shuo Wang
発行日 2025-03-11 15:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | TLA: Tactile-Language-Action Model for Contact-Rich Manipulation はコメントを受け付けていません

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

要約

ビジョン言語モデル(VLM)は、マルチモーダル推論タスクの顕著な進歩を示しています。
しかし、彼らは幻想的なイメージの理解や不正確な推論パスなどの問題のために、依然として不正確または無関係な反応を生成することがよくあります。
これらの課題に対処するために、VLMSの推論能力を高めるために、俳優批判のパラダイムに触発された新しいフレームワークであるCritic-Vを紹介します。
このフレームワークは、2つの独立したコンポーネントを統合することにより、推論プロセスと批評家プロセスを切り離します。これは、視覚的およびテキスト入力に基づいて推論パスを生成し、これらのパスを洗練するための建設的な批評を提供する批評家です。
このアプローチでは、推論者はテキストプロンプトに従って推論応答を生成します。これは、批評家からのフィードバックに基づいたポリシーとして繰り返し進化する可能性があります。
この相互作用プロセスは、理論的には、批評家がスカラー報酬の代わりに自然言語批評を提供する強化学習フレームワークによって推進され、より微妙なフィードバックを可能にして、複雑な推論タスクに関する推論者の能力を高めます。
批評家モデルは、直接選好最適化(DPO)を使用してトレーニングされ、ルールベースの報酬〜(RBR)によってランク付けされた批評の優先データセットを活用して、批評家の能力を高めます。
評価の結果は、批評家-Vフレームワークが、特に推論の正確性と効率性に関して、8つのベンチマークのうち5つでGPT-4Vを含む既存の方法を大幅に上回ることを示しています。
推論者の動的なテキストベースのポリシーを組み合わせることで、優先順位が最適化された批評家からの建設的なフィードバックが可能になり、より信頼性が高くコンテキストに敏感なマルチモーダル推論プロセスが可能になります。
私たちのアプローチは、VLMSの信頼性を高めるための有望なソリューションを提供し、自律運転や具体化されたインテリジェンスなどの現実世界の推論が多いマルチモーダルアプリケーションでのパフォーマンスを向上させます。

要約(オリジナル)

Vision-language models (VLMs) have shown remarkable advancements in multimodal reasoning tasks. However, they still often generate inaccurate or irrelevant responses due to issues like hallucinated image understandings or unrefined reasoning paths. To address these challenges, we introduce Critic-V, a novel framework inspired by the Actor-Critic paradigm to boost the reasoning capability of VLMs. This framework decouples the reasoning process and critic process by integrating two independent components: the Reasoner, which generates reasoning paths based on visual and textual inputs, and the Critic, which provides constructive critique to refine these paths. In this approach, the Reasoner generates reasoning responses according to text prompts, which can evolve iteratively as a policy based on feedback from the Critic. This interaction process was theoretically driven by a reinforcement learning framework where the Critic offers natural language critiques instead of scalar rewards, enabling more nuanced feedback to boost the Reasoner’s capability on complex reasoning tasks. The Critic model is trained using Direct Preference Optimization (DPO), leveraging a preference dataset of critiques ranked by Rule-based Reward~(RBR) to enhance its critic capabilities. Evaluation results show that the Critic-V framework significantly outperforms existing methods, including GPT-4V, on 5 out of 8 benchmarks, especially regarding reasoning accuracy and efficiency. Combining a dynamic text-based policy for the Reasoner and constructive feedback from the preference-optimized Critic enables a more reliable and context-sensitive multimodal reasoning process. Our approach provides a promising solution to enhance the reliability of VLMs, improving their performance in real-world reasoning-heavy multimodal applications such as autonomous driving and embodied intelligence.

arxiv情報

著者 Di Zhang,Junxian Li,Jingdi Lei,Xunzhi Wang,Yujie Liu,Zonglin Yang,Jiatong Li,Weida Wang,Suorong Yang,Jianbo Wu,Peng Ye,Wanli Ouyang,Dongzhan Zhou
発行日 2025-03-11 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning はコメントを受け付けていません

ComicsPAP: understanding comic strips by picking the correct panel

要約

大規模なマルチモーダルモデル(LMM)は、画像キャプション、VQA、ビデオの理解に印象的な進歩を遂げていますが、コミックで見られる複雑な時間的および空間的キューにまだ苦労しています。
このギャップに対処するために、コミックストリップの理解のために設計された大規模なベンチマークであるComicsPapを紹介します。
100,000人以上のサンプルで構成され、Pick-A-Panelフレームワークの下で5つのサブタスクに編成されたComicsPapは、モデルに欠落パネルをシーケンスで識別することを要求します。
マルチイメージとシングルイメージの両方のプロトコルの両方で実施さ​​れた私たちの評価は、現在の最先端のLMMがこれらのタスクでほぼ偶然に機能し、連続的およびコンテキスト依存関係のキャプチャに大きな制限を強調していることを明らかにしています。
ギャップを埋めるために、コミックストリップの理解のためにLMMSを適応させ、10倍の大きなモデルよりもコミックパップでより良い結果を得て、ComicsPapがマルチモーダルコミックの理解における将来の研究を促進するための堅牢なリソースを提供することを示しています。

要約(オリジナル)

Large multimodal models (LMMs) have made impressive strides in image captioning, VQA, and video comprehension, yet they still struggle with the intricate temporal and spatial cues found in comics. To address this gap, we introduce ComicsPAP, a large-scale benchmark designed for comic strip understanding. Comprising over 100k samples and organized into 5 subtasks under a Pick-a-Panel framework, ComicsPAP demands models to identify the missing panel in a sequence. Our evaluations, conducted under both multi-image and single-image protocols, reveal that current state-of-the-art LMMs perform near chance on these tasks, underscoring significant limitations in capturing sequential and contextual dependencies. To close the gap, we adapted LMMs for comic strip understanding, obtaining better results on ComicsPAP than 10x bigger models, demonstrating that ComicsPAP offers a robust resource to drive future research in multimodal comic comprehension.

arxiv情報

著者 Emanuele Vivoli,Artemis Llabrés,Mohamed Ali Soubgui,Marco Bertini,Ernest Valveny Llobet,Dimosthenis Karatzas
発行日 2025-03-11 15:50:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ComicsPAP: understanding comic strips by picking the correct panel はコメントを受け付けていません

CAD-Recode: Reverse Engineering CAD Code from Point Clouds

要約

コンピューター支援設計(CAD)モデルは、通常、パラメトリックスケッチを順次描画し、CAD操作を適用して3Dモデルを取得することによって構築されます。
3D CADリバースエンジニアリングの問題は、ポイントクラウドなどの3D表現からスケッチとCADの動作シーケンスを再構築することで構成されています。
この論文では、CADシーケンス表現、ネットワーク設計、トレーニングデータセットの3つのレベルにわたる新しい貢献を通じて、この課題に対処します。
特に、PythonコードとしてCAD Sketch-Extrudeシーケンスを表します。
提案されたCAD-Recodeは、ポイントクラウドをPythonコードに変換し、実行するとCADモデルを再構築します。
事前に訓練された大型言語モデル(LLMS)のPythonコードへの露出を活用して、CAD-Recodeのデコーダーとして比較的小さなLLMを活用し、それを軽量点クラウドプロジェクターと組み合わせます。
CAD-Recodeは、100万CADシーケンスの手続き的に生成されたデータセットでトレーニングされています。
CAD-Recodeは、DeepCad、Fusion360、および実際のCC3Dデータセット全体で既存のメソッドを大幅に上回ります。
さらに、CAD Pythonコード出力は、既製のLLMSによって解釈可能であり、Point CloudsからのCAD編集とCAD固有の質問を可能にします。

要約(オリジナル)

Computer-Aided Design (CAD) models are typically constructed by sequentially drawing parametric sketches and applying CAD operations to obtain a 3D model. The problem of 3D CAD reverse engineering consists of reconstructing the sketch and CAD operation sequences from 3D representations such as point clouds. In this paper, we address this challenge through novel contributions across three levels: CAD sequence representation, network design, and training dataset. In particular, we represent CAD sketch-extrude sequences as Python code. The proposed CAD-Recode translates a point cloud into Python code that, when executed, reconstructs the CAD model. Taking advantage of the exposure of pre-trained Large Language Models (LLMs) to Python code, we leverage a relatively small LLM as a decoder for CAD-Recode and combine it with a lightweight point cloud projector. CAD-Recode is trained on a procedurally generated dataset of one million CAD sequences. CAD-Recode significantly outperforms existing methods across the DeepCAD, Fusion360 and real-world CC3D datasets. Furthermore, we show that our CAD Python code output is interpretable by off-the-shelf LLMs, enabling CAD editing and CAD-specific question answering from point clouds.

arxiv情報

著者 Danila Rukhovich,Elona Dupont,Dimitrios Mallis,Kseniya Cherenkova,Anis Kacem,Djamila Aouada
発行日 2025-03-11 15:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CAD-Recode: Reverse Engineering CAD Code from Point Clouds はコメントを受け付けていません

Video-to-Audio Generation with Hidden Alignment

要約

ビデオ入力に従って意味的および一時的に整列したオーディオコンテンツを生成することは、特にテキストからビデオへの顕著なブレークスルーに続いて、研究者にとって焦点となっています。
この作業では、ビジョンエンコーダー、補助埋め込み、データ増強技術の3つの重要な側面に焦点を当てた、ビデオからオーディオ世代のパラダイムに関する洞察を提供することを目指しています。
シンプルでありながら驚くほど効果的な直感に基づいて構築された基礎モデルから始めて、アブレーション研究を通じてさまざまなビジョンエンコーダーと補助埋め込みを探ります。
発電の品質とビデオオーディオ同期の調整を強調する包括的な評価パイプラインを採用して、私たちのモデルが最先端のビデオからオーディオ生成機能を示していることを実証します。
さらに、Generation Frameworkの全体的な能力を高める上で、さまざまなデータ増強方法の影響に関する重要な洞察を提供します。
セマンティックおよび時間的観点から同期オーディオを生成するという課題を進める可能性を紹介します。
これらの洞察が、より現実的で正確な視聴覚生成モデルの開発に向けた足がかりとして役立つことを願っています。

要約(オリジナル)

Generating semantically and temporally aligned audio content in accordance with video input has become a focal point for researchers, particularly following the remarkable breakthrough in text-to-video generation. In this work, we aim to offer insights into the video-to-audio generation paradigm, focusing on three crucial aspects: vision encoders, auxiliary embeddings, and data augmentation techniques. Beginning with a foundational model built on a simple yet surprisingly effective intuition, we explore various vision encoders and auxiliary embeddings through ablation studies. Employing a comprehensive evaluation pipeline that emphasizes generation quality and video-audio synchronization alignment, we demonstrate that our model exhibits state-of-the-art video-to-audio generation capabilities. Furthermore, we provide critical insights into the impact of different data augmentation methods on enhancing the generation framework’s overall capacity. We showcase possibilities to advance the challenge of generating synchronized audio from semantic and temporal perspectives. We hope these insights will serve as a stepping stone toward developing more realistic and accurate audio-visual generation models.

arxiv情報

著者 Manjie Xu,Chenxing Li,Xinyi Tu,Yong Ren,Rilin Chen,Yu Gu,Wei Liang,Dong Yu
発行日 2025-03-11 15:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-to-Audio Generation with Hidden Alignment はコメントを受け付けていません

Deformable Mamba for Wide Field of View Segmentation

要約

直線的な計算の複雑さを備えたマンバアーキテクチャの最近の進歩は、二次の複雑さに苦しむトランスアーキテクチャの有望な代替手段です。
既存の作業は主にMAMBAをビジョンエンコーダーに適応させることに焦点を当てていますが、タスク固有のMAMBAデコーダーの重要な役割は、特に歪みが発生しやすい密度の高い予測タスクのために、依然として推奨されていないままです。
このペーパーでは、相互接続された2つの課題に対処します。(1)さまざまなアーキテクチャ(CNN-、Transformer、およびMambaベースのバックボーンなど)にシームレスに適応するマンバベースのデコーダーの設計、および(2)didtorion-aware能力を欠くデコーダーのパフォーマンスのパフォーマンスは、広範囲の画像を処理する際のディストーションアウェア能力を欠くデコーダーのパフォーマンス(E.G.、180 {\ deg}
パノラマ設定)。
Mambaの計算効率を適応的な歪み認識と統合する効率的な歪みアウェアデコーダーであるDeformable Mambaデコーダーを提案します。
5つの広範囲のセグメンテーションベンチマークでの包括的な実験は、その有効性を検証します。
特に、当社のデコーダーは、広く使用されているデコーダーヘッドと比較して、360 {\ deg} Stanford2D3Dセグメンテーションベンチマークで +2.5%のパフォーマンス改善を達成し、72%のパラメーターと97%のフロップを減らします。

要約(オリジナル)

Recent advancements in the Mamba architecture, with its linear computational complexity, being a promising alternative to transformer architectures suffering from quadratic complexity. While existing works primarily focus on adapting Mamba as vision encoders, the critical role of task-specific Mamba decoders remains under-explored, particularly for distortion-prone dense prediction tasks. This paper addresses two interconnected challenges: (1) The design of a Mamba-based decoder that seamlessly adapts to various architectures (e.g., CNN-, Transformer-, and Mamba-based backbones), and (2) The performance degradation in decoders lacking distortion-aware capability when processing wide-FoV images (e.g., 180{\deg} fisheye and 360{\deg} panoramic settings). We propose the Deformable Mamba Decoder, an efficient distortion-aware decoder that integrates Mamba’s computational efficiency with adaptive distortion awareness. Comprehensive experiments on five wide-FoV segmentation benchmarks validate its effectiveness. Notably, our decoder achieves a +2.5% performance improvement on the 360{\deg} Stanford2D3D segmentation benchmark while reducing 72% parameters and 97% FLOPs, as compared to the widely-used decoder heads.

arxiv情報

著者 Jie Hu,Junwei Zheng,Jiale Wei,Jiaming Zhang,Rainer Stiefelhagen
発行日 2025-03-11 16:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Deformable Mamba for Wide Field of View Segmentation はコメントを受け付けていません

Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting

要約

マルチモーダルのマルチエージェント軌跡予測では、2つの主要な課題が完全に取り組まれていません。1)複数のエージェントの予測された軌跡間の相関を引き起こす相互作用モジュールによってもたらされる不確実性を測定する方法。
2)複数の予測をランク付けし、最適な予測軌道を選択する方法。
これらの課題に対処するために、この作業は最初に、相互作用モジュールから生じる不確実性をモデル化する新しい概念、共同不確実性(CU)を提案します。
次に、回帰と不確実性の推定の両方のタスクを実行するために、元の順列等式の不確実性推定器を備えた一般的なCUアウェア回帰フレームワークを構築します。
さらに、提案されたフレームワークを現在のSOTAマルチエージェントマルチモーダル予測システムにプラグインモジュールとして適用します。これにより、SOTAシステムが1)マルチエージェントマルチモーダル軌道予測タスクの不確実性を推定できます。
2)複数の予測をランク付けし、推定不確実性に基づいて最適な予測を選択します。
合成データセットと2つの公開大規模なマルチエージェント軌道予測ベンチマークで広範な実験を実施します。
実験では、次のことが示されています。1)合成データセットでは、Cu-Awareの回帰フレームワークにより、モデルはグラウンドトゥルースラプラスの分布を適切に近似できるようにします。
2)マルチエージェントの軌道予測ベンチマークでは、Cu-Awareの回帰フレームワークは、SOTAシステムがパフォーマンスを向上させるのを着実に支援します。
特に、提案されたフレームワークは、ヌスセンデータセットの選択された最適予測の最終的な変位誤差に関して、Vectornetが262 cmの改善を支援します。
3)マルチエージェントマルチモーダル軌跡予測システムの場合、予測の不確実性は将来の確率と正の相関があります。
4)推定CU値は、エージェント間のインタラクティブな情報に非常に関連しています。

要約(オリジナル)

In multi-modal multi-agent trajectory forecasting, two major challenges have not been fully tackled: 1) how to measure the uncertainty brought by the interaction module that causes correlations among the predicted trajectories of multiple agents; 2) how to rank the multiple predictions and select the optimal predicted trajectory. In order to handle these challenges, this work first proposes a novel concept, collaborative uncertainty (CU), which models the uncertainty resulting from interaction modules. Then we build a general CU-aware regression framework with an original permutation-equivariant uncertainty estimator to do both tasks of regression and uncertainty estimation. Further, we apply the proposed framework to current SOTA multi-agent multi-modal forecasting systems as a plugin module, which enables the SOTA systems to 1) estimate the uncertainty in the multi-agent multi-modal trajectory forecasting task; 2) rank the multiple predictions and select the optimal one based on the estimated uncertainty. We conduct extensive experiments on a synthetic dataset and two public large-scale multi-agent trajectory forecasting benchmarks. Experiments show that: 1) on the synthetic dataset, the CU-aware regression framework allows the model to appropriately approximate the ground-truth Laplace distribution; 2) on the multi-agent trajectory forecasting benchmarks, the CU-aware regression framework steadily helps SOTA systems improve their performances. Specially, the proposed framework helps VectorNet improve by 262 cm regarding the Final Displacement Error of the chosen optimal prediction on the nuScenes dataset; 3) for multi-agent multi-modal trajectory forecasting systems, prediction uncertainty is positively correlated with future stochasticity; and 4) the estimated CU values are highly related to the interactive information among agents.

arxiv情報

著者 Bohan Tang,Yiqi Zhong,Chenxin Xu,Wei-Tao Wu,Ulrich Neumann,Yanfeng Wang,Ya Zhang,Siheng Chen
発行日 2025-03-11 16:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, stat.ML | Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting はコメントを受け付けていません