Uncertainty in Action: Confidence Elicitation in Embodied Agents

要約

自信を表現することは、知覚と意思決定プロセスの両方から不確実性が生じる動的なマルチモーダル環境をナビゲートする具体化されたエージェントにとって困難です。
オープンエンドのマルチモーダル環境における具体化された信頼の誘発を調査する最初の作業を提示します。
誘発性、演ductive、および誘ductiveな推論にわたって信頼評価を構成する誘発ポリシーと、シナリオの再解釈、アクションサンプリング、および仮説的な推論を通じて信頼のキャリブレーションを強化する実行ポリシーを導入します。
Minecraft環境内のキャリブレーションおよび故障予測タスクのエージェントを評価すると、考え方などの構造化された推論アプローチが自信のキャリブレーションを改善することを示します。
しかし、我々の調査結果は、特に誘ductiveな設定の下で、不確実性を区別する際の永続的な課題も明らかにし、より洗練された具体化された信頼誘発方法の必要性を強調しています。

要約(オリジナル)

Expressing confidence is challenging for embodied agents navigating dynamic multimodal environments, where uncertainty arises from both perception and decision-making processes. We present the first work investigating embodied confidence elicitation in open-ended multimodal environments. We introduce Elicitation Policies, which structure confidence assessment across inductive, deductive, and abductive reasoning, along with Execution Policies, which enhance confidence calibration through scenario reinterpretation, action sampling, and hypothetical reasoning. Evaluating agents in calibration and failure prediction tasks within the Minecraft environment, we show that structured reasoning approaches, such as Chain-of-Thoughts, improve confidence calibration. However, our findings also reveal persistent challenges in distinguishing uncertainty, particularly under abductive settings, underscoring the need for more sophisticated embodied confidence elicitation methods.

arxiv情報

著者 Tianjiao Yu,Vedant Shah,Muntasir Wahed,Kiet A. Nguyen,Adheesh Juvekar,Tal August,Ismini Lourentzou
発行日 2025-03-13 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Uncertainty in Action: Confidence Elicitation in Embodied Agents はコメントを受け付けていません

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)はますます人気が高まっていますが、特に視覚トークンからのマルチモーダルデータ入力に関連する高い計算コストは​​、大きな課題をもたらします。
既存のトレーニングベースのトークン圧縮方法は、推論効率を改善しますが、費用のかかる再訓練が必要ですが、トレーニングなしの方法は、トークンカウントを積極的に削減するときにパフォーマンスを維持するのに苦労しています。
この研究では、MLLMのパフォーマンス低下が、注意出力マトリックス内の情報の喪失の喪失と密接に相関することを明らかにします。
この洞察は、新しい情報提供の視点を紹介し、極端なトークン圧縮の下でもパフォーマンスを維持することを可能にします。
この発見に基づいて、Tokencarveは、トレーニングのないプラグアンドプレイの2段階トークン圧縮フレームワークであると提案します。
第1段階では、情報調達ガイド付きの選択(IPGS)戦略を採用して低情報のトークンを剪定しますが、第2段階ではIPGを活用してトークンの合併をガイドし、情報の損失を最小限に抑えます。
11のデータセットと2つのモデルバリアントでの広範な実験は、Tokencarveの有効性を示しています。
視覚トークンの数を元のカウントの22.2%に減らすことさえでき、推論が1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度が1.54%だけ低下します。
私たちのコードは、https://github.com/shawntan86/tokencarveで入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are becoming increasingly popular, while the high computational cost associated with multimodal data input, particularly from visual tokens, poses a significant challenge. Existing training-based token compression methods improve inference efficiency but require costly retraining, while training-free methods struggle to maintain performance when aggressively reducing token counts. In this study, we reveal that the performance degradation of MLLM closely correlates with the accelerated loss of information in the attention output matrix. This insight introduces a novel information-preserving perspective, making it possible to maintain performance even under extreme token compression. Based on this finding, we propose TokenCarve, a training-free, plug-and-play, two-stage token compression framework. The first stage employs an Information-Preservation-Guided Selection (IPGS) strategy to prune low-information tokens, while the second stage further leverages IPGS to guide token merging, minimizing information loss. Extensive experiments on 11 datasets and 2 model variants demonstrate the effectiveness of TokenCarve. It can even reduce the number of visual tokens to 22.2% of the original count, achieving a 1.23x speedup in inference, a 64% reduction in KV cache storage, and only a 1.54% drop in accuracy. Our code is available at https://github.com/ShawnTan86/TokenCarve.

arxiv情報

著者 Xudong Tan,Peng Ye,Chongjun Tu,Jianjian Cao,Yaoxin Yang,Lin Zhang,Dongzhan Zhou,Tao Chen
発行日 2025-03-13 16:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models はコメントを受け付けていません

Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction

要約

画像の異常検出(IAD)の領域では、既存の方法はしばしば細粒の解釈可能なセマンティック情報の不足を示し、その結果、機械の幻想に敏感な異常なエンティティまたは活動が検出されます。
この欠陥は、しばしば、機械の幻想に敏感で十分な説明がない異常なエンティティまたは行動の検出につながります。
この論文では、HOI2ANOMALYと呼ばれる異常検出への新しいアプローチを提案します。これは、異常の正確な差別と局在を達成することを目的としています。
提案された方法論には、異常なシナリオでのヒトオブジェクト相互作用(HOI)ペアを含むマルチモーダル命令チューニングデータセットの構築が含まれます。
第二に、脅威シナリオでHOI抽出器を訓練し、異常なアクションとエンティティをローカライズし、一致させました。
最後に、視覚言語の事前トレーニング(VLP)フレームワークを微調整することにより、検出された異常なHOIの説明コンテンツが生成されます。
実験結果は、HOI2ANOMALYが精度と説明可能性の観点から既存の生成アプローチを上回ることを示しています。
異常検出の分野の進歩のためにHOI2ANOMALYを放出します。

要約(オリジナル)

In the domain of Image Anomaly Detection (IAD), Existing methods frequently exhibit a paucity of fine-grained, interpretable semantic information, resulting in the detection of anomalous entities or activities that are susceptible to machine illusions. This deficiency often leads to the detection of anomalous entities or actions that are susceptible to machine illusions and lack sufficient explanation. In this thesis, we propose a novel approach to anomaly detection, termed Hoi2Anomaly, which aims to achieve precise discrimination and localization of anomalies. The proposed methodology involves the construction of a multi-modal instruction tuning dataset comprising human-object interaction (HOI) pairs in anomalous scenarios. Second, we have trained an HOI extractor in threat scenarios to localize and match anomalous actions and entities. Finally, explanatory content is generated for the detected anomalous HOI by fine-tuning the visual language pretraining (VLP) framework. The experimental results demonstrate that Hoi2Anomaly surpasses existing generative approaches in terms of precision and explainability. We will release Hoi2Anomaly for the advancement of the field of anomaly detection.

arxiv情報

著者 Yuhan Wang,Cheng Liu,Daou Zhang,Weichao Wu
発行日 2025-03-13 16:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hoi2Anomaly: An Explainable Anomaly Detection Approach Guided by Human-Object Interaction はコメントを受け付けていません

CountPath: Automating Fragment Counting in Digital Pathology

要約

医療画像の品質管理は、デジタル病理の重要な要素であり、診断画像が必要な基準を満たすことを保証します。
このプロセス内の分析前のタスクは、標本フラグメントの数の検証です。これは、スライド上のフラグメントの数が巨視的なレポートで文書化された数と一致するようにするプロセスです。
このステップは、スライドにグロスプロセスから適切な診断資料が含まれていることを確認するために重要です。これにより、その後の顕微鏡検査と診断の精度を保証します。
伝統的に、この評価は手動で実行され、主観的な性質のために大きな変動を受けながら、かなりの時間と労力が必要でした。
これらの課題に対処するために、この研究では、Yolov9およびVision Transformerモデルを使用して、フラグメントカウントへの自動化されたアプローチを調査します。
私たちの結果は、自動化されたシステムが専門家の評価に匹敵するパフォーマンスのレベルを達成し、手動カウントに代わる信頼性が高く効率的な代替品を提供することを示しています。
さらに、自動化されたアプローチが86%の精度を達成し、専門家の間で観察される変動の範囲内に収まることを示していることを示していることを示しています(82〜88%)。

要約(オリジナル)

Quality control of medical images is a critical component of digital pathology, ensuring that diagnostic images meet required standards. A pre-analytical task within this process is the verification of the number of specimen fragments, a process that ensures that the number of fragments on a slide matches the number documented in the macroscopic report. This step is important to ensure that the slides contain the appropriate diagnostic material from the grossing process, thereby guaranteeing the accuracy of subsequent microscopic examination and diagnosis. Traditionally, this assessment is performed manually, requiring significant time and effort while being subject to significant variability due to its subjective nature. To address these challenges, this study explores an automated approach to fragment counting using the YOLOv9 and Vision Transformer models. Our results demonstrate that the automated system achieves a level of performance comparable to expert assessments, offering a reliable and efficient alternative to manual counting. Additionally, we present findings on interobserver variability, showing that the automated approach achieves an accuracy of 86%, which falls within the range of variation observed among experts (82-88%), further supporting its potential for integration into routine pathology workflows.

arxiv情報

著者 Ana Beatriz Vieira,Maria Valente,Diana Montezuma,Tomé Albuquerque,Liliana Ribeiro,Domingos Oliveira,João Monteiro,Sofia Gonçalves,Isabel M. Pinto,Jaime S. Cardoso,Arlindo L. Oliveira
発行日 2025-03-13 16:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | CountPath: Automating Fragment Counting in Digital Pathology はコメントを受け付けていません

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

要約

継続的な視覚情報をモデル化するための自己回帰パラダイムと拡散パラダイムを革新的に組み合わせた、新しい自己回帰ブロックごとの条件付き拡散トランスであるACDITを提示します。
ブロックワイズの自己回帰ユニットを導入することにより、ACDITは、離散トークン化の制限をバイパスして、トークンごとの自己収集と完全なシーケンス拡散の間の柔軟な補間を提供します。
各ブロックの生成は、前のブロックを条件付けられた条件付き拡散プロセスとして定式化されます。
ACDITは、トレーニング中に標準の拡散トランスにスキップ因子注意マスク(詐欺)を作成するのと同じくらい簡単に実装できます。
推論中、プロセスは、KVキャッシュを最大限に活用できる拡散除去と自己回帰デコードの間を反復します。
ACDITは、画像およびビデオ生成タスクの同様のモデルスケールの下で、すべての自己回帰ベースラインの中で最適なパフォーマンスを発揮することを示しています。
また、自己回帰モデリングの恩恵を受けると、拡散目標で訓練されているにもかかわらず、視覚的理解タスクで前処理されたACDITを転送できることを実証します。
自己回帰モデリングと拡散のトレードオフの分析は、長老視覚生成タスクで使用されるACDITの可能性を示しています。
ACDITは、視覚的な自己回帰の生成に関する新しい視点を提供し、統一されたモデルの新しい道のロックを解除することを願っています。

要約(オリジナル)

We present ACDiT, a novel Autoregressive blockwise Conditional Diffusion Transformer, that innovatively combines autoregressive and diffusion paradigms for modeling continuous visual information. By introducing a block-wise autoregressive unit, ACDiT offers a flexible interpolation between token-wise autoregression and full-sequence diffusion, bypassing the limitations of discrete tokenization. The generation of each block is formulated as a conditional diffusion process, conditioned on prior blocks. ACDiT is easy to implement, as simple as creating a Skip-Causal Attention Mask (SCAM) on standard diffusion transformer during training. During inference, the process iterates between diffusion denoising and autoregressive decoding that can make full use of KV-Cache. We show that ACDiT performs best among all autoregressive baselines under similar model scales on image and video generation tasks. We also demonstrate that benefiting from autoregressive modeling, pretrained ACDiT can be transferred in visual understanding tasks despite being trained with the diffusion objective. The analysis of the trade-off between autoregressive modeling and diffusion demonstrates the potential of ACDiT to be used in long-horizon visual generation tasks. We hope that ACDiT offers a novel perspective on visual autoregressive generation and unlocks new avenues for unified models.

arxiv情報

著者 Jinyi Hu,Shengding Hu,Yuxuan Song,Yufei Huang,Mingxuan Wang,Hao Zhou,Zhiyuan Liu,Wei-Ying Ma,Maosong Sun
発行日 2025-03-13 16:29:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約

オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上していますが、既存のアプローチは大きな制限に直面しています。それらは、モダリティ全体で統一された機能なしで単独で動作し、高品質のマルチモーダルトレーニングデータに苦しみ、多様な入力を効果的に統合するのに苦労します。
この作業では、あらゆるものと音楽生成のための統一された拡散トランスモデルであるAudioxを提案します。
以前のドメイン固有のモデルとは異なり、Audioxは一般的なオーディオと音楽の両方を高品質の音楽と生成でき、テキスト、ビデオ、画像、音楽、オーディオなどのさまざまなモダリティの柔軟な自然言語制御とシームレスな処理を提供します。
その重要な革新は、モダリティ全体の入力をマスクし、マスクされた入力からモデルを学習させ、堅牢で統一されたクロスモーダル表現を生み出すマルチモーダルマスクトレーニング戦略です。
データ不足に対処するために、VGGSoundデータセットに基づいた190Kオーディオキャプションを備えたVggSound-Capsと、V2Mデータセットから派生した600万の音楽キャプションを備えたV2Mキャップの2つの包括的なデータセットをキュレートします。
広範な実験は、オーディオックスが最先端の専門モデルに一致またはパフォーマンスするだけでなく、統一されたアーキテクチャ内の多様な入力モダリティと生成タスクの処理において顕著な汎用性を提供することを示しています。
コードとデータセットはhttps://zeyuet.github.io/audiox/で入手できます

要約(オリジナル)

Audio and music generation have emerged as crucial tasks in many applications, yet existing approaches face significant limitations: they operate in isolation without unified capabilities across modalities, suffer from scarce high-quality, multi-modal training data, and struggle to effectively integrate diverse inputs. In this work, we propose AudioX, a unified Diffusion Transformer model for Anything-to-Audio and Music Generation. Unlike previous domain-specific models, AudioX can generate both general audio and music with high quality, while offering flexible natural language control and seamless processing of various modalities including text, video, image, music, and audio. Its key innovation is a multi-modal masked training strategy that masks inputs across modalities and forces the model to learn from masked inputs, yielding robust and unified cross-modal representations. To address data scarcity, we curate two comprehensive datasets: vggsound-caps with 190K audio captions based on the VGGSound dataset, and V2M-caps with 6 million music captions derived from the V2M dataset. Extensive experiments demonstrate that AudioX not only matches or outperforms state-of-the-art specialized models, but also offers remarkable versatility in handling diverse input modalities and generation tasks within a unified architecture. The code and datasets will be available at https://zeyuet.github.io/AudioX/

arxiv情報

著者 Zeyue Tian,Yizhu Jin,Zhaoyang Liu,Ruibin Yuan,Xu Tan,Qifeng Chen,Wei Xue,Yike Guo
発行日 2025-03-13 16:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

Interactive Multimodal Fusion with Temporal Modeling

要約

この論文では、第8回の感情的行動分析(ABAW)競争における価数覚醒(VA)の推定の方法を提示します。
当社のアプローチは、マルチモーダルフレームワークを通じて視覚情報とオーディオ情報を統合します。
視覚ブランチは、事前に訓練されたResNetモデルを使用して、顔の画像から空間的特徴を抽出します。
オーディオブランチは、事前に訓練されたVGGモデルを使用して、音声信号からVGGISHおよびLOGMEL機能を抽出します。
これらの機能は、時間的畳み込みネットワーク(TCNS)を使用して時間モデリングを受けます。
次に、クロスモーダルの注意メカニズムを適用します。ここでは、視覚的な機能がクエリキー価値の注意構造を介してオーディオ機能と相互作用します。
最後に、特徴は連結され、回帰層を通過して、価数と覚醒を予測します。
私たちの方法は、AFF-Wild2データセットで競争力のあるパフォーマンスを達成し、野生のVA推定のための効果的なマルチモーダル融合を実証します。

要約(オリジナル)

This paper presents our method for the estimation of valence-arousal (VA) in the 8th Affective Behavior Analysis in-the-Wild (ABAW) competition. Our approach integrates visual and audio information through a multimodal framework. The visual branch uses a pre-trained ResNet model to extract spatial features from facial images. The audio branches employ pre-trained VGG models to extract VGGish and LogMel features from speech signals. These features undergo temporal modeling using Temporal Convolutional Networks (TCNs). We then apply cross-modal attention mechanisms, where visual features interact with audio features through query-key-value attention structures. Finally, the features are concatenated and passed through a regression layer to predict valence and arousal. Our method achieves competitive performance on the Aff-Wild2 dataset, demonstrating effective multimodal fusion for VA estimation in-the-wild.

arxiv情報

著者 Jun Yu,Yongqi Wang,Lei Wang,Yang Zheng,Shengfan Xu
発行日 2025-03-13 16:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Interactive Multimodal Fusion with Temporal Modeling はコメントを受け付けていません

NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval

要約

クロスモーダル検索は、視覚データやテキストデータなど、さまざまなモダリティ間のセマンティックギャップを埋めることを目的としており、それらを横切る正確な検索を可能にします。
クロスモーダル表現を調整するクリップなどのモデルでの大幅な進歩にもかかわらず、持続的な課題が残っています。サンプルの小さなサブセット(ハブ)が最近隣接するように支配し、偏った表現と劣化した検索精度につながります。
既存の方法は、多くの場合、実際のシナリオでは実用的ではない可能性のある以前のデータ分布に依存して、事後正規化手法を通して覆いを緩和します。
この論文では、トレーニング中にハブネスを直接緩和し、近隣のハブの学習を効果的にバランスさせ、さまざまな種類の隣人の関係を適応的に調整する新しい方法を導入します。
私たちのアプローチは、ハブネスの問題を軽減するだけでなく、検索パフォーマンスを向上させ、複数のクロスモーダル検索ベンチマークで最先端の結果を達成します。
さらに、Neighborretrは、実質的な分布シフトを備えた新しいドメインへの堅牢な一般化を実証し、実際のアプリケーションにおけるその有効性を強調しています。
コードをhttps://github.com/zzezze/neighborretrで公開しています。

要約(オリジナル)

Cross-modal retrieval aims to bridge the semantic gap between different modalities, such as visual and textual data, enabling accurate retrieval across them. Despite significant advancements with models like CLIP that align cross-modal representations, a persistent challenge remains: the hubness problem, where a small subset of samples (hubs) dominate as nearest neighbors, leading to biased representations and degraded retrieval accuracy. Existing methods often mitigate hubness through post-hoc normalization techniques, relying on prior data distributions that may not be practical in real-world scenarios. In this paper, we directly mitigate hubness during training and introduce NeighborRetr, a novel method that effectively balances the learning of hubs and adaptively adjusts the relations of various kinds of neighbors. Our approach not only mitigates the hubness problem but also enhances retrieval performance, achieving state-of-the-art results on multiple cross-modal retrieval benchmarks. Furthermore, NeighborRetr demonstrates robust generalization to new domains with substantial distribution shifts, highlighting its effectiveness in real-world applications. We make our code publicly available at: https://github.com/zzezze/NeighborRetr .

arxiv情報

著者 Zengrong Lin,Zheng Wang,Tianwen Qian,Pan Mu,Sixian Chan,Cong Bai
発行日 2025-03-13 16:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval はコメントを受け付けていません

How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction?

要約

加速MRIの再構築は、不適切な問題です。
機械学習は最近、このタスクに大きな期待を示していますが、不確実性を定量化するための現在のアプローチは、pixelwise強度の変動の変動性を測定することに焦点を当てています。
これらは解釈可能なマップを提供しますが、構造的理解がなく、その後のデータがどのように分析されるかと明確な関係がありません。
この論文では、一般的なダウンストリームタスクにより密接に関連する再構築の見かけの解剖学的変化に基づいて、再構成の変動を評価するための新しいアプローチを提案します。
画像の登録とセグメンテーションを使用して、いくつかの一般的なMRI再構成アプローチを評価します。ここで、アンサンミングを介して不確実性が測定され、加速されたイメージングが測定されます。
再構築された画像の本質的な変動性を示し、SSIMやPSNRなどの頻繁に使用される品質メトリックで高いスコアを持つモデルが、それにもかかわらず、解剖学的測定に高いレベルの分散とバイアスを表示できることを示しています。

要約(オリジナル)

Reconstructing accelerated MRI is an ill-posed problem. Machine learning has recently shown great promise at this task, but current approaches to quantifying uncertainty focus on measuring the variability in pixelwise intensity variation. Although these provide interpretable maps, they lack structural understanding and they do not have a clear relationship to how the data will be analysed subsequently. In this paper, we propose a new approach to evaluating reconstruction variability based on apparent anatomical changes in the reconstruction, which is more tightly related to common downstream tasks. We use image registration and segmentation to evaluate several common MRI reconstruction approaches, where uncertainty is measured via ensembling, for accelerated imaging. We demonstrate the intrinsic variability in reconstructed images and show that models with high scores on often used quality metrics such as SSIM and PSNR, can nonetheless display high levels of variance and bias in anatomical measures.

arxiv情報

著者 Luca Trautmann,Peter Wijeratne,Itamar Ronen,Ivor Simpson
発行日 2025-03-13 16:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, physics.med-ph | How Should We Evaluate Uncertainty in Accelerated MRI Reconstruction? はコメントを受け付けていません

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

要約

3Dマルチモーダル大手言語モデル(MLLM)は最近、実質的な進歩を遂げました。
ただし、主に3Dデータセットの量と準最適品質が限られているため、それらの可能性は未開拓のままです。
現在のアプローチは、2D MLLMSから知識を転送して3D命令データを拡大しようとしますが、モダリティとドメインのギャップに直面しています。
この目的のために、3D Spatial Semanticsで濃縮された指導ポイント言語データセットを生成するための新しいフレームワークであるPisa-Engine(Point-self-augmented-engine)を紹介します。
既存の3D MLLMは、注釈のための点雲の包括的な理解を提供し、2D MLLMSは補完的な情報を提供することで相互検証に優れていることを観察します。
PISA-Engineは、既製のMLLMSからの全体的な2Dおよび3Dの洞察を統合することにより、高品質のデータ生成の連続サイクルを可能にします。
Pointllmをベースラインとして選択し、この共進化トレーニングフレームワークを採用して、Pointllm-PISAと呼ばれる強化された3D MLLMを開発します。
さらに、以前の3Dベンチマークの制限を特定します。これは、粗い言語キャプションとカテゴリの多様性が不十分なことが多く、不正確な評価をもたらします。
このギャップに対処するために、詳細で多様なラベルを備えた6つの重要な側面をカバーする包括的な3DベンチマークであるPisa-Benchをさらに紹介します。
実験結果は、Pointllm-PISAのゼロショット3DオブジェクトキャプションとPISAベンチの生成分類における最先端のパフォーマンスを示しており、それぞれ46.45%(+8.33%)と63.75%(+16.25%)の大幅な改善を達成しています。
コード、データセット、ベンチマークをリリースします。

要約(オリジナル)

3D Multimodal Large Language Models (MLLMs) have recently made substantial advancements. However, their potential remains untapped, primarily due to the limited quantity and suboptimal quality of 3D datasets. Current approaches attempt to transfer knowledge from 2D MLLMs to expand 3D instruction data, but still face modality and domain gaps. To this end, we introduce PiSA-Engine (Point-Self-Augmented-Engine), a new framework for generating instruction point-language datasets enriched with 3D spatial semantics. We observe that existing 3D MLLMs offer a comprehensive understanding of point clouds for annotation, while 2D MLLMs excel at cross-validation by providing complementary information. By integrating holistic 2D and 3D insights from off-the-shelf MLLMs, PiSA-Engine enables a continuous cycle of high-quality data generation. We select PointLLM as the baseline and adopt this co-evolution training framework to develop an enhanced 3D MLLM, termed PointLLM-PiSA. Additionally, we identify limitations in previous 3D benchmarks, which often feature coarse language captions and insufficient category diversity, resulting in inaccurate evaluations. To address this gap, we further introduce PiSA-Bench, a comprehensive 3D benchmark covering six key aspects with detailed and diverse labels. Experimental results demonstrate PointLLM-PiSA’s state-of-the-art performance in zero-shot 3D object captioning and generative classification on our PiSA-Bench, achieving significant improvements of 46.45% (+8.33%) and 63.75% (+16.25%), respectively. We will release the code, datasets, and benchmark.

arxiv情報

著者 Zilu Guo,Hongbin Lin,Zhihao Yuan,Chaoda Zheng,Pengshuo Qiu,Dongzhi Jiang,Renrui Zhang,Chun-Mei Feng,Zhen Li
発行日 2025-03-13 16:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models はコメントを受け付けていません