ActionStudio: A Lightweight Framework for Data and Training of Action Models

要約

アクションモデルは、自律エージェントが複雑なタスクを実行できるようにするために不可欠です。
ただし、エージェント環境の多様性とエージェントデータの複雑さにより、大規模なアクションモデルのトレーニングは依然として困難です。
関心が高まっているにもかかわらず、既存のインフラストラクチャは、スケーラブルなエージェント固有の微調整に対する限られたサポートを提供します。
アクションモデル向けに設計された軽量で拡張可能なデータおよびトレーニングフレームワークであるActionStudioを提示します。
ActionStudioは、標準化された形式を介して不均一なエージェントの軌跡を統合し、LORA、完全な微調整、分散セットアップなどの多様なトレーニングパラダイムをサポートし、堅牢な前処理と検証ツールを統合します。
公共および現実的な業界の両方のベンチマークにわたるその有効性を検証し、強力なパフォーマンスと実用的なスケーラビリティを示しています。
コミュニティでの研究を促進するために、https://github.com/salesforceairesearch/xlamでコードとデータをオープンしました。

要約(オリジナル)

Action models are essential for enabling autonomous agents to perform complex tasks. However, training large action models remains challenging due to the diversity of agent environments and the complexity of agentic data. Despite growing interest, existing infrastructure provides limited support for scalable, agent-specific fine-tuning. We present ActionStudio, a lightweight and extensible data and training framework designed for action models. ActionStudio unifies heterogeneous agent trajectories through a standardized format, supports diverse training paradigms including LoRA, full fine-tuning, and distributed setups, and integrates robust preprocessing and verification tools. We validate its effectiveness across both public and realistic industry benchmarks, demonstrating strong performance and practical scalability. We open-sourced code and data at https://github.com/SalesforceAIResearch/xLAM to facilitate research in the community.

arxiv情報

著者 Jianguo Zhang,Thai Hoang,Ming Zhu,Zuxin Liu,Shiyu Wang,Tulika Awalgaonkar,Akshara Prabhakar,Haolin Chen,Weiran Yao,Zhiwei Liu,Juntao Tan,Juan Carlos Niebles,Shelby Heinecke,Huan Wang,Silvio Savarese,Caiming Xiong
発行日 2025-03-28 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ActionStudio: A Lightweight Framework for Data and Training of Action Models はコメントを受け付けていません

QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks?

要約

最近、大量の作業により、数学やロジックなどのベンチマークの推論に関する大規模な言語モデル(LLMS ‘)のパフォーマンスの改善に焦点を当てています。
しかし、過去の仕事は、タスクが明確に定義されていると主に想定しています。
現実の世界では、LLMSへの質問はしばしば不足しており、欠落している情報を取得することによってのみ解決できます。
これは、変数割り当てが欠落している制約満足度の問題(CSP)として正式化します。
必要な変数割り当てのみが欠落しているこの形式主義の特殊なケースを使用して、各問題の難易度の軸を尋ねて定量化するために必要な最小限の質問を特定するLLMの能力を厳密に評価できます。
We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of
GSM-Q単語の問題がヒトのアノテーターによって方程式に変換される場合。
LLMは、オプションのリストから正しい明確化の質問を選択することを任されています。
最先端のモデルはGSM-QおよびGSME-Qで優れていますが、それらの精度はLogic-QおよびPlanning-Qでわずか40〜50%です。
分析は、適切に指定された推論問題を解決する能力は、ベンチマークで成功するのに十分ではないかもしれないことを示しています。モデルは、問題の完全に指定されたバージョンを解決できる場合でも、正しい質問を識別するのが困難です。
さらに、Planning-Qドメインでは、LLMは「わからない」と予測するオプションを明示的に提示したとしても、ヘッジしない傾向があります。これは、モデルの情報収集機能をより深く調査する必要性を強調しています。

要約(オリジナル)

Recently, a large amount of work has focused on improving large language models’ (LLMs’) performance on reasoning benchmarks such as math and logic. However, past work has largely assumed that tasks are well-defined. In the real world, queries to LLMs are often underspecified, only solvable through acquiring missing information. We formalize this as a constraint satisfaction problem (CSP) with missing variable assignments. Using a special case of this formalism where only one necessary variable assignment is missing, we can rigorously evaluate an LLM’s ability to identify the minimal necessary question to ask and quantify axes of difficulty levels for each problem. We present QuestBench, a set of underspecified reasoning tasks solvable by asking at most one question, which includes: (1) Logic-Q: Logical reasoning tasks with one missing proposition, (2) Planning-Q: PDDL planning problems with initial states that are partially-observed, (3) GSM-Q: Human-annotated grade school math problems with one missing variable assignment, and (4) GSME-Q: a version of GSM-Q where word problems are translated into equations by human annotators. The LLM is tasked with selecting the correct clarification question(s) from a list of options. While state-of-the-art models excel at GSM-Q and GSME-Q, their accuracy is only 40-50% on Logic-Q and Planning-Q. Analysis demonstrates that the ability to solve well-specified reasoning problems may not be sufficient for success on our benchmark: models have difficulty identifying the right question to ask, even when they can solve the fully specified version of the problem. Furthermore, in the Planning-Q domain, LLMs tend not to hedge, even when explicitly presented with the option to predict “not sure.” This highlights the need for deeper investigation into models’ information acquisition capabilities.

arxiv情報

著者 Belinda Z. Li,Been Kim,Zi Wang
発行日 2025-03-28 17:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks? はコメントを受け付けていません

Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation

要約

シーケンシャル推奨(SEQREC)は、ユーザーの歴史的相互作用からシーケンシャルパターンをキャプチャし、多くの実際の推奨システムで重要な役割を果たすことにより、次の項目を予測することを目的としています。
ただし、既存のアプローチは、主に直接的なフォワード計算パラダイムを採用しています。ここでは、シーケンスエンコーダの最終的な隠された状態がユーザー表現として機能します。
この推論パラダイムは、計算の深さが限られているため、ユーザーの好みの複雑な進化性の性質をモデル化するのに苦労し、長期尾アイテムの微妙な理解を欠いて、最適ではないパフォーマンスにつながると主張します。
この問題に対処するために、暗黙のマルチステップ推論を通じてユーザー表現を強化する推奨システムの最初の推論時間コンピューティングフレームワークである\ textBf {Recec}を提案します。
具体的には、Recherecは、マルチステップ推論スペースからスペースをエンコードする元のアイテムを分離するための特別な推論位置の埋め込みを組み込んでいる間、シーケンスの最後の隠し状態をシーケンシャルな推奨に自動網羅してフィードします。
さらに、2つの軽量の推論ベースの学習方法、アンサンブル推論学習(ERL)と進歩的な推論学習(PRL)を導入して、ReceCの推論の可能性をさらに活用します。
5つの公開現実世界のデータセットとさまざまなSEQRECアーキテクチャに関する広範な実験は、提案されたREECの一般性と有効性を示しています。
驚くべきことに、事後分析により、RECECは複数の連続的な推奨バックボーンの性能上限を約30 \%-50 \%増加させることが明らかになりました。
したがって、この作業は、連続的な推奨のための推論時間コンピューティングの将来の研究のための新しい有望な手段を開くことができると考えています。

要約(オリジナル)

Sequential Recommendation (SeqRec) aims to predict the next item by capturing sequential patterns from users’ historical interactions, playing a crucial role in many real-world recommender systems. However, existing approaches predominantly adopt a direct forward computation paradigm, where the final hidden state of the sequence encoder serves as the user representation. We argue that this inference paradigm, due to its limited computational depth, struggles to model the complex evolving nature of user preferences and lacks a nuanced understanding of long-tail items, leading to suboptimal performance. To address this issue, we propose \textbf{ReaRec}, the first inference-time computing framework for recommender systems, which enhances user representations through implicit multi-step reasoning. Specifically, ReaRec autoregressively feeds the sequence’s last hidden state into the sequential recommender while incorporating special reasoning position embeddings to decouple the original item encoding space from the multi-step reasoning space. Moreover, we introduce two lightweight reasoning-based learning methods, Ensemble Reasoning Learning (ERL) and Progressive Reasoning Learning (PRL), to further effectively exploit ReaRec’s reasoning potential. Extensive experiments on five public real-world datasets and different SeqRec architectures demonstrate the generality and effectiveness of our proposed ReaRec. Remarkably, post-hoc analyses reveal that ReaRec significantly elevates the performance ceiling of multiple sequential recommendation backbones by approximately 30\%-50\%. Thus, we believe this work can open a new and promising avenue for future research in inference-time computing for sequential recommendation.

arxiv情報

著者 Jiakai Tang,Sunhao Dai,Teng Shi,Jun Xu,Xu Chen,Wen Chen,Wu Jian,Yuning Jiang
発行日 2025-03-28 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation はコメントを受け付けていません

DF-Net: The Digital Forensics Network for Image Forgery Detection

要約

特に操作された画像を介した世論のオーケストレーションされた操作は、しばしばオンラインソーシャルネットワーク(OSN)を介して広がることがあり、社会にとって深刻な脅威になっています。
このペーパーでは、ピクセルごとの画像偽造検出のための深いニューラルネットワークであるDigital Forensics Net(DF-NET)を紹介します。
リリースされたモデルは、4つの確立されたベンチマークデータセットでいくつかの最先端の方法を上回ります。
最も注目すべきは、DF-NETの検出は、ソーシャルネットワークによって自動的に実行されるため、損失のある画像操作(サイズ変更、圧縮など)に対して堅牢です。

要約(オリジナル)

The orchestrated manipulation of public opinion, particularly through manipulated images, often spread via online social networks (OSN), has become a serious threat to society. In this paper we introduce the Digital Forensics Net (DF-Net), a deep neural network for pixel-wise image forgery detection. The released model outperforms several state-of-the-art methods on four established benchmark datasets. Most notably, DF-Net’s detection is robust against lossy image operations (e.g resizing, compression) as they are automatically performed by social networks.

arxiv情報

著者 David Fischinger,Martin Boyer
発行日 2025-03-28 13:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DF-Net: The Digital Forensics Network for Image Forgery Detection はコメントを受け付けていません

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

要約

ニューラルネットワークは、複雑で挑戦的なタスクを解決するために広く採用されています。
特にハイステークスの意思決定では、彼らの推論プロセスを理解することは非常に重要ですが、現代の深いネットワークにとって挑戦的であることが証明されています。
特徴視覚化(FV)は、ニューロンがどの情報に応答しているかを解読し、したがって、そのようなネットワークの背後にある理由をよりよく理解するための強力なツールです。
特に、FVでは、関心のあるニューロンによって検出された情報を反映する人間に理解できる画像を生成します。
ただし、現在の方法は、人間にとって理解しにくい繰り返しパターンと視覚的アーティファクトを示す認識できない視覚化をしばしば生成します。
これらの問題に対処するために、関連するネットワークフローの尺度と組み合わせて、プロトタイプ画像を生成する実際の画像機能の統計を介してFVをガイドすることを提案します。
私たちのアプローチは、さまざまなアーキテクチャ全体の最先端のFVよりも定性的および定量的に改善する人間に理解できる視覚化をもたらします。
そのため、ネットワークが使用する情報をデコードするために使用でき、エンコードされた場所を識別する機械的回路を補完します。
コードは、https://github.com/adagorgun/vitalで入手できます

要約(オリジナル)

Neural networks are widely adopted to solve complex and challenging tasks. Especially in high-stakes decision-making, understanding their reasoning process is crucial, yet proves challenging for modern deep networks. Feature visualization (FV) is a powerful tool to decode what information neurons are responding to and hence to better understand the reasoning behind such networks. In particular, in FV we generate human-understandable images that reflect the information detected by neurons of interest. However, current methods often yield unrecognizable visualizations, exhibiting repetitive patterns and visual artifacts that are hard to understand for a human. To address these problems, we propose to guide FV through statistics of real image features combined with measures of relevant network flow to generate prototypical images. Our approach yields human-understandable visualizations that both qualitatively and quantitatively improve over state-of-the-art FVs across various architectures. As such, it can be used to decode which information the network uses, complementing mechanistic circuits that identify where it is encoded. Code is available at: https://github.com/adagorgun/VITAL

arxiv情報

著者 Ada Gorgun,Bernt Schiele,Jonas Fischer
発行日 2025-03-28 13:08:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow はコメントを受け付けていません

Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks

要約

手続き活動におけるエラー検出は、ARアシストおよびロボットシステムの一貫した正しい結果に不可欠です。
既存の方法は、通常のアクションを表すために時間的な順序付けエラーに焦点を当てたり、静的プロトタイプに依存したりすることがよくあります。
ただし、これらのアプローチは通常、実行されたアクションの特定のシーケンスに従って複数の異なるアクションが有効である共通シナリオを見落としています。
これにより、2つの問題が発生します。(1)推論環境またはアクション実行分布がトレーニングとは異なる場合、モデルは静的プロトタイプを使用してエラーを効果的に検出できません。
(2)進行中のアクションラベルが予測されたものと同じでない場合、モデルは間違ったプロトタイプを使用してエラーを検出する場合があります。
この問題に対処するために、適応型複数の通常のアクション表現(AMNAR)フレームワークを提案します。
Amnarは、すべての有効な次のアクションを予測し、対応する通常のアクション表現を再構築します。これは、進行中のアクションと比較してエラーを検出します。
広範な実験は、Amnarが最先端のパフォーマンスを達成し、Amnarの有効性とエラー検出における複数の有効な次のアクションをモデル化することの重要性を強調することを示しています。
このコードは、https://github.com/isee-laboratory/amnarで入手できます。

要約(オリジナル)

Error detection in procedural activities is essential for consistent and correct outcomes in AR-assisted and robotic systems. Existing methods often focus on temporal ordering errors or rely on static prototypes to represent normal actions. However, these approaches typically overlook the common scenario where multiple, distinct actions are valid following a given sequence of executed actions. This leads to two issues: (1) the model cannot effectively detect errors using static prototypes when the inference environment or action execution distribution differs from training; and (2) the model may also use the wrong prototypes to detect errors if the ongoing action label is not the same as the predicted one. To address this problem, we propose an Adaptive Multiple Normal Action Representation (AMNAR) framework. AMNAR predicts all valid next actions and reconstructs their corresponding normal action representations, which are compared against the ongoing action to detect errors. Extensive experiments demonstrate that AMNAR achieves state-of-the-art performance, highlighting the effectiveness of AMNAR and the importance of modeling multiple valid next actions in error detection. The code is available at https://github.com/iSEE-Laboratory/AMNAR.

arxiv情報

著者 Wei-Jin Huang,Yuan-Ming Li,Zhi-Wei Xia,Yu-Ming Tang,Kun-Yu Lin,Jian-Fang Hu,Wei-Shi Zheng
発行日 2025-03-28 13:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks はコメントを受け付けていません

ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer

要約

影は、画像の明るさの低下、テクスチャの劣化、色の歪みなどの課題を導入し、全体的な解決策を複雑にします。
この研究は、元のタスクを輝度の回復と色の治療に分解することでこれらの複雑さに取り組む分裂と征服戦略である\ textBf {Shadowhack}を示しています。
シャドウ領域を明るくし、輝度空間の破損したテクスチャを修復するために、整流された注意モジュールを備えたU字型ネットワークであるLRNETをカスタマイズして、情報相互作用を強化し、汚染された注意マップを再調整します。
輝度が回復すると、CRNETはクロスアテナンスメカニズムを活用して鮮やかな色を復活させ、視覚的に説得力のある結果を生み出します。
複数のデータセットでの広範な実験が行われ、既存の最先端のソリューションに対するShadowhackの優位性を定量的かつ定性的に実証し、設計の有効性を強調しています。
私たちのコードは公開されます。

要約(オリジナル)

Shadows introduce challenges such as reduced brightness, texture deterioration, and color distortion in images, complicating a holistic solution. This study presents \textbf{ShadowHack}, a divide-and-conquer strategy that tackles these complexities by decomposing the original task into luminance recovery and color remedy. To brighten shadow regions and repair the corrupted textures in the luminance space, we customize LRNet, a U-shaped network with a rectified attention module, to enhance information interaction and recalibrate contaminated attention maps. With luminance recovered, CRNet then leverages cross-attention mechanisms to revive vibrant colors, producing visually compelling results. Extensive experiments on multiple datasets are conducted to demonstrate the superiority of ShadowHack over existing state-of-the-art solutions both quantitatively and qualitatively, highlighting the effectiveness of our design. Our code will be made publicly available.

arxiv情報

著者 Jin Hu,Mingjia Li,Xiaojie Guo
発行日 2025-03-28 13:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ShadowHack: Hacking Shadows via Luminance-Color Divide and Conquer はコメントを受け付けていません

DF2023: The Digital Forensics 2023 Dataset for Image Forgery Detection

要約

特にオンラインソーシャルネットワークを通じて頻繁に広まられている変更された画像を通して、世論の意図的な操作は、社会に重大な危険をもたらします。
技術レベルでこの問題と戦うために、デジタルフォレンジック2023(DF2023)トレーニングと検証データセットをリリースすることにより、研究コミュニティをサポートします。
このデータセットにより、ネットワークアーキテクチャの客観的な比較が可能になり、データセットを準備する研究者の時間と労力を大幅に削減できます。

要約(オリジナル)

The deliberate manipulation of public opinion, especially through altered images, which are frequently disseminated through online social networks, poses a significant danger to society. To fight this issue on a technical level we support the research community by releasing the Digital Forensics 2023 (DF2023) training and validation dataset, comprising one million images from four major forgery categories: splicing, copy-move, enhancement and removal. This dataset enables an objective comparison of network architectures and can significantly reduce the time and effort of researchers preparing datasets.

arxiv情報

著者 David Fischinger,Martin Boyer
発行日 2025-03-28 13:31:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DF2023: The Digital Forensics 2023 Dataset for Image Forgery Detection はコメントを受け付けていません

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

要約

既存の3D Vision-Language(3D-VL)ベンチマークは、3D-VLモデルの評価には不足しており、モデル機能と3D-VLタスクに関する厳密な洞察を曖昧にする「ミスト」を作成します。
この霧は、3つの重要な制限が原因で持続します。
第一に、接地タスクのあいまいな参照テキストのような欠陥のあるテストデータは、誤った信頼できないテスト結果をもたらす可能性があります。
第二に、質問応答(QA)ペアごとの単純な平均精度などの単純化されたメトリックは、言語のバリエーションに対する脆弱性のために真のモデル能力を明らかにすることはできません。
第三に、既存のベンチマークは接地タスクとQAタスクを分離し、QAは固体接地能力に基づいているという根本的な一貫性を無視します。
「ミスト」を発表するために、3D-VL接地およびQAタスクのベンチマークであるBeacon3Dを提案し、3D-VL理解の評価における視点シフトを提供します。
beacon3d機能(i)正確で自然な言語を備えた高品質のテストデータ、(ii)堅牢性を確保するためのオブジェクトごとの複数のテストを使用したオブジェクト中心の評価、および(iii)接地とQA全体の言語の堅牢性とモデルのパフォーマンスの一貫性に対処するための新しい分析パラダイム。
Beacon3Dでの最先端の3D-VLモデルの評価は、(i)オブジェクト中心の評価が真のモデルパフォーマンスと特にQAの一般化を誘発することを明らかにしています。
(ii)接地qaのコヒーレンスは、現在の3D-VLモデルでは脆弱なままであり、(iii)一般的な実践としての大きな言語モデル(LLMS)を3D-VLモデルに組み込むと、接地能力を妨げ、QA能力をまだ高めていません。
Beacon3Dと当社の包括的な分析が、3D-VLコミュニティに忠実な発展に役立つことを願っています。

要約(オリジナル)

Existing 3D vision-language (3D-VL) benchmarks fall short in evaluating 3D-VL models, creating a ‘mist’ that obscures rigorous insights into model capabilities and 3D-VL tasks. This mist persists due to three key limitations. First, flawed test data, like ambiguous referential text in the grounding task, can yield incorrect and unreliable test results. Second, oversimplified metrics such as simply averaging accuracy per question answering (QA) pair, cannot reveal true model capability due to their vulnerability to language variations. Third, existing benchmarks isolate the grounding and QA tasks, disregarding the underlying coherence that QA should be based on solid grounding capabilities. To unveil the ‘mist’, we propose Beacon3D, a benchmark for 3D-VL grounding and QA tasks, delivering a perspective shift in the evaluation of 3D-VL understanding. Beacon3D features (i) high-quality test data with precise and natural language, (ii) object-centric evaluation with multiple tests per object to ensure robustness, and (iii) a novel chain-of-analysis paradigm to address language robustness and model performance coherence across grounding and QA. Our evaluation of state-of-the-art 3D-VL models on Beacon3D reveals that (i) object-centric evaluation elicits true model performance and particularly weak generalization in QA; (ii) grounding-QA coherence remains fragile in current 3D-VL models, and (iii) incorporating large language models (LLMs) to 3D-VL models, though as a prevalent practice, hinders grounding capabilities and has yet to elevate QA capabilities. We hope Beacon3D and our comprehensive analysis could benefit the 3D-VL community towards faithful developments.

arxiv情報

著者 Jiangyong Huang,Baoxiong Jia,Yan Wang,Ziyu Zhu,Xiongkun Linghu,Qing Li,Song-Chun Zhu,Siyuan Huang
発行日 2025-03-28 13:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis はコメントを受け付けていません

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

要約

欠落したモダリティ完了に対する以前の成功したアプローチは、慎重に設計された融合技術と完全なデータの広範なトレーニングに依存しており、ドメイン外(OOD)シナリオの一般化可能性を制限できます。
この研究では、新しい課題を提起します。リソース効率が高く、一般化に対して堅牢な欠落しているモダリティ完了モデルを開発できますか?
これに対処するために、大規模なマルチモーダルモデル(LMM)を活用するモダリティ完了が欠落しているためのトレーニングなしのフレームワークを提示します。
「知識ブリッジャー」と呼ばれる私たちのアプローチは、モダリティに依存しており、欠落しているモダリティの生成とランキングを統合します。
ドメイン固有のプライアーを定義することにより、私たちの方法は、利用可能なモダリティから構造化された情報を自動的に抽出して、知識グラフを構築します。
これらの抽出されたグラフは、欠落しているモダリティ生成とランキングモジュールをLMMを介して接続し、失われたモダリティの高品質の帰属をもたらします。
一般的なドメインと医療ドメインの両方での実験結果は、私たちのアプローチがOOD一般化を含む競合する方法を常に上回ることを示しています。
さらに、当社の知識主導の生成およびランキングテクニックは、生成とランキングにLMMを直接使用するバリエーションに対する優位性を示し、他のドメインでのアプリケーションにとって価値のある洞察を提供します。

要約(オリジナル)

Previous successful approaches to missing modality completion rely on carefully designed fusion techniques and extensive pre-training on complete data, which can limit their generalizability in out-of-domain (OOD) scenarios. In this study, we pose a new challenge: can we develop a missing modality completion model that is both resource-efficient and robust to OOD generalization? To address this, we present a training-free framework for missing modality completion that leverages large multimodal models (LMMs). Our approach, termed the ‘Knowledge Bridger’, is modality-agnostic and integrates generation and ranking of missing modalities. By defining domain-specific priors, our method automatically extracts structured information from available modalities to construct knowledge graphs. These extracted graphs connect the missing modality generation and ranking modules through the LMM, resulting in high-quality imputations of missing modalities. Experimental results across both general and medical domains show that our approach consistently outperforms competing methods, including in OOD generalization. Additionally, our knowledge-driven generation and ranking techniques demonstrate superiority over variants that directly employ LMMs for generation and ranking, offering insights that may be valuable for applications in other domains.

arxiv情報

著者 Guanzhou Ke,Shengfeng He,Xiao Li Wang,Bo Wang,Guoqing Chao,Yuanyang Zhang,Yi Xie,HeXing Su
発行日 2025-03-28 13:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Knowledge Bridger: Towards Training-free Missing Multi-modality Completion はコメントを受け付けていません