Instruction Following by Boosting Attention of Large Language Models

要約

大規模な言語モデル(LLMS)の生成を制御することは、安全で信頼できる展開を確保するための中心的な課題のままです。
迅速なエンジニアリングと微調整は一般的なアプローチですが、最近の作業では、LLM内部アクティベーションを変化させて生成を導く軽量のテクニックである潜在的なステアリングを調査しました。
しかし、その後の研究により、潜在的なステアリングの有効性が制限されていることが明らかになり、多くの場合、単純な指示の促しを下しました。
この制限に対処するために、最初に、ステアリング技術の標準化された評価のための多様な行動にわたってベンチマークを確立します。
このベンチマークからの洞察に基づいて、私たちは、生成中のモデルの注意を変えることで指導の強さを高める潜在的なステアリング方法である、命令注意ブースト(Instaboost)を導入します。
Instaboostは、既存のアプローチの強みを組み合わせており、トランスベースのモデルでフォローするコンテキスト内のルールを指示に操作することで制御できることを示唆する以前の研究によって理論的にサポートされています。
経験的に、Instaboostは、従来のプロンプトと潜在ステアリングの両方と比較して、優れた制御の成功を示しています。

要約(オリジナル)

Controlling the generation of large language models (LLMs) remains a central challenge to ensure their safe and reliable deployment. While prompt engineering and finetuning are common approaches, recent work has explored latent steering, a lightweight technique that alters LLM internal activations to guide generation. However, subsequent studies revealed latent steering’s effectiveness to be limited, often underperforming simple instruction prompting. To address this limitation, we first establish a benchmark across diverse behaviors for standardized evaluation of steering techniques. Building on insights from this benchmark, we introduce Instruction Attention Boosting (InstABoost), a latent steering method that boosts the strength of instruction prompting by altering the model’s attention during generation. InstABoost combines the strengths of existing approaches and is theoretically supported by prior work that suggests that in-context rule following in transformer-based models can be controlled by manipulating attention on instructions. Empirically, InstABoost demonstrates superior control success compared to both traditional prompting and latent steering.

arxiv情報

著者 Vitoria Guardieiro,Adam Stein,Avishree Khare,Eric Wong
発行日 2025-06-16 17:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning

要約

嗜好ベースの強化学習(PBRL)は、事前定義された報酬機能なしに、人間のフィードバックからの学習行動の有望なアプローチとして浮上しています。
ただし、現在のPBRLメソッドは、優先空間を効果的に調査する上で重要な課題に直面しており、多くの場合、人間の好みの狭いサブセットのみを満たす最適ではないポリシーに早期に収束します。
この作業では、人口ベースの方法を通じてこの選好探査の問題を特定して対処します。
エージェントの多様な集団を維持することにより、単一のエージェントアプローチと比較して、優先環境のより包括的な調査が可能になることを実証します。
重要なことに、この多様性は、明確に区別可能な動作を備えた優先クエリを生成することにより、報酬モデルの学習を改善します。これは、人間が意味のあるフィードバックを提供するためにオプションを簡単に区別しなければならない現実世界のシナリオの重要な要因です。
私たちの実験では、現地のオプティマに閉じ込められ、過度のフィードバックを必要とすることで現在の方法が失敗する可能性があることが明らかになり、人間の評価者が同様の軌跡でエラーを犯した場合に大幅に分解します。
私たちの人口ベースのアプローチは、教師が同様の軌跡セグメントを誤ってラベル付けし、特に複雑な報酬景観を持つ環境で嗜好探査機能を大幅に強化したときに堅牢なパフォーマンスを示します。

要約(オリジナル)

Preference-based reinforcement learning (PbRL) has emerged as a promising approach for learning behaviors from human feedback without predefined reward functions. However, current PbRL methods face a critical challenge in effectively exploring the preference space, often converging prematurely to suboptimal policies that satisfy only a narrow subset of human preferences. In this work, we identify and address this preference exploration problem through population-based methods. We demonstrate that maintaining a diverse population of agents enables more comprehensive exploration of the preference landscape compared to single-agent approaches. Crucially, this diversity improves reward model learning by generating preference queries with clearly distinguishable behaviors, a key factor in real-world scenarios where humans must easily differentiate between options to provide meaningful feedback. Our experiments reveal that current methods may fail by getting stuck in local optima, requiring excessive feedback, or degrading significantly when human evaluators make errors on similar trajectories, a realistic scenario often overlooked by methods relying on perfect oracle teachers. Our population-based approach demonstrates robust performance when teachers mislabel similar trajectory segments and shows significantly enhanced preference exploration capabilities,particularly in environments with complex reward landscapes.

arxiv情報

著者 Brahim Driss,Alex Davey,Riad Akrour
発行日 2025-06-16 17:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Evaluating Large Language Models for Phishing Detection, Self-Consistency, Faithfulness, and Explainability

要約

フィッシング攻撃は、攻撃者が継続的に進化し、一般的な検出システムを回避するための戦術を強化する最も一般的で永続的なサイバーセキュリティの脅威の1つであり続けています。
人工知能と機械学習の大幅な進歩にもかかわらず、解釈可能な推論を忠実に再現して、フィッシングの判断を支える分類と説明可能性が依然として挑戦的です。
自然言語処理の最近の進歩により、大規模な言語モデル(LLM)は、ドメイン固有のフィッシング分類タスクを改善するための有望な方向性と可能性を示しています。
ただし、分類モデルの信頼性と堅牢性を高めるには、LLMSからの正確な予測だけでなく、それらの予測に沿った一貫した信頼できる説明も必要です。
したがって、重要な質問は残ります。LLMSは、フィッシングメールを正確に分類するだけでなく、予測と内部的に自己整合する説明を生成できますか?
これらの質問に答えるために、Bert、Llamaモデル、ウィザードを含む微調整された変圧器ベースのモデルがあり、ドメインの関連性を向上させ、バイナリシーケンス分類、Contrastive Learning(CL)、および直接的な優先最適化(DPO)を使用して、フィッシング固有の区別に合わせて調整します。
そのために、シェップリー値(CC SHAP)に基づいて一貫性測定値を適用することにより、フィッシングの分類と説明のパフォーマンスを調べました。
全体として、我々の調査結果は、Llamaモデルがより強い予測の説明を示すことを示しています。信頼できる意思決定の精度が欠けているにもかかわらず、CC SHAPスコアの高いトークンアラインメントがありますが、ウィザードはより良い予測精度を達成しますが、CC SHAPスコアが低くなります。

要約(オリジナル)

Phishing attacks remain one of the most prevalent and persistent cybersecurity threat with attackers continuously evolving and intensifying tactics to evade the general detection system. Despite significant advances in artificial intelligence and machine learning, faithfully reproducing the interpretable reasoning with classification and explainability that underpin phishing judgments remains challenging. Due to recent advancement in Natural Language Processing, Large Language Models (LLMs) show a promising direction and potential for improving domain specific phishing classification tasks. However, enhancing the reliability and robustness of classification models requires not only accurate predictions from LLMs but also consistent and trustworthy explanations aligning with those predictions. Therefore, a key question remains: can LLMs not only classify phishing emails accurately but also generate explanations that are reliably aligned with their predictions and internally self-consistent? To answer these questions, we have fine-tuned transformer based models, including BERT, Llama models, and Wizard, to improve domain relevance and make them more tailored to phishing specific distinctions, using Binary Sequence Classification, Contrastive Learning (CL) and Direct Preference Optimization (DPO). To that end, we examined their performance in phishing classification and explainability by applying the ConsistenCy measure based on SHAPley values (CC SHAP), which measures prediction explanation token alignment to test the model’s internal faithfulness and consistency and uncover the rationale behind its predictions and reasoning. Overall, our findings show that Llama models exhibit stronger prediction explanation token alignment with higher CC SHAP scores despite lacking reliable decision making accuracy, whereas Wizard achieves better prediction accuracy but lower CC SHAP scores.

arxiv情報

著者 Shova Kuikel,Aritran Piplai,Palvi Aggarwal
発行日 2025-06-16 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | コメントする

LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction

要約

Vision-Language-action(VLA)モデルは、強力なセマンティック理解とゼロショットの一般化を実証していますが、ほとんどの既存のシステムは、エンドエフェクターのポーズやルート速度などの手作りのアクション「語彙」を備えた正確な低レベルコントローラーを想定しています。
この仮定は、以前の研究を準静的タスクに限定し、ヒューマノイド全身制御(WBC)タスクに必要なアジャイルで全身の行動を排除します。
文献のこのギャップを捉えるために、ヒューマノイドWBCの最初のSIMからリアル対応、ビジョン言語、クローズドループベンチマークを導入することから始めます。
次に、レバーブ:潜在的なビジョンエンコードロボット行動、ヒューマノイドビジョン言語WBCの階層的な潜在指導にフォローするフレームワークであるこの種類の提案を提案します。
上位レベルでは、ビジョン言語ポリシーは、合成的にレンダリングされた運動学的デモンストレーションから潜在的なアクションの語彙を学びます。
低レベルでは、強化学習WBCポリシーがこれらの潜在動詞を消費して、ダイナミクスレベルのコマンドを生成します。
ベンチマークでは、レバーはシンプルな視覚ナビゲーションタスクで80%の成功率を達成でき、全体で58.5%の成功率を達成でき、素朴な階層全身VLA実装を7.8倍も上回ります。

要約(オリジナル)

Vision-language-action (VLA) models have demonstrated strong semantic understanding and zero-shot generalization, yet most existing systems assume an accurate low-level controller with hand-crafted action ‘vocabulary’ such as end-effector pose or root velocity. This assumption confines prior work to quasi-static tasks and precludes the agile, whole-body behaviors required by humanoid whole-body control (WBC) tasks. To capture this gap in the literature, we start by introducing the first sim-to-real-ready, vision-language, closed-loop benchmark for humanoid WBC, comprising over 150 tasks from 10 categories. We then propose LeVERB: Latent Vision-Language-Encoded Robot Behavior, a hierarchical latent instruction-following framework for humanoid vision-language WBC, the first of its kind. At the top level, a vision-language policy learns a latent action vocabulary from synthetically rendered kinematic demonstrations; at the low level, a reinforcement-learned WBC policy consumes these latent verbs to generate dynamics-level commands. In our benchmark, LeVERB can zero-shot attain a 80% success rate on simple visual navigation tasks, and 58.5% success rate overall, outperforming naive hierarchical whole-body VLA implementation by 7.8 times.

arxiv情報

著者 Haoru Xue,Xiaoyu Huang,Dantong Niu,Qiayuan Liao,Thomas Kragerud,Jan Tommy Gravdahl,Xue Bin Peng,Guanya Shi,Trevor Darrell,Koushil Screenath,Shankar Sastry
発行日 2025-06-16 17:56:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Steering LLM Thinking with Budget Guidance

要約

最近の深いことの大規模な言語モデルは、パフォーマンスを改善するために広範囲にわたって広範囲にわたって推測することが多いですが、不均衡なパフォーマンスの向上を伴う過剰な推論コストが発生するため、このような長い推論は必ずしも望ましいとは限りません。
したがって、パフォーマンスを犠牲にすることなく推論の長さを制御することは重要ですが、特に緊密な思考予算の下で挑戦的です。
LLMの微調整を必要とせずに、LLMの推論プロセスを目標予算に向けるためのシンプルで効果的な方法である予算ガイダンスを提案します。
私たちのアプローチは、次のトークンの世代の間に残りの思考長にわたってガンマ分布をモデル化する軽量予測因子を導入します。
次に、この信号を使用して、生成を柔らかくトークンレベルでガイドし、全体的な推論トレースが指定された思考予算に準拠するようにします。
予算ガイダンスにより、思考長の自然な制御が可能になり、数学ベンチマークに挑戦するベースライン方法よりも大幅なトークン効率の改善が可能になります。
たとえば、ベースラインの方法と比較して、MATH-500ベンチマークでは最大26%の精度の増加を達成しますが、完全な思考モデルで使用される思考トークンの63%のみで競争の精度を維持します。
また、予算ガイダンスは、より広範なタスクドメインに一般的になり、質問の難易度を推定するなど、緊急の機能を示します。
ソースコードは、https://github.com/umass-embodied-agi/budgetguidanceで入手できます。

要約(オリジナル)

Recent deep-thinking large language models often reason extensively to improve performance, but such lengthy reasoning is not always desirable, as it incurs excessive inference costs with disproportionate performance gains. Controlling reasoning length without sacrificing performance is therefore important, but remains challenging, especially under tight thinking budgets. We propose budget guidance, a simple yet effective method for steering the reasoning process of LLMs toward a target budget without requiring any LLM fine-tuning. Our approach introduces a lightweight predictor that models a Gamma distribution over the remaining thinking length during next-token generation. This signal is then used to guide generation in a soft, token-level manner, ensuring that the overall reasoning trace adheres to the specified thinking budget. Budget guidance enables natural control of the thinking length, along with significant token efficiency improvements over baseline methods on challenging math benchmarks. For instance, it achieves up to a 26% accuracy gain on the MATH-500 benchmark under tight budgets compared to baseline methods, while maintaining competitive accuracy with only 63% of the thinking tokens used by the full-thinking model. Budget guidance also generalizes to broader task domains and exhibits emergent capabilities, such as estimating question difficulty. The source code is available at: https://github.com/UMass-Embodied-AGI/BudgetGuidance.

arxiv情報

著者 Junyan Li,Wenshuo Zhao,Yang Zhang,Chuang Gan
発行日 2025-06-16 17:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Discrete Diffusion in Large Language and Multimodal Models: A Survey

要約

この作業では、離散拡散言語モデル(DLLM)と離散拡散マルチモーダル言語モデル(DMLLMS)の体系的な調査を提供します。
AutoreGressive(AR)モデルとは異なり、DLLMSおよびDMLLMSは、完全な注意と除去ベースの世代戦略を使用して、マルチトークンの並列解読パラダイムを採用しています。
このパラダイムは、当然、平行した生成、微調整された出力制御可能性、および動的な応答認識の認識を可能にします。
これらの機能は、以前はARモデルで達成することが困難です。
最近、産業規模の独自のD(M)LLMの数が増えているだけでなく、多数のオープンソースアカデミックD(M)LLMSが、推論速度で最大10倍の加速を達成しながら、自己回帰のカウンターパートに匹敵するパフォーマンスを実証しました。
離散拡散LLMとMLLMの進歩は、主に2つのドメインの進歩によって推進されています。
1つ目は、トレーニングと推論のための膨大な量のデータ、ベンチマーク、および基礎インフラストラクチャを蓄積した自己回帰LLMとMLLMの開発です。
2番目の寄与ドメインは、離散拡散の根底にある数学モデルの進化です。
一緒に、これらの進歩は2025年初頭にDLLMSおよびDMLLMS研究の急増を触媒しました。この作業では、DLLMおよびDMLLMドメインの研究の包括的な概要を示します。
DLLMSとDMLLMSの歴史的発展を追跡し、基礎となる数学フレームワークを正式化し、代表モデルを分類します。
さらに、トレーニングと推論のための重要な手法を分析し、言語、ビジョン言語、生物学的領域を介した新興アプリケーションを要約します。
結論は、研究と展開の将来の方向性について議論することで終わります。
ペーパーコレクション:https://github.com/liqiiiii/dllm-survey

要約(オリジナル)

In this work, we provide a systematic survey of Discrete Diffusion Language Models (dLLMs) and Discrete Diffusion Multimodal Language Models (dMLLMs). Unlike autoregressive (AR) models, dLLMs and dMLLMs adopt a multi-token, parallel decoding paradigm using full attention and a denoising-based generation strategy. This paradigm naturally enables parallel generation, fine-grained output controllability, and dynamic, response-aware perception. These capabilities are previously difficult to achieve with AR models. Recently, a growing number of industrial-scale proprietary d(M)LLMs, as well as a large number of open-source academic d(M)LLMs, have demonstrated performance comparable to their autoregressive counterparts, while achieving up to 10x acceleration in inference speed. The advancement of discrete diffusion LLMs and MLLMs has been largely driven by progress in two domains. The first is the development of autoregressive LLMs and MLLMs, which has accumulated vast amounts of data, benchmarks, and foundational infrastructure for training and inference. The second contributing domain is the evolution of the mathematical models underlying discrete diffusion. Together, these advancements have catalyzed a surge in dLLMs and dMLLMs research in early 2025. In this work, we present a comprehensive overview of the research in the dLLM and dMLLM domains. We trace the historical development of dLLMs and dMLLMs, formalize the underlying mathematical frameworks, and categorize representative models. We further analyze key techniques for training and inference, and summarize emerging applications across language, vision-language, and biological domains. We conclude by discussing future directions for research and deployment. Paper collection: https://github.com/LiQiiiii/DLLM-Survey

arxiv情報

著者 Runpeng Yu,Qi Li,Xinchao Wang
発行日 2025-06-16 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

GeoSDF: Plane Geometry Diagram Synthesis via Signed Distance Field

要約

平面ジオメトリダイアグラムの合成は、コンピューターグラフィックスの重要なタスクであり、アプリケーションは教育ツールからAI駆動型の数学的推論に至るまでの範囲です。
従来、私たちはコンピューターツール(MatplotlibやGeogebraなど)に依存して、手動で正確な図を生成しますが、通常、巨大で複雑な計算コストが必要です。
最近、研究者は学習ベースの方法(例えば、安定した拡散やGPT4)に取り組み、図を自動的に生成し、運用コストを節約しますが、通常は限られたリアリズムと不十分な精度に苦しんでいます。
この論文では、署名距離フィールド(SDF)で効率的かつ正確に図を自動的に生成するための新しいフレームワークGEOSDFを提案します。
具体的には、最初にSDFの幾何学的要素を表し、次に一連の制約関数を構築して幾何学的関係を表すように構築します。次に、このような制約関数を最適化して、最適化されたフィールドと制約の両方のフィールドを最適化します。
GEOSDFでは、幾何学的要素とそれらの制約を簡単に表現するためのシンボリック言語を定義し、SDFで合成されたジオメトリ図を自己検証し、数学的精度と視覚的妥当性の両方を確保できます。
実験では、GEOSDFは通常の高校レベルとIMOレベルのジオメトリ図の両方を合成しました。
定性的分析と定量分析の両方を通じて、合成された図は現実的で正確であり、合成プロセスがシンプルで効率的であることがわかります。
さらに、自己検証特性を活用することにより、幾何学的な問題を解決する非常に高い精度(95 \%を超えているが、現在のSOTA精度は約75%)を取得します。
これらはすべて、GeoSDFの利点を示しており、幅広いアプリケーションのためのより洗練され、正確で、柔軟な幾何学図の生成のための道を開いています。

要約(オリジナル)

Plane Geometry Diagram Synthesis has been a crucial task in computer graphics, with applications ranging from educational tools to AI-driven mathematical reasoning. Traditionally, we rely on computer tools (e.g., Matplotlib and GeoGebra) to manually generate precise diagrams, but it usually requires huge, complicated calculations cost. Recently, researchers start to work on learning-based methods (e.g., Stable Diffusion and GPT4) to automatically generate diagrams, saving operational cost but usually suffering from limited realism and insufficient accuracy. In this paper, we propose a novel framework GeoSDF to automatically generate diagrams efficiently and accurately with Signed Distance Field (SDF). Specifically, we first represent geometric elements in the SDF, then construct a series of constraint functions to represent geometric relationships, next we optimize such constraint functions to get an optimized field of both elements and constraints, finally by rendering the optimized field, we can obtain the synthesized diagram. In our GeoSDF, we define a symbolic language to easily represent geometric elements and those constraints, and our synthesized geometry diagrams can be self-verified in the SDF, ensuring both mathematical accuracy and visual plausibility. In experiments, our GeoSDF synthesized both normal high-school level and IMO-level geometry diagrams. Through both qualitative and quantitative analysis, we can see that synthesized diagrams are realistic and accurate, and our synthesizing process is simple and efficient. Furthermore, we obtain a very high accuracy of solving geometry problems (over 95\% while the current SOTA accuracy is around 75%) by leveraging our self-verification property. All of these demonstrate the advantage of GeoSDF, paving the way for more sophisticated, accurate, and flexible generation of geometric diagrams for a wide array of applications.

arxiv情報

著者 Chengrui Zhang,Maizhen Ning,Zihao Zhou,Jie Sun,Kaizhu Huang,Qiufeng Wang
発行日 2025-06-16 13:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Hierarchical Multi-Positive Contrastive Learning for Patent Image Retrieval

要約

特許画像は、特許の革新に関する情報を伝える技術的な図面です。
特許画像検索システムは、膨大なコレクションを検索し、最も関連性の高い画像を取得することを目指しています。
情報検索の最近の進歩にもかかわらず、特許画像は、技術的な複雑さと複雑なセマンティック情報のために依然として大きな課題をもたらし、ドメイン適応に効率的な微調整を必要とします。
現在の方法は、Locarno International Classification(LIC)システムで定義されているものなど、特許の階層的な関係を無視します。
この作業では、LICの分類法を活用して検索プロセスでそのような関係を誘導する階層的な多陽性対照損失を導入します。
私たちのアプローチは、バッチ内の各特許画像に複数の正のペアを割り当て、階層分類法に基づいて類似性スコアが異なります。
Deeppatent2データセットのさまざまな視力モデルとマルチモーダルモデルを使用した実験分析は、提案された方法が検索結果を促進することを示しています。
特に、この方法は低パラメーターモデルで効果的であり、計算リソースが少なくなり、ハードウェアが限られている環境に展開できます。

要約(オリジナル)

Patent images are technical drawings that convey information about a patent’s innovation. Patent image retrieval systems aim to search in vast collections and retrieve the most relevant images. Despite recent advances in information retrieval, patent images still pose significant challenges due to their technical intricacies and complex semantic information, requiring efficient fine-tuning for domain adaptation. Current methods neglect patents’ hierarchical relationships, such as those defined by the Locarno International Classification (LIC) system, which groups broad categories (e.g., ‘furnishing’) into subclasses (e.g., ‘seats’ and ‘beds’) and further into specific patent designs. In this work, we introduce a hierarchical multi-positive contrastive loss that leverages the LIC’s taxonomy to induce such relations in the retrieval process. Our approach assigns multiple positive pairs to each patent image within a batch, with varying similarity scores based on the hierarchical taxonomy. Our experimental analysis with various vision and multimodal models on the DeepPatent2 dataset shows that the proposed method enhances the retrieval results. Notably, our method is effective with low-parameter models, which require fewer computational resources and can be deployed on environments with limited hardware.

arxiv情報

著者 Kshitij Kavimandan,Angelos Nalmpantis,Emma Beauxis-Aussalet,Robert-Jan Sips
発行日 2025-06-16 13:53:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T45, cs.CV, cs.IR, cs.LG, H.3.3 | コメントする

Inst3D-LMM: Instance-Aware 3D Scene Understanding with Multi-modal Instruction Tuning

要約

3Dシーンの理解の進歩を奨励しているにもかかわらず、複雑な3D環境で理解と推論が可能な効果的な大規模なマルチモーダルモデル(LMM)を開発することは困難なままです。
以前のほとんどの方法は、通常、3Dポイントと2D画像機能を個別にエンコードし、2Dセマンティクスと3Dオブジェクトプロパティ間の相互作用、および3D環境内の空間的関係を無視します。
この制限は、3Dシーンの包括的な表現を妨げるだけでなく、トレーニングと推論効率も損なうことを妨げます。
これらの課題に対処するために、統一されたインスタンス認識3Dラージマルチモーダルモデル(Inst3D-LMM)を提案して、複数の3Dシーンの理解タスクを同時に処理します。
きめ細かいインスタンスレベルの視覚トークンを取得するために、まず、新しいマルチビュークロスモーダル融合(MCMF)モジュールを導入して、マルチビュー2Dセマンティクスを対応する3D幾何学的特徴に注入します。
シーンレベルの関係認識トークンの場合、3Dインスタンスの空間関係(3D-ISR)モジュールを紹介して、オブジェクト間の複雑なペアワイズ空間関係をキャプチャします。
さらに、その後のタスク固有の微調整なしに、エンドツーエンドのマルチタスク命令チューニングを同時に実行します。
広範な実験は、私たちのアプローチが、3Dシーンの理解、推論、および接地タスク全体で最先端の方法よりも優れていることを示しています。
ソースコードは、https://github.com/hanxunyu/inst3d-lmmで入手できます

要約(オリジナル)

Despite encouraging progress in 3D scene understanding, it remains challenging to develop an effective Large Multi-modal Model (LMM) that is capable of understanding and reasoning in complex 3D environments. Most previous methods typically encode 3D point and 2D image features separately, neglecting interactions between 2D semantics and 3D object properties, as well as the spatial relationships within the 3D environment. This limitation not only hinders comprehensive representations of 3D scene, but also compromises training and inference efficiency. To address these challenges, we propose a unified Instance-aware 3D Large Multi-modal Model (Inst3D-LMM) to deal with multiple 3D scene understanding tasks simultaneously. To obtain the fine-grained instance-level visual tokens, we first introduce a novel Multi-view Cross-Modal Fusion (MCMF) module to inject the multi-view 2D semantics into their corresponding 3D geometric features. For scene-level relation-aware tokens, we further present a 3D Instance Spatial Relation (3D-ISR) module to capture the intricate pairwise spatial relationships among objects. Additionally, we perform end-to-end multi-task instruction tuning simultaneously without the subsequent task-specific fine-tuning. Extensive experiments demonstrate that our approach outperforms the state-of-the-art methods across 3D scene understanding, reasoning and grounding tasks. Source code is available at https://github.com/hanxunyu/Inst3D-LMM

arxiv情報

著者 Hanxun Yu,Wentong Li,Song Wang,Junbo Chen,Jianke Zhu
発行日 2025-06-16 13:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

FOAM: A General Frequency-Optimized Anti-Overlapping Framework for Overlapping Object Perception

要約

オーバーラップオブジェクトの知覚は、ランダムに重複する前景帯の特徴を切り離すことを目的としており、前景の特徴を抽出しながら前景機能を抽出し、セキュリティスクリーニングや医療補助診断などのフィールドに有意な応用値を保持します。
オブジェクトの知覚の重複の課題に取り組むためのいくつかの研究努力にもかかわらず、ほとんどのソリューションは空間ドメインに限定されます。
周波数ドメイン分析を通じて、重複する現象による輪郭とテクスチャの分解は、大きさスペクトルに直感的に反映されることがわかります。
この観察に基づいて、一般的な周波数最適化防止防止フレームワーク(フォーム)を提案して、モデルがより多くのテクスチャと輪郭情報を抽出するのを支援し、それによってオブジェクトを重複させるオブジェクト知覚の能力を高めます。
具体的には、周波数空間変圧器ブロック(FSTB)を設計します。これにより、周波数ドメインと空間ドメインの両方から機能を同時に抽出できるため、ネットワークが前景からより多くのテクスチャ機能をキャプチャできます。
さらに、トレーニングフェーズ中に特別に設計された一貫した損失を使用して、個別に構築されたベースブランチおよび腐敗分岐の隣接する機能を整列させる階層脱腐敗(HDC)メカニズムを導入します。
このメカニズムは、FSTBの無関係な背景特徴に対する反応を抑制し、それにより前景の輪郭の知覚を改善します。
提案されたフォームの有効性と一般化を検証するために広範な実験を実施します。これにより、4つのデータセットで最先端のモデルの精度がさらに向上します。
論文が受け入れられると、コードはオープンソースになります。

要約(オリジナル)

Overlapping object perception aims to decouple the randomly overlapping foreground-background features, extracting foreground features while suppressing background features, which holds significant application value in fields such as security screening and medical auxiliary diagnosis. Despite some research efforts to tackle the challenge of overlapping object perception, most solutions are confined to the spatial domain. Through frequency domain analysis, we observe that the degradation of contours and textures due to the overlapping phenomenon can be intuitively reflected in the magnitude spectrum. Based on this observation, we propose a general Frequency-Optimized Anti-Overlapping Framework (FOAM) to assist the model in extracting more texture and contour information, thereby enhancing the ability for anti-overlapping object perception. Specifically, we design the Frequency Spatial Transformer Block (FSTB), which can simultaneously extract features from both the frequency and spatial domains, helping the network capture more texture features from the foreground. In addition, we introduce the Hierarchical De-Corrupting (HDC) mechanism, which aligns adjacent features in the separately constructed base branch and corruption branch using a specially designed consistent loss during the training phase. This mechanism suppresses the response to irrelevant background features of FSTBs, thereby improving the perception of foreground contour. We conduct extensive experiments to validate the effectiveness and generalization of the proposed FOAM, which further improves the accuracy of state-of-the-art models on four datasets, specifically for the three overlapping object perception tasks: Prohibited Item Detection, Prohibited Item Segmentation, and Pneumonia Detection. The code will be open source once the paper is accepted.

arxiv情報

著者 Mingyuan Li,Tong Jia,Han Gu,Hui Lu,Hao Wang,Bowen Ma,Shuyang Lin,Shiyi Guo,Shizhuo Deng,Dongyue Chen
発行日 2025-06-16 13:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする