Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles

要約

ポイントクラウドの表現は最近、コンピュータービジョンの分野での研究ホットスポットになり、自動運転車に利用されています。
ただし、ポイントクラウドデータ認識のためにディープラーニングネットワークを適応させることは、データセットとセンサーテクノロジーのばらつきのために困難です。
この変動性は、異なる条件下で精度を維持するための適応技術の必要性を強調しています。
このホワイトペーパーでは、ドメインに不変のポイントクラウド認識向けに設計されたマルチビュー構造畳み込みネットワーク(MSCN)を紹介します。
MSCNは、ポイントクラウドと構造集約層(SAL)からローカルコンテキストの幾何学的特徴を抽出する構造畳み込み層(SCL)で構成されています。
さらに、MSCNは、ソースドメインポイントクラウドから派生した目に見えないドメインポイントクラウドでトレーニングすることにより、特徴表現の堅牢性を高めます。
このメソッドは、ドメインに不変の機能を獲得し、さまざまなポイントクラウドデータセットで堅牢で一貫したパフォーマンスを示し、パラメーター調整を必要とせずに多様なセンサー構成との互換性を確保します。
これは、さまざまな環境で信頼性とドメインの不変機能を大幅に改善するMSCNの可能性を強調しています。
私たちのコードは、https://github.com/mlmlab/mscnで入手できます。

要約(オリジナル)

Point cloud representation has recently become a research hotspot in the field of computer vision and has been utilized for autonomous vehicles. However, adapting deep learning networks for point cloud data recognition is challenging due to the variability in datasets and sensor technologies. This variability underscores the necessity for adaptive techniques to maintain accuracy under different conditions. In this paper, we present the Multi-View Structural Convolution Network (MSCN) designed for domain-invariant point cloud recognition. MSCN comprises Structural Convolution Layers (SCL) that extract local context geometric features from point clouds and Structural Aggregation Layers (SAL) that extract and aggregate both local and overall context features from point clouds. Additionally, our MSCN enhances feature representation robustness by training with unseen domain point clouds derived from source domain point clouds. This method acquires domain-invariant features and exhibits robust, consistent performance across various point cloud datasets, ensuring compatibility with diverse sensor configurations without the need for parameter adjustments. This highlights MSCN’s potential to significantly improve the reliability and domain invariant features in different environments. Our code is available at https://github.com/MLMLab/MSCN.

arxiv情報

著者 Younggun Kim,Beomsik Cho,Seonghoon Ryoo,Soomok Lee
発行日 2025-04-30 17:17:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view Structural Convolution Network for Domain-Invariant Point Cloud Recognition of Autonomous Vehicles はコメントを受け付けていません

Explorations of the Softmax Space: Knowing When the Neural Network Doesn’t Know

要約

人工知能システムが重要な状況でより広く展開されるため、ニューラルネットワークに基づいた自動化された意思決定の信頼性を確保することが重要です。
このペーパーでは、ソフトマックス層の予測に依存するニューラルネットワークの予測に対する自信を測定するための新しいアプローチを提案します。
高精度の訓練されたネットワークには、信頼性が低い特定の出力がある可能性があることを特定します。
そのような場合、決定は延期されるべきであり、ネットワークが対応する分類タスクに対する\ textIT {no necled}の回答を提供することがより適切です。
私たちのアプローチは、SoftMax層のベクトルをクラスターして、クラスター重心とネットワーク出力の距離を測定します。
すべての正しい予測の平均ソフトマックス出力が信頼性の評価において適切なプロキシとして機能するため、単純に計算されたCentroidのクラスターが単に計算されたことを示します。
誤った予測から指定されたクラスのCentroidまでの最小の距離としてクラスの距離のしきい値を定義することは、しきい値の外側にあるネットワーク分類に対する\ textit {no nole nole noleed}の回答を追加するための簡単なアプローチを提供します。
畳み込みニューラルネットワークと視覚変圧器を使用して、MNISTおよびCIFAR-10データセットのアプローチを評価します。
結果は、私たちのアプローチがデータセットとネットワークモデル間で一貫していることを示しており、提案された距離メトリックが、自動化された予測が受け入れられる時期とそれらが人間のオペレーターに延期されるべき時期を決定する効率的な方法を提供できることを示しています。

要約(オリジナル)

Ensuring the reliability of automated decision-making based on neural networks will be crucial as Artificial Intelligence systems are deployed more widely in critical situations. This paper proposes a new approach for measuring confidence in the predictions of any neural network that relies on the predictions of a softmax layer. We identify that a high-accuracy trained network may have certain outputs for which there should be low confidence. In such cases, decisions should be deferred and it is more appropriate for the network to provide a \textit{not known} answer to a corresponding classification task. Our approach clusters the vectors in the softmax layer to measure distances between cluster centroids and network outputs. We show that a cluster with centroid calculated simply as the mean softmax output for all correct predictions can serve as a suitable proxy in the evaluation of confidence. Defining a distance threshold for a class as the smallest distance from an incorrect prediction to the given class centroid offers a simple approach to adding \textit{not known} answers to any network classification falling outside of the threshold. We evaluate the approach on the MNIST and CIFAR-10 datasets using a Convolutional Neural Network and a Vision Transformer, respectively. The results show that our approach is consistent across datasets and network models, and indicate that the proposed distance metric can offer an efficient way of determining when automated predictions are acceptable and when they should be deferred to human operators.

arxiv情報

著者 Daniel Sikar,Artur d’Avila Garcez,Tillman Weyde
発行日 2025-04-30 17:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Explorations of the Softmax Space: Knowing When the Neural Network Doesn’t Know はコメントを受け付けていません

Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields

要約

AIGC Foundationモデルの急速な発展は、画像圧縮のパラダイムに革命をもたらし、ほとんどのピクセルレベルの変換とコーディングの放棄の道を開き、AIGCファンデーションモデルが何を生成できるかを生成できるものを圧縮することを強要します。
幸いなことに、OpenAIの最近のGPT-4O画像生成は、印象的なクロスモダリティの生成、編集、設計機能を達成しました。
この作業では、2つの典型的な圧縮パラダイムを調査します。テキストコーディングとマルチモーダルコーディング(つまり、テキスト +非常に低解像度画像)。これは、高度なGPT-4o画像生成関数を介して圧縮する代わりにすべて/ほとんどのピクセルレベルの情報が生成されます。
本質的な課題は、デコードプロセス中にセマンティックと構造の一貫性を維持する方法にあります。
これを克服するために、GPT-4O画像生成の条件として圧縮される画像をテキスト空間に変換するための構造ラスタースキャンプロンプトエンジニアリングメカニズムを提案します。
広範な実験により、設計された構造ラスタースキャンプロンプトとGPT-4Oの画像生成関数の組み合わせが、最近の超低ビットレートでの最近のマルチモーダル/生成画像圧縮と比較して印象的なパフォーマンスを達成し、さらに画像圧縮フィールドにおけるAIGC生成の可能性を示していることが示されています。

要約(オリジナル)

The rapid development of AIGC foundation models has revolutionized the paradigm of image compression, which paves the way for the abandonment of most pixel-level transform and coding, compelling us to ask: why compress what you can generate if the AIGC foundation model is powerful enough to faithfully generate intricate structure and fine-grained details from nothing more than some compact descriptors, i.e., texts, or cues. Fortunately, recent GPT-4o image generation of OpenAI has achieved impressive cross-modality generation, editing, and design capabilities, which motivates us to answer the above question by exploring its potential in image compression fields. In this work, we investigate two typical compression paradigms: textual coding and multimodal coding (i.e., text + extremely low-resolution image), where all/most pixel-level information is generated instead of compressing via the advanced GPT-4o image generation function. The essential challenge lies in how to maintain semantic and structure consistency during the decoding process. To overcome this, we propose a structure raster-scan prompt engineering mechanism to transform the image into textual space, which is compressed as the condition of GPT-4o image generation. Extensive experiments have shown that the combination of our designed structural raster-scan prompts and GPT-4o’s image generation function achieved the impressive performance compared with recent multimodal/generative image compression at ultra-low bitrate, further indicating the potential of AIGC generation in image compression fields.

arxiv情報

著者 Yixin Gao,Xiaohan Pan,Xin Li,Zhibo Chen
発行日 2025-04-30 17:20:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields はコメントを受け付けていません

Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

要約

Deevisum(要約のための蒸留早期出口ビジョン言語モデル)を紹介します。これは、セグメントワイズビデオ要約のために設計された軽量で効率的でスケーラブルなビジョン言語モデルです。
テキストとオーディオ派の信号を組み合わせたマルチモーダルプロンプトを活用するDeevisumは、マルチステージの知識蒸留(MSKD)と早期出口(EE)を組み込んで、パフォーマンスと効率のバランスをとっています。
MSKDは、ベースライン蒸留(0.5%)よりも1.33%の絶対F1改善を提供しますが、EEはF1で1.3ポイント低下して推論時間を約21%削減します。
TVSumデータセットで評価された最高のモデルPaliGemma2 3B + MSKDは、61.1のF1スコアを達成し、より低い計算フットプリントを維持しながら、大幅に大きなモデルのパフォーマンスを競い合います。
コードと処理されたデータセットを公開して、さらなる調査をサポートします。

要約(オリジナル)

We introduce DEEVISum (Distilled Early Exit Vision language model for Summarization), a lightweight, efficient, and scalable vision language model designed for segment wise video summarization. Leveraging multi modal prompts that combine textual and audio derived signals, DEEVISum incorporates Multi Stage Knowledge Distillation (MSKD) and Early Exit (EE) to strike a balance between performance and efficiency. MSKD offers a 1.33% absolute F1 improvement over baseline distillation (0.5%), while EE reduces inference time by approximately 21% with a 1.3 point drop in F1. Evaluated on the TVSum dataset, our best model PaLI Gemma2 3B + MSKD achieves an F1 score of 61.1, competing the performance of significantly larger models, all while maintaining a lower computational footprint. We publicly release our code and processed dataset to support further research.

arxiv情報

著者 Anas Anwarul Haq Khan,Utkarsh Verma,Prateek Chanda,Ganesh Ramakrishnan
発行日 2025-04-30 17:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization はコメントを受け付けていません

ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People

要約

なじみのないシナリオでオブジェクトを検索することは、盲人にとって挑戦的な作業です。
ターゲットオブジェクトを指定し、それを検出し、ユーザーの意図に従って詳細情報を収集することが含まれます。
ただし、既存の説明および検出ベースの支援技術は、インタラクティブオブジェクト検索タスクの多面的な性質を十分にサポートしていません。
盲目の人々によるインタラクティブオブジェクト検索のためのオープンボキャブラリーウェアラブルアシスタントシステムであるObjectFinderを提示します。
ObjectFinderを使用すると、ユーザーは柔軟な言葉遣いを使用してターゲットオブジェクトを照会できます。
ターゲットオブジェクトが検出されると、距離と方向を含むエゴセントリックローカリゼーション情報をリアルタイムで提供します。
その後、ユーザーはさまざまなブランチを開始して、ターゲットオブジェクトへの目的に基づいて詳細情報を収集します。
ObjectFinderは、オープンボキャブラリーモデルのシームレスな組み合わせ、つまりオープンボキャブラリーオブジェクト検出器とマルチモーダルの大手言語モデルを搭載しています。
ObjectFinderの設計コンセプトとその開発は、ブラインド共同設計者と協力して実施されました。
ObjectFinderを評価するために、8人の盲目の参加者との探索的ユーザー調査を実施しました。
ObjectFinderをBemyaiとGoogle Lookout、人気のある説明と検出ベースのアシスタントアプリケーションと比較しました。
私たちの調査結果は、ほとんどの参加者がオブジェクトファインダーでより独立していると感じ、シーンのコンテキストの収集とナビゲーションを強化し、アクティブなターゲット識別を可能にしたため、オブジェクト検索を好むことを示しています。
最後に、インタラクティブなオブジェクト検索をサポートするための将来の支援システムへの影響について説明します。

要約(オリジナル)

Searching for objects in unfamiliar scenarios is a challenging task for blind people. It involves specifying the target object, detecting it, and then gathering detailed information according to the user’s intent. However, existing description- and detection-based assistive technologies do not sufficiently support the multifaceted nature of interactive object search tasks. We present ObjectFinder, an open-vocabulary wearable assistive system for interactive object search by blind people. ObjectFinder allows users to query target objects using flexible wording. Once the target object is detected, it provides egocentric localization information in real-time, including distance and direction. Users can then initiate different branches to gather detailed information based on their intent towards the target object, such as navigating to it or perceiving its surroundings. ObjectFinder is powered by a seamless combination of open-vocabulary models, namely an open-vocabulary object detector and a multimodal large language model. The ObjectFinder design concept and its development were carried out in collaboration with a blind co-designer. To evaluate ObjectFinder, we conducted an exploratory user study with eight blind participants. We compared ObjectFinder to BeMyAI and Google Lookout, popular description- and detection-based assistive applications. Our findings indicate that most participants felt more independent with ObjectFinder and preferred it for object search, as it enhanced scene context gathering and navigation, and allowed for active target identification. Finally, we discuss the implications for future assistive systems to support interactive object search.

arxiv情報

著者 Ruiping Liu,Jiaming Zhang,Angela Schön,Karin Müller,Junwei Zheng,Kailun Yang,Anhong Guo,Kathrin Gerling,Rainer Stiefelhagen
発行日 2025-04-30 17:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People はコメントを受け付けていません

Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games

要約

ビデオゲームは意思決定コミュニティにとって有用なベンチマークとして機能しましたが、Atariゲームを超えて現代のゲームに向かうことは、研究コミュニティの大多数にとって非常に高価です。
最新のビデオゲームでの以前の作業は、通常、ゲーム固有の統合に依存して、ゲーム機能を取得し、オンライントレーニングを可能にするか、既存の大規模なデータセットに依存していました。
別のアプローチは、模倣学習を使用してエージェントを訓練して、画像から純粋にビデオゲームをプレイすることです。
ただし、この設定は基本的な疑問を提起します。意思決定に重要な情報を保持する表現を取得する視覚エンコーダーはどれですか?
この質問に答えるために、Minecraft、Counter-Strike:Global Offensive、Minecraft Dungeonsでの典型的なタスク固有のエンドツーエンドトレーニングアプローチと比較して、公開されている事前に訓練された視覚エンコーダを使用して、模倣学習の体系的な研究を実施します。
私たちの結果は、エンドツーエンドのトレーニングは、比較的低解像度の画像と数分のデモンストレーションで効果的であることを示していますが、ゲームに応じてDINOV2などの事前に訓練されたエンコーダーを利用することで大幅な改善が得られる可能性があります。
効果的な意思決定を可能にすることに加えて、事前に訓練されたエンコーダーが、トレーニングのコストを大幅に削減することにより、ビデオゲームの意思決定研究をよりアクセスしやすくすることができることを示します。

要約(オリジナル)

Video games have served as useful benchmarks for the decision-making community, but going beyond Atari games towards modern games has been prohibitively expensive for the vast majority of the research community. Prior work in modern video games typically relied on game-specific integration to obtain game features and enable online training, or on existing large datasets. An alternative approach is to train agents using imitation learning to play video games purely from images. However, this setting poses a fundamental question: which visual encoders obtain representations that retain information critical for decision making? To answer this question, we conduct a systematic study of imitation learning with publicly available pre-trained visual encoders compared to the typical task-specific end-to-end training approach in Minecraft, Counter-Strike: Global Offensive, and Minecraft Dungeons. Our results show that end-to-end training can be effective with comparably low-resolution images and only minutes of demonstrations, but significant improvements can be gained by utilising pre-trained encoders such as DINOv2 depending on the game. In addition to enabling effective decision making, we show that pre-trained encoders can make decision-making research in video games more accessible by significantly reducing the cost of training.

arxiv情報

著者 Lukas Schäfer,Logan Jones,Anssi Kanervisto,Yuhan Cao,Tabish Rashid,Raluca Georgescu,Dave Bignell,Siddhartha Sen,Andrea Treviño Gavito,Sam Devlin
発行日 2025-04-30 17:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games はコメントを受け付けていません

3D Stylization via Large Reconstruction Model

要約

テキストまたはイメージガイド付き3Dジェネレーターの成功が高まっているため、ユーザーは生成プロセスをより多くの制御を必要とし、外観スタイリゼーションはその1つです。
参照画像を考えると、これには、複数の視点から視覚的な一貫性を維持しながら、参照の視覚スタイルを反映するために生成された3Dアセットの外観を適応させる必要があります。
この問題に取り組むために、大きな画像生成モデルの注意メカニズムを活用して視覚スタイルをキャプチャおよび転送する2Dスタイリゼーション方法の成功からインスピレーションを得ています。
特に、3Dジェネレーションのコンテキストで一般的に使用される大規模な再構成モデ​​ルが同様の機能を持っている場合、プローブします。
これらのモデルの特定の注意ブロックが、外観固有の機能をキャプチャすることがわかります。
視覚スタイルの画像からそのようなブロックに特徴を注入することにより、シンプルでありながら効果的な3D外観スタイリライゼーション方法を開発します。
私たちの方法では、トレーニングやテスト時間の最適化は必要ありません。
定量的評価と定性的評価の両方を通じて、私たちのアプローチは、3D外観スタイリライゼーションの観点から優れた結果を達成し、高品質の視覚的結果を維持しながら効率を大幅に改善することを実証します。

要約(オリジナル)

With the growing success of text or image guided 3D generators, users demand more control over the generation process, appearance stylization being one of them. Given a reference image, this requires adapting the appearance of a generated 3D asset to reflect the visual style of the reference while maintaining visual consistency from multiple viewpoints. To tackle this problem, we draw inspiration from the success of 2D stylization methods that leverage the attention mechanisms in large image generation models to capture and transfer visual style. In particular, we probe if large reconstruction models, commonly used in the context of 3D generation, has a similar capability. We discover that the certain attention blocks in these models capture the appearance specific features. By injecting features from a visual style image to such blocks, we develop a simple yet effective 3D appearance stylization method. Our method does not require training or test time optimization. Through both quantitative and qualitative evaluations, we demonstrate that our approach achieves superior results in terms of 3D appearance stylization, significantly improving efficiency while maintaining high-quality visual outcomes.

arxiv情報

著者 Ipek Oztas,Duygu Ceylan,Aysegul Dundar
発行日 2025-04-30 17:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D Stylization via Large Reconstruction Model はコメントを受け付けていません

Active Light Modulation to Counter Manipulation of Speech Visual Content

要約

有名なスピーチビデオは、そのアクセシビリティと影響力のために、偽造の主要なターゲットです。
この作業は、スピーカーのアイデンティティと唇と顔の動きの視覚的な偽造からライブスピーチビデオを保護するための低オーバーヘッドで目立たないシステムであるSpotlightを提案します。
デジタルドメインで動作する主な改ざん検出方法とは異なり、Spotlightはイベントサイトに動的な物理的署名を作成し、知覚できない変調光を介してすべてのビデオ録画に埋め込みます。
これらの物理的な署名は、スピーカーのアイデンティティや顔の動きなど、スピーチイベントに固有の意味的に意味のある機能をエンコードし、スプーフィングを防ぐために暗号化されています。
署名は、下流のビデオから抽出され、描かれた音声コンテンツに対して検証されて、その完全性を確認できます。
スポットライトの重要な要素には、(1)局所的なハッシュに基づく非常にコンパクトな(つまり、150ビット)、ポーズ不変の音声ビデオ機能を生成するためのフレームワークが含まれます。
(2)ビデオとライブの両方で認知できないまま、200 bps以上をビデオに埋め込む光学変調スキーム。
広範なビデオデータセットでのプロトタイプ実験は、SpotlightがAUCS $ \ GEQ $ 0.99を達成し、偽造されたビデオの検出における全体的な真の正のレートを達成することを示しています。
さらに、スポットライトは、記録条件、ビデオ後の処理技術、およびビデオ機能抽出方法に対するホワイトボックスの敵対的攻撃にわたって非常に堅牢です。

要約(オリジナル)

High-profile speech videos are prime targets for falsification, owing to their accessibility and influence. This work proposes Spotlight, a low-overhead and unobtrusive system for protecting live speech videos from visual falsification of speaker identity and lip and facial motion. Unlike predominant falsification detection methods operating in the digital domain, Spotlight creates dynamic physical signatures at the event site and embeds them into all video recordings via imperceptible modulated light. These physical signatures encode semantically-meaningful features unique to the speech event, including the speaker’s identity and facial motion, and are cryptographically-secured to prevent spoofing. The signatures can be extracted from any video downstream and validated against the portrayed speech content to check its integrity. Key elements of Spotlight include (1) a framework for generating extremely compact (i.e., 150-bit), pose-invariant speech video features, based on locality-sensitive hashing; and (2) an optical modulation scheme that embeds >200 bps into video while remaining imperceptible both in video and live. Prototype experiments on extensive video datasets show Spotlight achieves AUCs $\geq$ 0.99 and an overall true positive rate of 100% in detecting falsified videos. Further, Spotlight is highly robust across recording conditions, video post-processing techniques, and white-box adversarial attacks on its video feature extraction methodologies.

arxiv情報

著者 Hadleigh Schwartz,Xiaofeng Yan,Charles J. Carver,Xia Zhou
発行日 2025-04-30 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | Active Light Modulation to Counter Manipulation of Speech Visual Content はコメントを受け付けていません

Differentiable Room Acoustic Rendering with Multi-View Vision Priors

要約

空間オーディオによって可能になった没入型の音響体験は、現実的な仮想環境を作成する際に視覚的な側面と同じくらい重要です。
ただし、部屋の衝動応答の推定の既存の方法は、データを要求する学習ベースのモデルまたは計算高価な物理ベースのモデリングのいずれかに依存しています。
この作業では、マルチビュー画像から抽出された視覚的なキューと物理ベースの部屋のアコースティックレンダリングのためのアコースティックビームトレースを活用するフレームワークであるオーディオビジュアル微分ルームアコースティックレンダリング(AV-DAR)を紹介します。
2つのデータセットからの6つの実際の環境にわたる実験は、マルチモーダルの物理ベースのアプローチが効率的で解釈可能で、正確であり、一連の以前の方法を大幅に上回ることを示しています。
特に、実際のアコースティックフィールドデータセットでは、AV-DARは、同じスケールで訓練された場合、16.6%から50.9%の範囲の相対的な利益を提供する一方で、10倍のデータでトレーニングされたモデルに匹敵するパフォーマンスを実現します。

要約(オリジナル)

An immersive acoustic experience enabled by spatial audio is just as crucial as the visual aspect in creating realistic virtual environments. However, existing methods for room impulse response estimation rely either on data-demanding learning-based models or computationally expensive physics-based modeling. In this work, we introduce Audio-Visual Differentiable Room Acoustic Rendering (AV-DAR), a framework that leverages visual cues extracted from multi-view images and acoustic beam tracing for physics-based room acoustic rendering. Experiments across six real-world environments from two datasets demonstrate that our multimodal, physics-based approach is efficient, interpretable, and accurate, significantly outperforming a series of prior methods. Notably, on the Real Acoustic Field dataset, AV-DAR achieves comparable performance to models trained on 10 times more data while delivering relative gains ranging from 16.6% to 50.9% when trained at the same scale.

arxiv情報

著者 Derong Jin,Ruohan Gao
発行日 2025-04-30 17:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Differentiable Room Acoustic Rendering with Multi-View Vision Priors はコメントを受け付けていません

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

要約

マルチモーダル大手言語モデル(MLLM)は、単純なビジョン言語タスクに優れていますが、オブジェクトの認識、カウント、およびそれらの空間的関係の理解など、複数の機能を必要とする複雑なタスクに直面した場合に苦労します。
これは、MLLMの重要なトレーニングステップである視覚指導の調整(VIT)が、従来、データのボリュームのスケーリングに焦点を合わせていたが、トレーニング例の構成的複雑さには焦点を当てていたという事実の一部である可能性があります。
コンパクト(組成の原子間視覚視覚機能チューニング)を提案し、トレーニングの例の構成的複雑さを明示的に制御するトレーニングデータセットを生成します。
コンパクトからのデータにより、MLLMは原子機能の組み合わせをトレーニングして、複雑な機能をより効率的に学習することができます。
すべてのベンチマークにわたって、Compactは、データ予算の10%未満を使用しながら、LLAVA-665K VITに匹敵するパフォーマンスを実現し、特に複雑なマルチ容量タスクを伴うものでさらに優れています。
たとえば、Compactは、4つ以上の原子機能を必要とする特に複雑な質問で、本格的なVITと比較して、MMSTARの83.3%の改善とMM-VETの94.0%の改善を達成します。
Compactは、複雑な視覚言語タスクを改善するために、スケーラブルでデータ効率の良い視覚的な構成チューニングレシピを提供します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.

arxiv情報

著者 Xindi Wu,Hee Seung Hwang,Polina Kirichenko,Olga Russakovsky
発行日 2025-04-30 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning はコメントを受け付けていません