Explainable embeddings with Distance Explainer

要約

説明可能なAI(XAI)は大幅に進歩していますが、寸法が複雑な抽象化を表す埋め込みベクトル空間の解釈可能性に対処する方法はほとんどありません。
機械学習モデルに埋め込まれたスペースのローカルで事後の説明を生成するための新しい方法である距離説明者を紹介します。
私たちのアプローチは、選択的マスキングと距離ランクマスクフィルタリングを介して属性値を割り当てることにより、2つの埋め込みデータポイント間の距離を説明するために、顕著性ベースの技術をRiseから適応させます。
忠実さ、感度/堅牢性、ランダム化を含む確立されたXAIメトリックを使用して、クロスモーダル埋め込み(画像イメージと画像キャプションペア)の距離説明者を評価します。
ImagenetおよびClipモデルを使用した実験は、我々の方法が効果的に識別され、高い堅牢性と一貫性を維持しながら、埋め込まれたデータポイント間の類似性または類似性に寄与する機能を効果的に識別することを示しています。
また、パラメーターのチューニング、特にマスクの量と選択戦略が説明の品質にどのように影響するかについても探ります。
この作業は、Xaiの研究における重大なギャップに対処し、埋め込まれたスペースを利用した深い学習アプリケーションの透明性と信頼性を高めます。

要約(オリジナル)

While eXplainable AI (XAI) has advanced significantly, few methods address interpretability in embedded vector spaces where dimensions represent complex abstractions. We introduce Distance Explainer, a novel method for generating local, post-hoc explanations of embedded spaces in machine learning models. Our approach adapts saliency-based techniques from RISE to explain the distance between two embedded data points by assigning attribution values through selective masking and distance-ranked mask filtering. We evaluate Distance Explainer on cross-modal embeddings (image-image and image-caption pairs) using established XAI metrics including Faithfulness, Sensitivity/Robustness, and Randomization. Experiments with ImageNet and CLIP models demonstrate that our method effectively identifies features contributing to similarity or dissimilarity between embedded data points while maintaining high robustness and consistency. We also explore how parameter tuning, particularly mask quantity and selection strategy, affects explanation quality. This work addresses a critical gap in XAI research and enhances transparency and trustworthiness in deep learning applications utilizing embedded spaces.

arxiv情報

著者 Christiaan Meijer,E. G. Patrick Bos
発行日 2025-05-21 13:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T99, cs.AI, cs.CL, cs.CV, cs.LG, I.2.m | Explainable embeddings with Distance Explainer はコメントを受け付けていません

Detection of Underwater Multi-Targets Based on Self-Supervised Learning and Deformable Path Aggregation Feature Pyramid Network

要約

水中環境の制約を克服し、水中ターゲット検出モデルの精度と堅牢性を向上させるために、このペーパーでは、水中ターゲット検出のための特殊なデータセットを開発し、水中マルチターゲット検出の効率的なアルゴリズムを提案します。
SIMSIAM構造に基づいた自己監視学習は、水中ターゲット検出ネットワークの事前トレーニングに採用されています。
低コントラスト、相互閉塞、水中オブジェクトの検出における水中ターゲットの密度の高い分布によって引き起こされる低い検出精度の問題に対処するために、低水中の標的検出に適した検出モデルが、変形可能な畳み込みと拡張畳み込みを導入することによって提案されます。
提案された検出モデルは、受容フィールドを増やすことにより、より効果的な情報を取得できます。
さらに、回帰損失関数EIOUが導入され、予測ボックスの幅と高さの損失を個別に計算することにより、モデルのパフォーマンスが向上します。
実験結果は、水中ターゲット検出の精度が提案された検出器によって改善されたことを示しています。

要約(オリジナル)

To overcome the constraints of the underwater environment and improve the accuracy and robustness of underwater target detection models, this paper develops a specialized dataset for underwater target detection and proposes an efficient algorithm for underwater multi-target detection. A self-supervised learning based on the SimSiam structure is employed for the pre-training of underwater target detection network. To address the problems of low detection accuracy caused by low contrast, mutual occlusion and dense distribution of underwater targets in underwater object detection, a detection model suitable for underwater target detection is proposed by introducing deformable convolution and dilated convolution. The proposed detection model can obtain more effective information by increasing the receptive field. In addition, the regression loss function EIoU is introduced, which improves model performance by separately calculating the width and height losses of the predicted box. Experiment results show that the accuracy of the underwater target detection has been improved by the proposed detector.

arxiv情報

著者 Chang Liu
発行日 2025-05-21 13:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Detection of Underwater Multi-Targets Based on Self-Supervised Learning and Deformable Path Aggregation Feature Pyramid Network はコメントを受け付けていません

PlantDreamer: Achieving Realistic 3D Plant Models with Diffusion-Guided Gaussian Splatting

要約

近年、AIを使用して合成3Dオブジェクトを生成する能力が大幅に改善されています。
ただし、植物などの複雑な3Dオブジェクトを生成することは、かなりの課題のままです。
現在の生成3Dモデルは、一般的なオブジェクトと比較して植物の生成と闘い、植物分析ツールでの使いやすさを制限します。
PlantDreamerは、3D合成植物の生成への新しいアプローチを紹介します。これは、利用可能なテキストから3Dモデルよりも、複雑な植物の幾何学とテクスチャのリアリズムのレベルを高めることができます。
これを達成するために、当社の新世代のパイプラインは、深さコントロールネット、微調整された低ランク適応、および生成された3Dプラントモデルのテクスチャリアリズムと幾何学的整合性を直接改善する適応可能なガウスカリングアルゴリズムを活用します。
さらに、PlantDreamerは、L-Systemで生成されたメッシュを活用することにより、純粋に合成植物の生成と、それらを3Dガウススプラットに変換することにより、実際の植物点雲の強化を実現します。
出力を最先端のテキストから3Dモデルと比較することでアプローチを評価し、PlantDreamerが高忠実度の合成植物を生産する際に既存の方法を上回ることを示しています。
我々の結果は、私たちのアプローチが合成植物の生成を進めるだけでなく、レガシーポイントクラウドデータセットのアップグレードを促進し、3D表現型アプリケーションの貴重なツールになっていることを示しています。

要約(オリジナル)

Recent years have seen substantial improvements in the ability to generate synthetic 3D objects using AI. However, generating complex 3D objects, such as plants, remains a considerable challenge. Current generative 3D models struggle with plant generation compared to general objects, limiting their usability in plant analysis tools, which require fine detail and accurate geometry. We introduce PlantDreamer, a novel approach to 3D synthetic plant generation, which can achieve greater levels of realism for complex plant geometry and textures than available text-to-3D models. To achieve this, our new generation pipeline leverages a depth ControlNet, fine-tuned Low-Rank Adaptation and an adaptable Gaussian culling algorithm, which directly improve textural realism and geometric integrity of generated 3D plant models. Additionally, PlantDreamer enables both purely synthetic plant generation, by leveraging L-System-generated meshes, and the enhancement of real-world plant point clouds by converting them into 3D Gaussian Splats. We evaluate our approach by comparing its outputs with state-of-the-art text-to-3D models, demonstrating that PlantDreamer outperforms existing methods in producing high-fidelity synthetic plants. Our results indicate that our approach not only advances synthetic plant generation, but also facilitates the upgrading of legacy point cloud datasets, making it a valuable tool for 3D phenotyping applications.

arxiv情報

著者 Zane K J Hartley,Lewis A G Stuart,Andrew P French,Michael P Pound
発行日 2025-05-21 13:51:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, I.2.10 | PlantDreamer: Achieving Realistic 3D Plant Models with Diffusion-Guided Gaussian Splatting はコメントを受け付けていません

Clapper: Compact Learning and Video Representation in VLMs

要約

現在のビジョン言語モデル(VLM)は、多様なビデオ理解アプリケーション全体で顕著な機能を実証しています。
ビデオ入力用のVLMSの設計には、時間的次元を効果的にモデル化する(つまり、フレーム全体で依存関係をキャプチャする)、短いビデオと長いビデオの処理のバランスをとる必要があります。
具体的には、短いビデオでは細かい詳細の保存が必要ですが、長いビデオでは、広範な時間的コンテキストを効率的に処理するために視覚情報の戦略的圧縮が必要です。
しかし、私たちの経験的分析は、重要な制限を明らかにしています。ほとんどの既存のVLMは、元の視覚トークンの4分の1以下の視覚トークンを圧縮する際に、長いビデオ理解タスクで深刻なパフォーマンスの劣化を受けます。
短いビデオ入力と長いビデオ入力の両方のより効果的なモデリングを可能にするために、ビデオ表現に遅い速い戦略を利用し、既存のVLMバックボーン内で効率的な時間的空間エンコードのためにTimePerceiverという名前の新しいモジュールを導入する方法であるClapperを提案します。
私たちの方法を使用することにより、QA精度を損なうことなく、フレームあたりの視覚トークン(平均61トークン/フレーム)の13倍の圧縮を実現します。
私たちの実験では、ClapperはVideMommeで62.0%、MLVUで69.8%、TempCompassで67.4%を達成し、すべてビデオごとに6,000未満の視覚トークンを獲得しています。
コードはホームページで公開されます。

要約(オリジナル)

Current vision-language models (VLMs) have demonstrated remarkable capabilities across diverse video understanding applications. Designing VLMs for video inputs requires effectively modeling the temporal dimension (i.e. capturing dependencies across frames) and balancing the processing of short and long videos. Specifically, short videos demand preservation of fine-grained details, whereas long videos require strategic compression of visual information to handle extensive temporal contexts efficiently. However, our empirical analysis reveals a critical limitation: most existing VLMs suffer severe performance degradation in long video understanding tasks when compressing visual tokens below a quarter of their original visual tokens. To enable more effective modeling of both short and long video inputs, we propose Clapper, a method that utilizes a slow-fast strategy for video representation and introduces a novel module named TimePerceiver for efficient temporal-spatial encoding within existing VLM backbones. By using our method, we achieves 13x compression of visual tokens per frame (averaging 61 tokens/frame) without compromising QA accuracy. In our experiments, Clapper achieves 62.0% on VideoMME, 69.8% on MLVU, and 67.4% on TempCompass, all with fewer than 6,000 visual tokens per video. The code will be publicly available on the homepage.

arxiv情報

著者 Lingyu Kong,Hongzhi Zhang,Jingyuan Zhang,Jianzhao Huang,Kunze Li,Qi Wang,Fuzheng Zhang
発行日 2025-05-21 13:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Clapper: Compact Learning and Video Representation in VLMs はコメントを受け付けていません

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約

視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が示されています。
ただし、ほとんどのアプローチは、視覚フレームとのきめの細かい時間的対応をキャプチャできないグローバルなオーディオ表現に依存しています。
さらに、既存の方法は、再構築とモーダルのアライメントを共同で学習しようとする際に、対立する最適化目標と闘うことがよくあります。
この作業では、Cav-Mae同期を、自己監視視覚学習のための元のCav-Maeフレームワークのシンプルで効果的な拡張として提案します。
3つの重要な課題に対処します。まず、グローバルな表現を使用するのではなく、ビデオフレームに合わせた時間シーケンスとしてオーディオを扱うことにより、モダリティ間の粒度の不一致に取り組みます。
第二に、専用のグローバルトークンを通じて対照的な目標と再構築目標を分離することにより、矛盾する最適化の目標を解決します。
第三に、パッチトークンのセマンティック負荷を減らす学習可能なレジスタトークンを導入することにより、空間ローカリゼーションを改善します。
ゼロショット検索、分類およびローカリゼーションタスクに関するADESET、VGG Sound、およびADE20Kサウンドデータセットで提案されているアプローチを評価し、最先端のパフォーマンスとより複雑なアーキテクチャを上回ることを実証します。

要約(オリジナル)

Recent advances in audio-visual learning have shown promising results in learning representations across modalities. However, most approaches rely on global audio representations that fail to capture fine-grained temporal correspondences with visual frames. Additionally, existing methods often struggle with conflicting optimization objectives when trying to jointly learn reconstruction and cross-modal alignment. In this work, we propose CAV-MAE Sync as a simple yet effective extension of the original CAV-MAE framework for self-supervised audio-visual learning. We address three key challenges: First, we tackle the granularity mismatch between modalities by treating audio as a temporal sequence aligned with video frames, rather than using global representations. Second, we resolve conflicting optimization goals by separating contrastive and reconstruction objectives through dedicated global tokens. Third, we improve spatial localization by introducing learnable register tokens that reduce semantic load on patch tokens. We evaluate the proposed approach on AudioSet, VGG Sound, and the ADE20K Sound dataset on zero-shot retrieval, classification and localization tasks demonstrating state-of-the-art performance and outperforming more complex architectures.

arxiv情報

著者 Edson Araujo,Andrew Rouditchenko,Yuan Gong,Saurabhchand Bhati,Samuel Thomas,Brian Kingsbury,Leonid Karlinsky,Rogerio Feris,James R. Glass,Hilde Kuehne
発行日 2025-05-21 13:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment はコメントを受け付けていません

Convolutional Long Short-Term Memory Neural Networks Based Numerical Simulation of Flow Field

要約

計算流体力学(CFD)は、流れ場を分析するための主なアプローチです。
ただし、収束と精度は、フロー、数値的方法、および時間消費の数学的モデルに大きく依存します。
提出されたフローの深い学習ベースの分析は、代替手段を提供します。
フローフィールド予測のタスクについては、フローフィールドの時間的および空間的特性を考慮して、ベースラインネットワークとして改善された畳み込み短期記憶(con-vlstm)ニューラルネットワークが提案されています。
動的メッシュテクノロジーとユーザー定義関数(UDF)を組み合わせて、円柱の周りの流れの数値シミュレーションが実行されました。
フローフィールドスナップショットを使用して、さまざまな時期にシリンダーのウェイク領域からのデータをサンプリングし、十分なボリュームとリッチフロー状態のvar-iationを備えたフローフィールドデータセットを構築しました。
残留ネットワークと注意メカニズムは、標準のreblSTMモデルと組み合わされます。
標準のroblSTMモデルと比較して、結果は、改善されたroblSTMモデルがより多くの時間的および空間的特徴を抽出しながら、パラメーターが少なく、列車時間が短いことを示しています。

要約(オリジナル)

Computational Fluid Dynamics (CFD) is the main approach to analyzing flow field. However, the convergence and accuracy depend largely on mathematical models of flow, numerical methods, and time consumption. Deep learning-based analysis of flow filed provides an alternative. For the task of flow field prediction, an improved Convolutional Long Short-Term Memory (Con-vLSTM) Neural Network is proposed as the baseline network in consideration of the temporal and spatial characteristics of flow field. Combining dynamic mesh technology and User-Defined Function (UDF), numerical simulations of flow around a circular cylinder were conducted. Flow field snapshots were used to sample data from the cylinder’s wake region at different time instants, constructing a flow field dataset with sufficient volume and rich flow state var-iations. Residual networks and attention mechanisms are combined with the standard ConvLSTM model. Compared with the standard ConvLSTM model, the results demonstrate that the improved ConvLSTM model can extract more temporal and spatial features while having fewer parameters and shorter train-ing time.

arxiv情報

著者 Chang Liu
発行日 2025-05-21 13:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Convolutional Long Short-Term Memory Neural Networks Based Numerical Simulation of Flow Field はコメントを受け付けていません

seg_3D_by_PC2D: Multi-View Projection for Domain Generalization and Adaptation in 3D Semantic Segmentation

要約

3Dセマンティックセグメンテーションは、自律運転および道路インフラストラクチャ分析において極めて重要な役割を果たしますが、最先端の3Dモデルは、異なるデータセットに展開された場合、深刻なドメインシフトになりやすいです。
ドメイン一般化(DG)と監視なしドメイン適応(UDA)の両方に優れた新しいマルチビュープロジェクションフレームワークを提案します。
私たちのアプローチは、最初にLIDARスキャンをコヒーレントな3Dシーンに並べ、複数の仮想カメラポーズからそれらをレンダリングして、大規模な合成2Dデータセット(PC2D)を作成します。
次に、ドメイン内で2Dセグメンテーションモデルをトレーニングするために使用します。
推論中、モデルはシーンごとに数百のビューを処理します。
結果のロジットは、最終的なポイントワイズラベルを生成するために、閉塞を意識した投票スキームで3Dに戻されます。
私たちのフレームワークはモジュール式であり、ビュー生成最適化(VGO)、視覚化モダリティ最適化(MODO)、2Dモデルの選択などの主要な設計パラメーターを広範囲に調査できます。
DG設定とUDA設定の両方の下で、NuscenesとSemantickittiデータセットで評価します。
UDAで最先端の結果を達成し、DGの最先端に近い結果を達成し、特に大規模な静的クラスで大きな利益を得ています。
コードとデータセットの生成ツールは、https://github.com/andrewcaunes/ia4markingsで公開されます

要約(オリジナル)

3D semantic segmentation plays a pivotal role in autonomous driving and road infrastructure analysis, yet state-of-the-art 3D models are prone to severe domain shift when deployed across different datasets. We propose a novel multi-view projection framework that excels in both domain generalization (DG) and unsupervised domain adaptation (UDA). Our approach first aligns Lidar scans into coherent 3D scenes and renders them from multiple virtual camera poses to create a large-scale synthetic 2D dataset (PC2D). We then use it to train a 2D segmentation model in-domain. During inference, the model processes hundreds of views per scene; the resulting logits are back-projected to 3D with an occlusion-aware voting scheme to generate final point-wise labels. Our framework is modular and enables extensive exploration of key design parameters, such as view generation optimization (VGO), visualization modality optimization (MODO), and 2D model choice. We evaluate on the nuScenes and SemanticKITTI datasets under both the DG and UDA settings. We achieve state-of-the-art results in UDA and close to state-of-the-art in DG, with particularly large gains on large, static classes. Our code and dataset generation tools will be publicly available at https://github.com/andrewcaunes/ia4markings

arxiv情報

著者 Andrew Caunes,Thierry Chateau,Vincent Fremont
発行日 2025-05-21 14:08:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | seg_3D_by_PC2D: Multi-View Projection for Domain Generalization and Adaptation in 3D Semantic Segmentation はコメントを受け付けていません

M3TR: A Generalist Model for Real-World HD Map Completion

要約

自動運転車は操作のためにHDマップに依存していますが、オフラインのHDマップは最終的に時代遅れになります。
このため、オンラインHDマップ構築方法は、ライブセンサーデータを使用して、代わりにマップ情報を推測します。
実際のマップの変更に関する調査によると、HDマップの部分全体が変わらず、以前に使用できることがよくあります。
したがって、オフラインのHDマッププライアーの有無にかかわらず、HDマップの完了のための一般主義者アプローチであるM3TR(マルチマスキングマップトランス)を紹介します。
必要な基盤として、2とヌスセンをArgoverseするためのグラウンドトゥルースラベルの欠点に対処し、HDマップの完了のための最初の包括的なベンチマークを提案します。
展開には非現実的な単一の種類のマップ変更に特化した既存のモデルとは異なり、当社のジェネラリストモデルは、専門家モデルの有効性に一致して、あらゆる種類の変更を処理します。
マップマスキングが増強体制としてマスキングされているため、事前に+1.4マップの改善を達成することもできます。
最後に、以前のHDマップ要素を完全に活用し、クエリデザインを最適化することにより、M3TRは既存のメソッドを+4.3マップで上回り、オフラインHDマッププライアーの最初の実際の展開可能なモデルです。
コードはhttps://github.com/immel-f/m3trで入手できます

要約(オリジナル)

Autonomous vehicles rely on HD maps for their operation, but offline HD maps eventually become outdated. For this reason, online HD map construction methods use live sensor data to infer map information instead. Research on real map changes shows that oftentimes entire parts of an HD map remain unchanged and can be used as a prior. We therefore introduce M3TR (Multi-Masking Map Transformer), a generalist approach for HD map completion both with and without offline HD map priors. As a necessary foundation, we address shortcomings in ground truth labels for Argoverse 2 and nuScenes and propose the first comprehensive benchmark for HD map completion. Unlike existing models that specialize in a single kind of map change, which is unrealistic for deployment, our Generalist model handles all kinds of changes, matching the effectiveness of Expert models. With our map masking as augmentation regime, we can even achieve a +1.4 mAP improvement without a prior. Finally, by fully utilizing prior HD map elements and optimizing query designs, M3TR outperforms existing methods by +4.3 mAP while being the first real-world deployable model for offline HD map priors. Code is available at https://github.com/immel-f/m3tr

arxiv情報

著者 Fabian Immel,Richard Fehler,Frank Bieder,Jan-Hendrik Pauls,Christoph Stiller
発行日 2025-05-21 14:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | M3TR: A Generalist Model for Real-World HD Map Completion はコメントを受け付けていません

TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving

要約

自律運転で視覚的な質問回答(VQA)に採用されたビジョン言語モデル(VLM)は、多くの場合、リソースに制約のある車両での展開に課題をもたらす実質的な計算リソースを必要とします。
この課題に対処するために、TinyDriveを導入します。これは、運転シナリオでマルチビューVQAに軽量でありながら効果的なVLMを紹介します。
モデルは、マルチスケールビジョンエンコーダーと、トークンとシーケンスのデュアルレベルの優先順位付けメカニズムを含む2つの重要なコンポーネントで構成されています。
Multiscaleエンコーダーは、スケールインジェクションとクロススケールゲーティングを通じて、多様な解像度でのマルチビュー画像の処理を促進し、視覚表現の強化を生成します。
トークンレベルでは、学習された重要性スコアに基づいて最も有益なトークンを動的に選択および処理するトークンルーティングメカニズムを設計します。
シーケンスレベルでは、正規化された損失、不確実性の推定値、および多様性メトリックを統合して、シーケンス優先バッファー内でサンプルをランク付けおよび保存するシーケンススコアを策定することを提案します。
スコアが高いサンプルは、トレーニングのためにより頻繁に選択されます。
TinyDriveは、最初にカスタムキュレーションのVQAデータセットで評価され、その後、パブリックドライベルベンチマークでテストされ、最先端の言語理解パフォーマンスを実現します。
特に、パラメーターカウントが大幅に小さいにもかかわらず、BLE-4およびMeteorスコアでそれぞれ11.1%と35.4%の相対的な改善を達成します。

要約(オリジナル)

Vision Language Models (VLMs) employed for visual question-answering (VQA) in autonomous driving often require substantial computational resources that pose a challenge for their deployment in resource-constrained vehicles. To address this challenge, we introduce TinyDrive, a lightweight yet effective VLM for multi-view VQA in driving scenarios. Our model comprises two key components including a multiscale vision encoder and a dual-level prioritization mechanism for tokens and sequences. The multiscale encoder facilitates the processing of multi-view images at diverse resolutions through scale injection and cross-scale gating to generate enhanced visual representations. At the token level, we design a token routing mechanism that dynamically selects and process the most informative tokens based on learned importance scores. At the sequence level, we propose integrating normalized loss, uncertainty estimates, and a diversity metric to formulate sequence scores that rank and preserve samples within a sequence priority buffer. Samples with higher scores are more frequently selected for training. TinyDrive is first evaluated on our custom-curated VQA dataset, and it is subsequently tested on the public DriveLM benchmark, where it achieves state-of-the-art language understanding performance. Notably, it achieves relative improvements of 11.1% and 35.4% in BLEU-4 and METEOR scores, respectively, despite having a significantly smaller parameter count.

arxiv情報

著者 Hossein Hassani,Soodeh Nikan,Abdallah Shami
発行日 2025-05-21 14:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving はコメントを受け付けていません

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約

視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVSR)が堅牢性を高めます。
最近のAdvancesは大規模な言語モデル(LLMS)をAVSRに統合しますが、その高い計算コストは​​、リソースに制約のある設定での展開を妨げています。
To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs.
Llama-smopは、まばらに合った混合混合物(MOE)プロジェクターを組み込むことにより、強力なパフォーマンスを維持しながら、より小さなLLMを使用できます。
3つのSMOP構成を調査し、モダリティ固有のルーターと専門家を使用するLlama-Smop Dedr(Disjoint-Experts、Disjoint-Routers)がASR、VSR、およびAVSRタスクで優れたパフォーマンスを達成することを示します。
アブレーション研究は、専門家の活性化、スケーラビリティ、およびノイズの堅牢性におけるその有効性を確認します。

要約(オリジナル)

Audio-Visual Speech Recognition (AVSR) enhances robustness in noisy environments by integrating visual cues. While recent advances integrate Large Language Models (LLMs) into AVSR, their high computational cost hinders deployment in resource-constrained settings. To address this, we propose Llama-SMoP, an efficient Multimodal LLM that employs a Sparse Mixture of Projectors (SMoP) module to scale model capacity without increasing inference costs. By incorporating sparsely-gated mixture-of-experts (MoE) projectors, Llama-SMoP enables the use of smaller LLMs while maintaining strong performance. We explore three SMoP configurations and show that Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), which uses modality-specific routers and experts, achieves superior performance on ASR, VSR, and AVSR tasks. Ablation studies confirm its effectiveness in expert activation, scalability, and noise robustness.

arxiv情報

著者 Umberto Cappellazzo,Minsu Kim,Stavros Petridis,Daniele Falavigna,Alessio Brutti
発行日 2025-05-21 14:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach はコメントを受け付けていません