Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions

要約

視覚的な音声認識は、視覚的なあいまいさ、スピーカー間の人間間変動、沈黙の複雑なモデリングなど、聴覚的な意味を分配することによって、さまざまな課題を考慮する必要があるオープンな研究問題のままです。
それにもかかわらず、大規模なデータベースの利用可能性と強力な注意メカニズムの使用により、最近の顕著な結果がこの分野で達成されています。
その上、英語を除いて複数の言語は最近では興味深いものです。
このペーパーでは、スペイン語の自動連続リップリーディングの顕著な進歩を示しています。
まず、ハイブリッドCTC/注意アーキテクチャに基づくエンドツーエンドシステムが提示されます。
実験は、異なる性質の2つのコーパスで行われ、両方のデータベースでこれまでに得られた最高のパフォーマンスを大幅に改善する最先端の結果に達します。
さらに、徹底的なアブレーション研究が実施され、アーキテクチャを形成するさまざまなコンポーネントが音声認識の質にどのように影響するかを研究されています。
次に、自動システムの学習に影響を与える可能性のあるさまざまな要因を調査するために、厳密なエラー分析が実行されます。
最後に、新しいスペインのリップリーディングベンチマークが統合されます。
コードモデルと訓練されたモデルは、https://github.com/david-gimeno/evaluating-end2end-spanish-lipreadingで入手できます。

要約(オリジナル)

Visual speech recognition remains an open research problem where different challenges must be considered by dispensing with the auditory sense, such as visual ambiguities, the inter-personal variability among speakers, and the complex modeling of silence. Nonetheless, recent remarkable results have been achieved in the field thanks to the availability of large-scale databases and the use of powerful attention mechanisms. Besides, multiple languages apart from English are nowadays a focus of interest. This paper presents noticeable advances in automatic continuous lipreading for Spanish. First, an end-to-end system based on the hybrid CTC/Attention architecture is presented. Experiments are conducted on two corpora of disparate nature, reaching state-of-the-art results that significantly improve the best performance obtained to date for both databases. In addition, a thorough ablation study is carried out, where it is studied how the different components that form the architecture influence the quality of speech recognition. Then, a rigorous error analysis is carried out to investigate the different factors that could affect the learning of the automatic system. Finally, a new Spanish lipreading benchmark is consolidated. Code and trained models are available at https://github.com/david-gimeno/evaluating-end2end-spanish-lipreading.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2025-02-17 14:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Evaluation of End-to-End Continuous Spanish Lipreading in Different Data Conditions はコメントを受け付けていません

Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery

要約

時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターンを識別しますが、その教師のない性質は、ユーザーにとって興味深いモチーフにつながる可能性があります。
これに対処するために、ユーザーがモチーフに制約を課すことができるフレームワークを提案します。ここで、アプリケーションドメイン内の目的のモチーフのプロパティに従って制約を簡単に定義できます。
また、フレームワークであるMocomotif-Dokアルゴリズムの効率的な実装も提案しています。
Locomotif-Dokが、実際のデータと合成データでドメインの知識を効果的に活用し、限られた形式のドメイン知識のみをサポートする他のTSMD技術を上回ることができることを実証します。

要約(オリジナル)

Time Series Motif Discovery (TSMD) identifies repeating patterns in time series data, but its unsupervised nature might result in motifs that are not interesting to the user. To address this, we propose a framework that allows the user to impose constraints on the motifs to be discovered, where constraints can easily be defined according to the properties of the desired motifs in the application domain. We also propose an efficient implementation of the framework, the LoCoMotif-DoK algorithm. We demonstrate that LoCoMotif-DoK can effectively leverage domain knowledge in real and synthetic data, outperforming other TSMD techniques which only support a limited form of domain knowledge.

arxiv情報

著者 Aras Yurtman,Daan Van Wesenbeeck,Wannes Meert,Hendrik Blockeel
発行日 2025-02-17 14:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery はコメントを受け付けていません

Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives

要約

視聴覚学習は、複数の感覚モダリティを活用することにより、現実の世界をより豊かに理解してモデルを装備していますが、この統合は敵対的な攻撃に対して新しい脆弱性も導入します。
この論文では、時間的およびモダリティ固有の脆弱性の両方を考慮して、視聴覚モデルの敵対的な堅牢性に関する包括的な研究を提示します。
2つの強力な敵対的攻撃を提案します。1)連続した時間セグメントにわたって固有の時間的冗長性を活用する時間的不変攻撃と2)音声と視覚モダリティの不一致をもたらすモダリティの不整合攻撃。
これらの攻撃は、多様な脅威に対する視聴覚モデルの堅牢性を徹底的に評価するように設計されています。
さらに、このような攻撃から防御するために、新しい視聴覚敵の敵対的訓練フレームワークを紹介します。
このフレームワークは、マルチモーダルデータと敵対的なカリキュラム戦略に合わせて調整された効率的な敵対的な摂動クラフトを組み込むことにより、バニラ敵対的訓練における重要な課題に対処します。
速度論的サウンドデータセットでの広範な実験は、モデルのパフォーマンスを低下させるために提案されている時間的およびモダリティベースの攻撃が最先端のパフォーマンスを達成できることを示していますが、敵対的なトレーニングの防御により、敵対的な訓練効率性が大幅に改善されることが示されています。

要約(オリジナル)

While audio-visual learning equips models with a richer understanding of the real world by leveraging multiple sensory modalities, this integration also introduces new vulnerabilities to adversarial attacks. In this paper, we present a comprehensive study of the adversarial robustness of audio-visual models, considering both temporal and modality-specific vulnerabilities. We propose two powerful adversarial attacks: 1) a temporal invariance attack that exploits the inherent temporal redundancy across consecutive time segments and 2) a modality misalignment attack that introduces incongruence between the audio and visual modalities. These attacks are designed to thoroughly assess the robustness of audio-visual models against diverse threats. Furthermore, to defend against such attacks, we introduce a novel audio-visual adversarial training framework. This framework addresses key challenges in vanilla adversarial training by incorporating efficient adversarial perturbation crafting tailored to multi-modal data and an adversarial curriculum strategy. Extensive experiments in the Kinetics-Sounds dataset demonstrate that our proposed temporal and modality-based attacks in degrading model performance can achieve state-of-the-art performance, while our adversarial training defense largely improves the adversarial robustness as well as the adversarial training efficiency.

arxiv情報

著者 Zeliang Zhang,Susan Liang,Daiki Shimada,Chenliang Xu
発行日 2025-02-17 14:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | Rethinking Audio-Visual Adversarial Vulnerability from Temporal and Modality Perspectives はコメントを受け付けていません

Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics

要約

複数のインテリジェンスの理論は、認知能力の階層的な性質を強調しています。
空間人工知能を進めるために、視覚言語モデル(VLMS)の5つの基本的な空間能力(BSA)を定義する心理測定フレームワークの先駆者:空間的知覚、空間的関係、空間方向、精神回転、および空間視覚化。
9つの検証済みの心理測定実験を通じて13の主流VLMS 13の主流VLMSは、人間に対して有意なギャップ(平均スコア24.95対68.38)、3つの重要な調査結果を示し、VLMSミラーのヒト階層(2D回転で最も強く、3D回転で最も弱い)を独立したBSAS(Pearson’s Human Hierarchies)
R <0.4); 2)QWEN2-VL-7Bなどの小型モデルは、QWENがリード(30.82)とInternVL2の遅れ(19.6)で大規模な対応物を上回ります。 3)考え方のチェーン(0.100精度ゲイン)や5ショットトレーニング(0.259の改善)などの介入は、建築上の制約からの制限を示しています。 識別された障壁には、動的シミュレーションの弱いジオメトリが弱いことが含まれます。 心理測定BSAをVLM機能にリンクすることにより、空間インテリジェンス評価のための診断ツールキット、具体化されたAI開発のための方法論的基礎、および人間のような空間知能を達成するための認知科学に基づいたロードマップを提供します。

要約(オリジナル)

The Theory of Multiple Intelligences underscores the hierarchical nature of cognitive capabilities. To advance Spatial Artificial Intelligence, we pioneer a psychometric framework defining five Basic Spatial Abilities (BSAs) in Visual Language Models (VLMs): Spatial Perception, Spatial Relation, Spatial Orientation, Mental Rotation, and Spatial Visualization. Benchmarking 13 mainstream VLMs through nine validated psychometric experiments reveals significant gaps versus humans (average score 24.95 vs. 68.38), with three key findings: 1) VLMs mirror human hierarchies (strongest in 2D orientation, weakest in 3D rotation) with independent BSAs (Pearson’s r<0.4); 2) Smaller models such as Qwen2-VL-7B surpass larger counterparts, with Qwen leading (30.82) and InternVL2 lagging (19.6); 3) Interventions like chain-of-thought (0.100 accuracy gain) and 5-shot training (0.259 improvement) show limits from architectural constraints. Identified barriers include weak geometry encoding and missing dynamic simulation. By linking psychometric BSAs to VLM capabilities, we provide a diagnostic toolkit for spatial intelligence evaluation, methodological foundations for embodied AI development, and a cognitive science-informed roadmap for achieving human-like spatial intelligence.

arxiv情報

著者 Wenrui Xu,Dalin Lyu,Weihang Wang,Jie Feng,Chen Gao,Yong Li
発行日 2025-02-17 14:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Defining and Evaluating Visual Language Models’ Basic Spatial Abilities: A Perspective from Psychometrics はコメントを受け付けていません

Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving?

要約

自動化された運転のような現実世界のシナリオのエージェントは、特に知覚的な不確実性のために、環境の不確実性に対処します。
補強学習は、不確実性の下での自律的な意思決定に専念していますが、これらのアルゴリズムは通常、環境に含まれている不確実性について知らされていません。
一方、知覚自体の不確実性の推定は、一般的に、カメラの画像に基づいた誤陽性検出率またはキャリブレーションエラーの観点から、知覚ドメインで直接評価されます。
目標指向のアクションを決定するためのその使用は、ほとんど実施されていません。
この論文では、この不確実性に関する情報が利用可能な場合、エージェントの行動が不確実な認識にどのように影響され、この行動がどのように変化するかを調査します。
したがって、他の道路利用者と衝突することなく、可能な限り速くルートを運転することでエージェントが報われるプロキシタスクを検討します。
対照実験については、後者を通知しながら与えられた薬剤の認識を摂動することにより、観測空間に不確実性を導入します。
私たちの実験は、乱れた知覚によってモデル化された信頼できない観察スペースが、エージェントの防御的な運転行動につながることを示しています。
さらに、現在の不確実性に関する情報を観測​​空間に直接追加すると、エージェントは特定の状況に適応し、一般にタスクをより速く達成し、同時にリスクを占めます。

要約(オリジナル)

Agents in real-world scenarios like automated driving deal with uncertainty in their environment, in particular due to perceptual uncertainty. Although, reinforcement learning is dedicated to autonomous decision-making under uncertainty these algorithms are typically not informed about the uncertainty currently contained in their environment. On the other hand, uncertainty estimation for perception itself is typically directly evaluated in the perception domain, e.g., in terms of false positive detection rates or calibration errors based on camera images. Its use for deciding on goal-oriented actions remains largely unstudied. In this paper, we investigate how an agent’s behavior is influenced by an uncertain perception and how this behavior changes if information about this uncertainty is available. Therefore, we consider a proxy task, where the agent is rewarded for driving a route as fast as possible without colliding with other road users. For controlled experiments, we introduce uncertainty in the observation space by perturbing the perception of the given agent while informing the latter. Our experiments show that an unreliable observation space modeled by a perturbed perception leads to a defensive driving behavior of the agent. Furthermore, when adding the information about the current uncertainty directly to the observation space, the agent adapts to the specific situation and in general accomplishes its task faster while, at the same time, accounting for risks.

arxiv情報

著者 Natalie Grabowsky,Annika Mütze,Joshua Wendland,Nils Jansen,Matthias Rottmann
発行日 2025-02-17 14:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Does Knowledge About Perceptual Uncertainty Help an Agent in Automated Driving? はコメントを受け付けていません

Understanding Long Videos with Multimodal Language Models

要約

大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能になり、長距離理解ベンチマークで優れたパフォーマンスを実現しています。
私たちは、基礎となるLLMの広範な世界知識と強力な推論スキルがこの強力なパフォーマンスにどのように影響するかを調査します。
驚くべきことに、LLMベースのアプローチは、ビデオ具体情報が限られている場合でも、ビデオ情報が限られている場合でも、驚くほど良好な精度をもたらす可能性があることがわかります。
これに基づいて、ビデオ固有の情報をLLMベースのフレームワークに注入することを検討します。
既製のビジョンツールを利用して、ビデオから3つのオブジェクト中心の情報モダリティを抽出し、この情報を融合するための媒体として自然言語を活用します。
結果として生じるマルチモーダルビデオ理解(MVU)フレームワークは、複数のビデオ理解ベンチマークにわたって最先端のパフォーマンスを示しています。
また、ロボティクスドメインタスクでの強力なパフォーマンスは、その強力な一般性を確立します。
私たちのコードは公開されます。

要約(オリジナル)

Large Language Models (LLMs) have allowed recent LLM-based approaches to achieve excellent performance on long-video understanding benchmarks. We investigate how extensive world knowledge and strong reasoning skills of underlying LLMs influence this strong performance. Surprisingly, we discover that LLM-based approaches can yield surprisingly good accuracy on long-video tasks with limited video information, sometimes even with no video specific information. Building on this, we exploring injecting video-specific information into an LLM-based framework. We utilize off-the-shelf vision tools to extract three object-centric information modalities from videos and then leverage natural language as a medium for fusing this information. Our resulting Multimodal Video Understanding (MVU) framework demonstrates state-of-the-art performance across multiple video understanding benchmarks. Strong performance also on robotics domain tasks establish its strong generality. Our code will be released publicly.

arxiv情報

著者 Kanchana Ranasinghe,Xiang Li,Kumara Kahatapitiya,Michael S. Ryoo
発行日 2025-02-17 14:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません

iFormer: Integrating ConvNet and Transformer for Mobile Application

要約

Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいファミリーを紹介し、モバイルアプリケーションの遅延と精度の最適化に重点を置いています。
Iformerは、畳み込みの高速ローカル表現能力を、自己触たちの効率的なグローバルモデリング能力と効果的に統合します。
局所的な相互作用は、より軽量のモバイルネットワークを設計するために、標準の畳み込みネットワーク\ textit {i.e。}、Convnextの変換から派生しています。
新しく導入されたモバイル変調注意は、MHAでのメモリ集約型操作を削除し、効率的な変調メカニズムを採用して動的なグローバル表現能力を高めます。
Iformerがさまざまなタスクで既存の軽量ネットワークを上回ることを示す包括的な実験を実施します。
特に、Iformerは、Imagenet-1Kで80.4 \%の印象的なTOP-1精度を達成し、iPhone 13で1.10ミリ秒のレイテンシで、同様のレイテンシ制約の下で最近提案されたMobileNETV4を上回ります。
さらに、この方法では、COCOオブジェクトの検出、インスタンスセグメンテーション、ADE20Kセマンティックセグメンテーションなど、下流タスクの大幅な改善が示されており、これらのシナリオの高解像度入力のためにモバイルデバイスの低レイテンシを維持しています。

要約(オリジナル)

We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, \textit{i.e.}, ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

arxiv情報

著者 Chuanyang Zheng
発行日 2025-02-17 15:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | iFormer: Integrating ConvNet and Transformer for Mobile Application はコメントを受け付けていません

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation

要約

オープンボキャブラリーセマンティックセグメンテーションにより、モデルはトレーニングデータを超えて新しいオブジェクトカテゴリを特定できます。
この柔軟性は大きな進歩を表していますが、現在のアプローチは、手動で指定されたクラス名に入力として依然として依存しており、実際のアプリケーションに固有のボトルネックを作成します。
この作業は、語彙を含まないセマンティックセグメンテーションパイプラインを提案し、事前定義されたクラスの語彙の必要性を排除します。
具体的には、ユーザーがシーン内のすべての潜在的なオブジェクトの知識を必要とする鶏肉と卵の問題に対処しますが、セグメンテーションの目的は、これらのオブジェクトを発見することです。
提案されたアプローチは、視覚言語モデルを活用して、オブジェクトを自動的に認識し、適切なクラス名を生成し、クラスの仕様と命名品質の課題を解決することを目指しています。
いくつかのパブリックデータセットでの広範な実験を通じて、特に画像テキストクラスが生成された説明とペアになっている場合、モデルパフォーマンスにおけるテキストエンコーダーの重要な役割を強調します。
セグメンテーションテキストエンコーダーの感度によって導入された課題は、クラスタグ付けプロセス内の偽ネガに誤ったネガになり、タスクに複雑さを加えますが、完全に自動化されたパイプラインが、多様な実際のシナリオ全体で語彙のないセグメンテーションの精度を大幅に向上させることを示しています。

要約(オリジナル)

Open-vocabulary semantic segmentation enables models to identify novel object categories beyond their training data. While this flexibility represents a significant advancement, current approaches still rely on manually specified class names as input, creating an inherent bottleneck in real-world applications. This work proposes a Vocabulary-Free Semantic Segmentation pipeline, eliminating the need for predefined class vocabularies. Specifically, we address the chicken-and-egg problem where users need knowledge of all potential objects within a scene to identify them, yet the purpose of segmentation is often to discover these objects. The proposed approach leverages Vision-Language Models to automatically recognize objects and generate appropriate class names, aiming to solve the challenge of class specification and naming quality. Through extensive experiments on several public datasets, we highlight the crucial role of the text encoder in model performance, particularly when the image text classes are paired with generated descriptions. Despite the challenges introduced by the sensitivity of the segmentation text encoder to false negatives within the class tagging process, which adds complexity to the task, we demonstrate that our fully automated pipeline significantly enhances vocabulary-free segmentation accuracy across diverse real-world scenarios.

arxiv情報

著者 Klara Reichard,Giulia Rizzoli,Stefano Gasperini,Lukas Hoyer,Pietro Zanuttigh,Nassir Navab,Federico Tombari
発行日 2025-02-17 15:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Open-Vocabulary to Vocabulary-Free Semantic Segmentation はコメントを受け付けていません

DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation

要約

この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパラダイムである動的潜在フレームレートVAE(DLFR-vae)を提案します。
既存のビデオ生成モデルは、前処理されたVAEを介して固定圧縮速度を適用しますが、実際のビデオコンテンツは、静的なシーンよりも多くの情報を含むハイモーションセグメントを含むかなりの時間的非均一性を示すことを観察します。
この洞察に基づいて、DLFR-Vaeはコンテンツの複雑さに応じて潜在フレームレートを動的に調整します。
具体的には、DLFR-Vaeは2つのコアイノベーションで構成されています。(1)動画を一時的なチャンクに分割し、情報理論的コンテンツの複雑さに基づいて最適なフレームレートを適応的に決定する動的潜在フレームレートスケジューラ、および(2)トレーニングなしの適応メカニズム
前処理されたVAEアーキテクチャを、さまざまなフレームレートで機能を処理できる動的なVAEに変換します。
当社のシンプルだが効果的なDLFR-Vaeは、既存のビデオ生成モデルとシームレスに統合され、ビデオ生成プロセスを加速するプラグアンドプレイモジュールとして機能できます。

要約(オリジナル)

In this paper, we propose the Dynamic Latent Frame Rate VAE (DLFR-VAE), a training-free paradigm that can make use of adaptive temporal compression in latent space. While existing video generative models apply fixed compression rates via pretrained VAE, we observe that real-world video content exhibits substantial temporal non-uniformity, with high-motion segments containing more information than static scenes. Based on this insight, DLFR-VAE dynamically adjusts the latent frame rate according to the content complexity. Specifically, DLFR-VAE comprises two core innovations: (1) A Dynamic Latent Frame Rate Scheduler that partitions videos into temporal chunks and adaptively determines optimal frame rates based on information-theoretic content complexity, and (2) A training-free adaptation mechanism that transforms pretrained VAE architectures into a dynamic VAE that can process features with variable frame rates. Our simple but effective DLFR-VAE can function as a plug-and-play module, seamlessly integrating with existing video generation models and accelerating the video generation process.

arxiv情報

著者 Zhihang Yuan,Siyuan Wang,Rui Xie,Hanling Zhang,Tongcheng Fang,Yuzhang Shang,Shengen Yan,Guohao Dai,Yu Wang
発行日 2025-02-17 15:22:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation はコメントを受け付けていません

Bridging Compressed Image Latents and Multimodal Large Language Models

要約

このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用する下流の視力タスクのニーズに合わせて、圧縮された画像の潜在性を適応させる最初の研究を紹介します。
MLLMは、テキストを超えて大規模な言語モデルの成功をモダリティ(画像など)に拡大しましたが、10億スケールはリソース制約のエンドデバイスでの展開を妨げています。
クラウドホストされたMLLMは利用可能になる可能性がありますが、エンドデバイスによってキャプチャされた生の未圧縮の画像をクラウドに送信するには、効率的な画像圧縮システムが必要です。
これに対処するために、新たなニューラルイメージ圧縮に焦点を当て、軽量の変換ネックとサロゲート損失を備えた新しいフレームワークを提案し、MLLMベースのビジョンタスクに圧縮された画像潜在性を適応させます。
MLLMSの大規模を考えると、当社のフレームワークは、システムのトレーニングからの視覚エンコーダーの一部を除き、下流のMLLM全体を除外します。
これは、トレーニングにダウンストリームネットワークを含むマシンアプローチのほとんどの既存のコーディングから際立っているため、ネットワークがMLLMである場合は非現実的である可能性があります。
提案されたフレームワークは、さまざまなMLLM、ニューラルイメージコーデック、および複数のアプリケーションシナリオに適用できるという点で一般的です。
およびマシン認識、または(3)マシン認識のみのために完全に更新されます。
さまざまなニューラル画像コーデックとさまざまなMLLMに関する広範な実験は、私たちの方法がより複雑ではるかに少ない優れたレートのアクカリ性パフォーマンスを達成することを示しています。

要約(オリジナル)

This paper presents the first-ever study of adapting compressed image latents to suit the needs of downstream vision tasks that adopt Multimodal Large Language Models (MLLMs). MLLMs have extended the success of large language models to modalities (e.g. images) beyond text, but their billion scale hinders deployment on resource-constrained end devices. While cloud-hosted MLLMs could be available, transmitting raw, uncompressed images captured by end devices to the cloud requires an efficient image compression system. To address this, we focus on emerging neural image compression and propose a novel framework with a lightweight transform-neck and a surrogate loss to adapt compressed image latents for MLLM-based vision tasks. Given the huge scale of MLLMs, our framework excludes the entire downstream MLLM except part of its visual encoder from training our system. This stands out from most existing coding for machine approaches that involve downstream networks in training and thus could be impractical when the networks are MLLMs. The proposed framework is general in that it is applicable to various MLLMs, neural image codecs, and multiple application scenarios, where the neural image codec can be (1) pre-trained for human perception without updating, (2) fully updated for joint human and machine perception, or (3) fully updated for only machine perception. Extensive experiments on different neural image codecs and various MLLMs show that our method achieves great rate-accuracy performance with much less complexity.

arxiv情報

著者 Chia-Hao Kao,Cheng Chien,Yu-Jen Tseng,Yi-Hsin Chen,Alessandro Gnutti,Shao-Yuan Lo,Wen-Hsiao Peng,Riccardo Leonardi
発行日 2025-02-17 15:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM | Bridging Compressed Image Latents and Multimodal Large Language Models はコメントを受け付けていません