mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

要約

マルチモーダル埋め込みモデルは、テキストや画像などのさまざまなモダリティからデータを統一された表現空間にマッピングする能力に大きな注目を集めています。
ただし、限られたラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げます。
最近のアプローチでは、この問題に対処するためにデータ統合を活用していますが、合成データの品質は重要なボトルネックのままです。
この作業では、高品質の合成マルチモーダルデータの3つの基準を特定します。
まず、幅広い範囲により、生成されたデータが多様なタスクとモダリティをカバーし、さまざまなダウンストリームシナリオに適用できるようになります。
第二に、堅牢なクロスモーダルアライメントにより、異なるモダリティがセマンティブに一貫性があります。
第三に、高い忠実度は、合成データがその信頼性を高めるために現実的な詳細を維持することを保証します。
これらの原則に導かれて、次のデータセットを合成します。(1)幅広いタスク、モダリティの組み合わせ、言語をカバーします。
)現実世界の画像を正確で関連するテキストで組み込み、自己評価と改良により忠実度を確保します。
これらの高品質の合成および標識データセットを活用して、マルチモーダル多言語E5モデルMME5をトレーニングします。
広範な実験は、MME5がMMEBベンチマークで最先端のパフォーマンスを達成し、XTDベンチマークで優れた多言語パフォーマンスを達成することを示しています。
コード、データセット、モデルはhttps://github.com/haon-chen/mme5でリリースされています。

要約(オリジナル)

Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

arxiv情報

著者 Haonan Chen,Liang Wang,Nan Yang,Yutao Zhu,Ziliang Zhao,Furu Wei,Zhicheng Dou
発行日 2025-02-12 15:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data はコメントを受け付けていません

Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction

要約

リモートセンシング画像セグメンテーション(RRSIS)を参照することは、生態学的監視、都市計画、災害管理に不可欠であり、テキストの説明によって導かれるリモートセンシング画像でのオブジェクトの正確なセグメンテーションを必要とします。
このタスクは、多様なカテゴリと小さなターゲットを備えたリモートセンシング画像の高い空間分解能と幅広いカバレッジ、およびぼやけたエッジを持つクラスター化された不明確なターゲットの存在により、かなりのビジョン言語ギャップ、高い空間分解能と幅広いカバレッジのために、ユニークな挑戦です。
これらの問題に取り組むために、ビジョン言語のギャップを埋め、マルチスケールの特徴の相互作用を強化し、微調整されたオブジェクトの分化を改善するために設計された新しいフレームワークである\ Oursを提案します。
具体的には、\私たちは以下を紹介します。(1)改善された視覚言語特徴アライメントのための双方向空間相関(BSC)、(2)ターゲットバックグラウンドのTwinstreamデコーダー(T-BTD)は、ターゲットと非ターゲットを正確に区別するための、および(
3)堅牢なマルチモーダル機能の再構築のためのデュアルモーダルオブジェクト学習戦略(D-MOLS)。
ベンチマークデータセットでの広範な実験refsegrsおよびrrsis-dは、\我々が最先端のパフォーマンスを達成することを示しています。
具体的には、2つのデータセットでそれぞれ全体のIou(OIOU)を3.76パーセントポイント(80.57)および1.44パーセントポイント(79.23)に改善します。
さらに、平均IOU(MIOU)の以前の方法(67.95)および1.84パーセントポイント(66.04)よりも優れており、RRSIのコア課題に正確さと堅牢性を高めて効果的に対処します。

要約(オリジナル)

Referring Remote Sensing Image Segmentation (RRSIS) is critical for ecological monitoring, urban planning, and disaster management, requiring precise segmentation of objects in remote sensing imagery guided by textual descriptions. This task is uniquely challenging due to the considerable vision-language gap, the high spatial resolution and broad coverage of remote sensing imagery with diverse categories and small targets, and the presence of clustered, unclear targets with blurred edges. To tackle these issues, we propose \ours, a novel framework designed to bridge the vision-language gap, enhance multi-scale feature interaction, and improve fine-grained object differentiation. Specifically, \ours introduces: (1) the Bidirectional Spatial Correlation (BSC) for improved vision-language feature alignment, (2) the Target-Background TwinStream Decoder (T-BTD) for precise distinction between targets and non-targets, and (3) the Dual-Modal Object Learning Strategy (D-MOLS) for robust multimodal feature reconstruction. Extensive experiments on the benchmark datasets RefSegRS and RRSIS-D demonstrate that \ours achieves state-of-the-art performance. Specifically, \ours improves the overall IoU (oIoU) by 3.76 percentage points (80.57) and 1.44 percentage points (79.23) on the two datasets, respectively. Additionally, it outperforms previous methods in the mean IoU (mIoU) by 5.37 percentage points (67.95) and 1.84 percentage points (66.04), effectively addressing the core challenges of RRSIS with enhanced precision and robustness.

arxiv情報

著者 Tianxiang Zhang,Zhaokun Wen,Bo Kong,Kecheng Liu,Yisi Zhang,Peixian Zhuang,Jiangyun Li
発行日 2025-02-12 15:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約

注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の皮質表面の長距離依存性をモデル化する際の例外的なパフォーマンスを実証しています。
ただし、それらの広範な推論時間と高いメモリは、限られたコンピューティングリソースを備えた大規模なデータセットへのアプリケーションの課題をもたらします。
コンピュータービジョンの状態空間モデルに触発されて、球状の表面に注意を払わないビジョンマンバ(VIM)を紹介し、球状マニホールドに関するデータを分析するためのドメインに依存しないアーキテクチャを提示します。
私たちの方法は、細分化されたicoSphereから導出された三角形のパッチのシーケンスとして球形データを表現することにより、表面のパッチを実現します。
提案された表面視力マンバ(SIM)は、新生児脳からの皮質表面指標を使用して、複数の神経発達表現型回帰タスクで評価されます。
実験結果は、SIMが注意とGDLベースの両方の方法を上回ることを示しており、ICO-4グリッドパーティションの下での表面視力変圧器(SIT)と比較して、4.8倍の推論を4.8倍も提供し、91.7%のメモリ消費量を達成します。
感度分析は、SIMが微妙な認知発達パターンを特定する可能性をさらに強調しています。
このコードは、https://github.com/rongzhao-he/surface-vision-mambaで入手できます。

要約(オリジナル)

Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.

arxiv情報

著者 Rongzhao He,Weihao Zheng,Leilei Zhao,Ying Wang,Dalin Zhu,Dan Wu,Bin Hu
発行日 2025-02-12 15:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

BCDDM: Branch-Corrected Denoising Diffusion Model for Black Hole Image Generation

要約

ブラックホールと降着フローの特性は、イベントHorizo​​n望遠鏡(EHT)データをフィッティングすることで推測できます。
ただし、GRRTの計算集中性のため、特定の放射フラックス画像を生成する効率を改善する必要があります。
このホワイトペーパーでは、分岐補正メカニズムと加重混合損失関数を使用して、放射的に非効率的な降着流(RIAF)モデルの7つの物理パラメーターに基づく生成ブラックホール画像の精度を改善する分岐補正拡散モデル(BCDDM)を紹介します。
私たちの実験は、生成された画像とその物理的パラメーターとの間に強い相関関係を示しています。
BCDDM生成画像でGRRTデータセットを強化し、パラメーター回帰にResNet50を使用することにより、パラメーター予測パフォーマンスの大幅な改善を実現します。
このアプローチは、計算コストを削減し、データセットの拡張、パラメーターの推定、およびモデルフィッティングのためのより速く、より効率的な方法を提供します。

要約(オリジナル)

The properties of black holes and accretion flows can be inferred by fitting Event Horizon Telescope (EHT) data to simulated images generated through general relativistic ray tracing (GRRT). However, due to the computationally intensive nature of GRRT, the efficiency of generating specific radiation flux images needs to be improved. This paper introduces the Branch Correction Denoising Diffusion Model (BCDDM), which uses a branch correction mechanism and a weighted mixed loss function to improve the accuracy of generated black hole images based on seven physical parameters of the radiatively inefficient accretion flow (RIAF) model. Our experiments show a strong correlation between the generated images and their physical parameters. By enhancing the GRRT dataset with BCDDM-generated images and using ResNet50 for parameter regression, we achieve significant improvements in parameter prediction performance. This approach reduces computational costs and provides a faster, more efficient method for dataset expansion, parameter estimation, and model fitting.

arxiv情報

著者 Ao liu,Zelin Zhang,Songbai Chen,Cuihong Wen
発行日 2025-02-12 16:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.GA, cs.CV | BCDDM: Branch-Corrected Denoising Diffusion Model for Black Hole Image Generation はコメントを受け付けていません

Annealed Winner-Takes-All for Motion Forecasting

要約

自律運転では、モーション予測は、近くのエージェントの将来の軌跡を予測することを目的としており、エゴ車両が行動を予測し、安全に運転するのを支援します。
重要な課題は、多様な将来の予測セットを生成することです。これは、多重選択学習(MCL)アーキテクチャと勝者のテイク(WTA)トレーニング目標を備えたデータ駆動型モデルを使用して一般的に対処されます。
ただし、これらの方法は、初期化の感度とトレーニングの不安定性に直面しています。
さらに、限られたパフォーマンスを補うために、いくつかのアプローチは、予測の数を大幅に削減するために、推論中に選択後のステップを必要とする大規模な仮説を使用したトレーニングに依存しています。
これらの問題に取り組むために、アニールされたMCLからインスピレーションを得ることができます。これは、アニールされた勝者のすべての損失(AWTA)を通じてMCLメソッドの収束特性を改善する最近導入された手法です。
この論文では、最小限の仮説のセットのみを使用してパフォーマンスを強化するために、AWTA損失を最先端のモーション予測モデルと統合する方法を示し、面倒な選択後のステップの必要性を排除します。
私たちのアプローチは、WTAを使用して通常トレーニングされる軌道予測モデルに簡単に組み込むことができ、大幅な改善をもたらします。
将来のモーション予測モデルへのアプローチの適用を容易にするために、コードは公開されています:https://github.com/valeoai/mf_awta。

要約(オリジナル)

In autonomous driving, motion prediction aims at forecasting the future trajectories of nearby agents, helping the ego vehicle to anticipate behaviors and drive safely. A key challenge is generating a diverse set of future predictions, commonly addressed using data-driven models with Multiple Choice Learning (MCL) architectures and Winner-Takes-All (WTA) training objectives. However, these methods face initialization sensitivity and training instabilities. Additionally, to compensate for limited performance, some approaches rely on training with a large set of hypotheses, requiring a post-selection step during inference to significantly reduce the number of predictions. To tackle these issues, we take inspiration from annealed MCL, a recently introduced technique that improves the convergence properties of MCL methods through an annealed Winner-Takes-All loss (aWTA). In this paper, we demonstrate how the aWTA loss can be integrated with state-of-the-art motion forecasting models to enhance their performance using only a minimal set of hypotheses, eliminating the need for the cumbersome post-selection step. Our approach can be easily incorporated into any trajectory prediction model normally trained using WTA and yields significant improvements. To facilitate the application of our approach to future motion forecasting models, the code is made publicly available: https://github.com/valeoai/MF_aWTA.

arxiv情報

著者 Yihong Xu,Victor Letzelter,Mickaël Chen,Éloi Zablocki,Matthieu Cord
発行日 2025-02-12 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Annealed Winner-Takes-All for Motion Forecasting はコメントを受け付けていません

A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook

要約

画質評価(IQA)は、画像中心のテクノロジーにおける極めて重要な課題を表し、画像処理とコンピュータービジョンの進歩軌道に大きく影響します。
最近、IQAは、新しい建築のパラダイムと洗練された計算技術の出現に起因する革新的な研究努力の顕著な急増を目撃しました。
この調査では、アプリケーションシナリオに従って組織された現代のIQA方法論の広範な分析を提供し、初心者と経験豊富な研究者の両方にとって有益なリファレンスとして機能します。
現在のアプローチの利点と制限を分析し、潜在的な将来の研究経路を示唆しています。
この調査には、従来の統計測定、機械学習技術、畳み込みニューラルネットワーク(CNNS)やトランスモデルなどの最先端の深い学習モデルなど、一般的および特定のIQA方法論が含まれます。
この調査内の分析は、さまざまなアプリケーションシナリオに合わせた歪み固有のIQAメソッドの必要性を強調し、将来の開発における実用性、解釈可能性、および実装の容易さの重要性を強調しています。

要約(オリジナル)

Image quality assessment (IQA) represents a pivotal challenge in image-focused technologies, significantly influencing the advancement trajectory of image processing and computer vision. Recently, IQA has witnessed a notable surge in innovative research efforts, driven by the emergence of novel architectural paradigms and sophisticated computational techniques. This survey delivers an extensive analysis of contemporary IQA methodologies, organized according to their application scenarios, serving as a beneficial reference for both beginners and experienced researchers. We analyze the advantages and limitations of current approaches and suggest potential future research pathways. The survey encompasses both general and specific IQA methodologies, including conventional statistical measures, machine learning techniques, and cutting-edge deep learning models such as convolutional neural networks (CNNs) and Transformer models. The analysis within this survey highlights the necessity for distortion-specific IQA methods tailored to various application scenarios, emphasizing the significance of practicality, interpretability, and ease of implementation in future developments.

arxiv情報

著者 Chengqian Ma,Zhengyi Shi,Zhiqiang Lu,Shenghao Xie,Fei Chao,Yao Sui
発行日 2025-02-12 16:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey on Image Quality Assessment: Insights, Analysis, and Future Outlook はコメントを受け付けていません

Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval

要約

ビデオモーメント検索は、視覚言語モデルのパフォーマンスを評価するための一般的なタスクです。クエリセンテンスからのビデオの瞬間の開始時間と終了時間をローカリングすることが含まれます。
現在のタスクの定式化は、クエリのモーメントがビデオに存在することを前提としており、その結果、無関係なクエリ文が提供されると、偽陽性モーメントの予測が生じます。
このペーパーでは、否定的なビデオモーメント検索(NA-VMR)のタスクを提案します。これは、モーメントの検索精度と負のクエリ拒否の精度の両方を考慮します。
ドメイン内とドメイン外のネガティブクエリを区別し、2つの人気のあるビデオモーメント検索データセットの新しい評価ベンチマークを提供します:QVHighlightsとCharades-sta。
Na-VMRに取り組むように設計されたUNIVTGの適応であるUnivtg-NAを否定的なビデオモーメント検索に適応させるために、現在のSOTAビデオモーメント検索アプローチの能力を分析します。
Univtg-naは、$ 3.87 \%$ recall@1以内にモーメント検索スコアを保持しながら、高い負の拒絶反応精度(平均$ 98.4 \%$)スコアを達成します。
データセットの分割とコードは、https://github.com/keflanagan/momentofuntruthで入手できます

要約(オリジナル)

Video Moment Retrieval is a common task to evaluate the performance of visual-language models – it involves localising start and end times of moments in videos from query sentences. The current task formulation assumes that the queried moment is present in the video, resulting in false positive moment predictions when irrelevant query sentences are provided. In this paper we propose the task of Negative-Aware Video Moment Retrieval (NA-VMR), which considers both moment retrieval accuracy and negative query rejection accuracy. We make the distinction between In-Domain and Out-of-Domain negative queries and provide new evaluation benchmarks for two popular video moment retrieval datasets: QVHighlights and Charades-STA. We analyse the ability of current SOTA video moment retrieval approaches to adapt to Negative-Aware Video Moment Retrieval and propose UniVTG-NA, an adaptation of UniVTG designed to tackle NA-VMR. UniVTG-NA achieves high negative rejection accuracy (avg. $98.4\%$) scores while retaining moment retrieval scores to within $3.87\%$ Recall@1. Dataset splits and code are available at https://github.com/keflanagan/MomentofUntruth

arxiv情報

著者 Kevin Flanagan,Dima Damen,Michael Wray
発行日 2025-02-12 16:28:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval はコメントを受け付けていません

Copula-based mixture model identification for subgroup clustering with imaging applications

要約

モデルベースのクラスタリング技術はさまざまなアプリケーション領域に広く適用されていますが、ほとんどの研究は、独自のコンポーネント分布フォームを備えた標準混合物に焦点を当てています。
ただし、この厳格な仮定は、満足するのが難しいことがよくあります。
このホワイトペーパーでは、クラスタリング用のより柔軟なコピュラベースの混合モデル(CBMMS)を検討します。これにより、周辺およびコピュラ形式の柔軟な選択によって構成される不均一なコンポーネント分布が可能になります。
より具体的には、一般化された反復条件推定(GICE)アルゴリズムの適応を提案して、CBMMSを監視されていない方法で識別します。
GICEは、実現時間を選択してマルコフモデルの識別を切り替えるために開発された元のバージョンから採用されています。
次に、CBMM-GICEクラスタリング法は、収束に影響を与える要因について議論された合成2クラスターデータ(n = 2000サンプル)でテストされます。
最後に、MNISTデータベース全体(n = 70000)全体に一意のコンポーネント形式を持つ混合モデルを特定したことと、イメージングアプリケーションの値を示すための実際の心臓磁気共鳴データ(n = 276)で特定された混合モデルと比較されます。

要約(オリジナル)

Model-based clustering techniques have been widely applied to various application areas, while most studies focus on canonical mixtures with unique component distribution form. However, this strict assumption is often hard to satisfy. In this paper, we consider the more flexible Copula-Based Mixture Models (CBMMs) for clustering, which allow heterogeneous component distributions composed by flexible choices of marginal and copula forms. More specifically, we propose an adaptation of the Generalized Iterative Conditional Estimation (GICE) algorithm to identify the CBMMs in an unsupervised manner, where the marginal and copula forms and their parameters are estimated iteratively. GICE is adapted from its original version developed for switching Markov model identification with the choice of realization time. Our CBMM-GICE clustering method is then tested on synthetic two-cluster data (N=2000 samples) with discussion of the factors impacting its convergence. Finally, it is compared to the Expectation Maximization identified mixture models with unique component form on the entire MNIST database (N=70000), and on real cardiac magnetic resonance data (N=276) to illustrate its value for imaging applications.

arxiv情報

著者 Fei Zheng,Nicolas Duchateau
発行日 2025-02-12 16:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Copula-based mixture model identification for subgroup clustering with imaging applications はコメントを受け付けていません

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling

要約

人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するために重要です。
最近、大規模な言語モデルやビジョンモデルなどのジェネラリストモデルの成功に触発された人間中心の基礎モデル(HCFMS)が、多様な人間中心のタスクを単一のフレームワークに統一し、従来のタスク固有のアプローチを上回るために登場しました。
この調査では、現在のアプローチを4つのグループに分類する分類法を提案することにより、HCFMSの包括的な概要を紹介します。(1)マルチモーダル2Dおよび3D理解のための細粒の特徴をキャプチャする人間中心の知覚基盤モデル。
(2)高忠実で多様な人間関連のコンテンツを生成する人間中心のAIGC基礎モデル。
(3)これらの能力を統合して人間の理解と統合の両方を強化する統合された認識と生成モデル。
(4)知覚と生成を超えて人間のような知性とヒューマノイド具体化されたタスクのインタラクティブな行動を学ぶ人間中心のエージェント基礎モデル。
最先端のテクニックをレビューし、新たな課題と将来の研究の方向性について説明します。
この調査の目的は、より堅牢で汎用性があり、インテリジェントなデジタル人間および実施形態のモデリングに向けて取り組む研究者と実践者のロードマップとして機能することを目的としています。

要約(オリジナル)

Human understanding and generation are critical for modeling digital humans and humanoid embodiments. Recently, Human-centric Foundation Models (HcFMs) inspired by the success of generalist models, such as large language and vision models, have emerged to unify diverse human-centric tasks into a single framework, surpassing traditional task-specific approaches. In this survey, we present a comprehensive overview of HcFMs by proposing a taxonomy that categorizes current approaches into four groups: (1) Human-centric Perception Foundation Models that capture fine-grained features for multi-modal 2D and 3D understanding. (2) Human-centric AIGC Foundation Models that generate high-fidelity, diverse human-related content. (3) Unified Perception and Generation Models that integrate these capabilities to enhance both human understanding and synthesis. (4) Human-centric Agentic Foundation Models that extend beyond perception and generation to learn human-like intelligence and interactive behaviors for humanoid embodied tasks. We review state-of-the-art techniques, discuss emerging challenges and future research directions. This survey aims to serve as a roadmap for researchers and practitioners working towards more robust, versatile, and intelligent digital human and embodiments modeling.

arxiv情報

著者 Shixiang Tang,Yizhou Wang,Lu Chen,Yuan Wang,Sida Peng,Dan Xu,Wanli Ouyang
発行日 2025-02-12 16:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Human-Centric Foundation Models: Perception, Generation and Agentic Modeling はコメントを受け付けていません

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約

マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフォーマンスを実証しています。
ただし、長い形式のビデオを理解することは、MLLMにとって依然として困難なままです。
このペーパーでは、長いビデオシーケンスを処理するためのシンプルで効率的なフレームワーク、MLLMSの接地されたチューニングのための高品質のビデオデータセット、およびAを処理するなど、長いビデオ理解のために既存のショートフォームビデオMLLMSを適応させる新しいデザインのコレクションであるTimeSuiteを提案します。
慎重に設計された命令調整タスクは、従来のQA形式に接地監督を明示的に組み込みます。
具体的には、VideoChatに基づいて、ビデオチャット-Tとして造られた長距離MLLMを提案し、長いビデオトークンを圧縮するためにトークンシャッフルを実装し、視覚表現の時間的認識を高めるための時間的適応位置エン​​コーディング(Tape)を導入します。
一方、9つのタスクと349kの高品質の接地注釈で構成される包括的な接地中心の命令チューニングデータセットであるTimeProを紹介します。
特に、対応するタイムスタンプの予測を使用して詳細なビデオ説明をPEFormするために、PEFORMの詳細なビデオ説明と呼ばれる新しい命令チューニングタスクタイプを設計します。
この明示的な時間的位置予測により、MLLMは説明を生成するときに視覚コンテンツに正しく参加するように導き、したがってLLMSによって引き起こされる幻覚リスクを減らします。
実験結果は、TimeSuiteが短型MLLMの長いビデオ理解能力を高めるための成功したソリューションを提供し、それぞれエゴスケマとVideommeのベンチマークで5.6%と6.8%の改善を達成することを示しています。
さらに、VideoChat-Tは、堅牢なゼロショットの時間的接地機能を示し、既存の最先端のMLLMを大幅に上回っています。
微調整後、従来の監視されている専門家モデルと同等に機能します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated impressive performance in short video understanding. However, understanding long-form videos still remains challenging for MLLMs. This paper proposes TimeSuite, a collection of new designs to adapt the existing short-form video MLLMs for long video understanding, including a simple yet efficient framework to process long video sequence, a high-quality video dataset for grounded tuning of MLLMs, and a carefully-designed instruction tuning task to explicitly incorporate the grounding supervision in the traditional QA format. Specifically, based on VideoChat, we propose our long-video MLLM, coined as VideoChat-T, by implementing a token shuffling to compress long video tokens and introducing Temporal Adaptive Position Encoding (TAPE) to enhance the temporal awareness of visual representation. Meanwhile, we introduce the TimePro, a comprehensive grounding-centric instruction tuning dataset composed of 9 tasks and 349k high-quality grounded annotations. Notably, we design a new instruction tuning task type, called Temporal Grounded Caption, to peform detailed video descriptions with the corresponding time stamps prediction. This explicit temporal location prediction will guide MLLM to correctly attend on the visual content when generating description, and thus reduce the hallucination risk caused by the LLMs. Experimental results demonstrate that our TimeSuite provides a successful solution to enhance the long video understanding capability of short-form MLLM, achieving improvement of 5.6% and 6.8% on the benchmarks of Egoschema and VideoMME, respectively. In addition, VideoChat-T exhibits robust zero-shot temporal grounding capabilities, significantly outperforming the existing state-of-the-art MLLMs. After fine-tuning, it performs on par with the traditional supervised expert models.

arxiv情報

著者 Xiangyu Zeng,Kunchang Li,Chenting Wang,Xinhao Li,Tianxiang Jiang,Ziang Yan,Songze Li,Yansong Shi,Zhengrong Yue,Yi Wang,Yali Wang,Yu Qiao,Limin Wang
発行日 2025-02-12 16:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning はコメントを受け付けていません