Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution

要約

単一のRGB画像からの3DOF回転を推定することは、重要でありながら挑戦的な問題です。
人気のあるアプローチとして、確率的回転モデリングは、単一予測の回転回帰と比較して、予測の不確実性情報をさらに伝えています。
SO(3)にわたって確率的分布をモデル化するには、ガウスのようなビンガム分布とマトリックスフィッシャーを使用することは自然ですが、外れ値の予測に敏感であることが示されています。
$ 180^\ circ $エラーのため、最適なパフォーマンスで収束する可能性は低いです。
この論文では、多変量ラプラス分布からインスピレーションを引き出し、SO(3)に新しい回転ラプラス分布を提案します。
私たちの回転ラプラスの分布は、外れ値の妨害に対して堅牢であり、それが改善できる低エラー領域への多くの勾配を施行します。
さらに、私たちの方法はまた、小さなノイズに対する堅牢性を示し、したがって不完全な注釈を許容することを示します。
この利点により、擬似ラベルが騒がしい半監視回転回帰におけるその利点を示します。
対称オブジェクト用のマルチモーダル回転ソリューションスペースをさらにキャプチャするために、分布を回転ラプラス混合モデルに拡張し、その効果を示します。
私たちの広範な実験は、提案された分布と混合モデルが、確率的および非営利的なベースラインの両方ですべての回転回帰実験で最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Estimating the 3DoF rotation from a single RGB image is an important yet challenging problem. As a popular approach, probabilistic rotation modeling additionally carries prediction uncertainty information, compared to single-prediction rotation regression. For modeling probabilistic distribution over SO(3), it is natural to use Gaussian-like Bingham distribution and matrix Fisher, however they are shown to be sensitive to outlier predictions, e.g. $180^\circ$ error and thus are unlikely to converge with optimal performance. In this paper, we draw inspiration from multivariate Laplace distribution and propose a novel rotation Laplace distribution on SO(3). Our rotation Laplace distribution is robust to the disturbance of outliers and enforces much gradient to the low-error region that it can improve. In addition, we show that our method also exhibits robustness to small noises and thus tolerates imperfect annotations. With this benefit, we demonstrate its advantages in semi-supervised rotation regression, where the pseudo labels are noisy. To further capture the multi-modal rotation solution space for symmetric objects, we extend our distribution to rotation Laplace mixture model and demonstrate its effectiveness. Our extensive experiments show that our proposed distribution and the mixture model achieve state-of-the-art performance in all the rotation regression experiments over both probabilistic and non-probabilistic baselines.

arxiv情報

著者 Yingda Yin,Jiangran Lyu,Yang Wang,Haoran Liu,He Wang,Baoquan Chen
発行日 2025-02-21 10:36:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards Robust Probabilistic Modeling on SO(3) via Rotation Laplace Distribution はコメントを受け付けていません

Weakly Supervised Video Scene Graph Generation via Natural Language Supervision

要約

既存のビデオシーングラフ生成(VIDSGG)の研究は、完全に監視された方法で訓練されているため、ビデオ内のすべてのフレームを注釈付けする必要があり、画像シーングラフの生成(IMGSGG)と比較して高い注釈コストが発生します。
VIDSGGの注釈コストは、画像キャプションを使用するIMGSGG(WS-IMGSGG)に一般的に使用される弱く監視されたアプローチを採用することで緩和できますが、このようなナイーブな採用を妨げる2つの重要な理由があります。
画像のキャプションとは異なり、ビデオキャプションには、時間関連の詳細を示す一時的なマーカー(例えば、前、その後、その後)と2)変動を含む
アクション期間中、つまり、画像キャプションでの人間のアクションとは異なり、ビデオキャプションでの人間のアクションは、さまざまな期間にわたって展開されます。
これらの問題に対処するために、VIDSGGモデルをトレーニングするために容易に利用できるビデオキャプションのみを利用する自然言語ベースのビデオシーングラフ生成(NL-VSGG)フレームワークを提案します。
NL-VSGGは、2つの主要なモジュールで構成されています。一時性認識キャプションセグメンテーション(TCS)モジュールとアクション持続時間の変動性キャプションフレームアライメント(ADV)モジュールです。
具体的には、TCSはビデオキャプションを大規模な言語モデル(LLM)に基づいて時間的順序で複数の文にセグメントし、ADVは、アクション期間の変動性を考慮して、各セグメント化された文を適切なフレームに合わせます。
私たちのアプローチは、アクションゲノムデータセットにWS-IMGSGGパイプラインをVIDSGGに単純に適用することと比較して、パフォーマンスの大幅な向上につながります。
ビデオキャプションを弱い監督として利用することのさらなる利点として、NL-VSGGがトレーニングしたVIDSGGモデルがトレーニングデータに含まれていないより広範なアクションクラスを予測できることを示しています。

要約(オリジナル)

Existing Video Scene Graph Generation (VidSGG) studies are trained in a fully supervised manner, which requires all frames in a video to be annotated, thereby incurring high annotation cost compared to Image Scene Graph Generation (ImgSGG). Although the annotation cost of VidSGG can be alleviated by adopting a weakly supervised approach commonly used for ImgSGG (WS-ImgSGG) that uses image captions, there are two key reasons that hinder such a naive adoption: 1) Temporality within video captions, i.e., unlike image captions, video captions include temporal markers (e.g., before, while, then, after) that indicate time related details, and 2) Variability in action duration, i.e., unlike human actions in image captions, human actions in video captions unfold over varying duration. To address these issues, we propose a Natural Language-based Video Scene Graph Generation (NL-VSGG) framework that only utilizes the readily available video captions for training a VidSGG model. NL-VSGG consists of two key modules: Temporality-aware Caption Segmentation (TCS) module and Action Duration Variability-aware caption-frame alignment (ADV) module. Specifically, TCS segments the video captions into multiple sentences in a temporal order based on a Large Language Model (LLM), and ADV aligns each segmented sentence with appropriate frames considering the variability in action duration. Our approach leads to a significant enhancement in performance compared to simply applying the WS-ImgSGG pipeline to VidSGG on the Action Genome dataset. As a further benefit of utilizing the video captions as weak supervision, we show that the VidSGG model trained by NL-VSGG is able to predict a broader range of action classes that are not included in the training data, which makes our framework practical in reality.

arxiv情報

著者 Kibum Kim,Kanghoon Yoon,Yeonjun In,Jaehyeong Jeon,Jinyoung Moon,Donghyun Kim,Chanyoung Park
発行日 2025-02-21 10:42:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Weakly Supervised Video Scene Graph Generation via Natural Language Supervision はコメントを受け付けていません

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

要約

視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が得られ、不利な騒々しい環境でのこのタイプのシステムの堅牢性が向上しました。
ほとんどの場合、このタスクは、2つの独立したエンコーダーで構成されるモデルの設計を通じて対処されており、それぞれが特定のモダリティ専用です。
ただし、最近の作品は統一されたオーディオビジュアルエンコーダーを調査していますが、最適なクロスモーダルアーキテクチャを決定することは依然として継続的な課題です。
さらに、このようなアプローチは、多くの場合、膨大な量のパラメーターと高い計算コストトレーニングプロセスを含むモデルに依存しています。
この論文では、新しい視聴覚フレームワークを紹介することにより、この研究のギャップを埋めることを目指しています。
提案された方法は、私たちの知る限り、パラメーター効率の高いAVSRシステムの設計において、Branchformerなどのエンコーダーアーキテクチャによって提供される柔軟性と解釈可能性を活用する最初の試みを構成します。
より正確には、提案されたフレームワークは、最初にオーディオのみのシステムとビデオのみのシステムを推定し、次にモダリティ固有のモデルによって提供されるレイヤーレベルのブランチスコアに基づいて、テーラードオーディオ視聴統合エンコーダを設計する2つのステップで構成されています。
複数のデータ条件とシナリオをカバーする英語とスペイン語のAVSRベンチマークに関する広範な実験により、提案された方法の有効性が実証されました。
中程度のデータでトレーニングされた場合でも、私たちのモデルは、英語で約2.5 \%の競争力のある単語エラー率(WER)を達成し、スペイン語の既存のアプローチを上回り、平均WERが約9.1 \%の新しいベンチマークを確立します。
これらの結果は、テーラードAVSRシステムが最先端の認識率に達すると同時に、モデルの複雑さW.R.Tを大幅に削減する方法を反映しています。
フィールドでの一般的なアプローチ。
コードと事前に訓練されたモデルは、https://github.com/david-gimeno/tailored-avsrで入手できます。

要約(オリジナル)

Recent advances in Audio-Visual Speech Recognition (AVSR) have led to unprecedented achievements in the field, improving the robustness of this type of system in adverse, noisy environments. In most cases, this task has been addressed through the design of models composed of two independent encoders, each dedicated to a specific modality. However, while recent works have explored unified audio-visual encoders, determining the optimal cross-modal architecture remains an ongoing challenge. Furthermore, such approaches often rely on models comprising vast amounts of parameters and high computational cost training processes. In this paper, we aim to bridge this research gap by introducing a novel audio-visual framework. Our proposed method constitutes, to the best of our knowledge, the first attempt to harness the flexibility and interpretability offered by encoder architectures, such as the Branchformer, in the design of parameter-efficient AVSR systems. To be more precise, the proposed framework consists of two steps: first, estimating audio- and video-only systems, and then designing a tailored audio-visual unified encoder based on the layer-level branch scores provided by the modality-specific models. Extensive experiments on English and Spanish AVSR benchmarks covering multiple data conditions and scenarios demonstrated the effectiveness of our proposed method. Even when trained on a moderate scale of data, our models achieve competitive word error rates (WER) of approximately 2.5\% for English and surpass existing approaches for Spanish, establishing a new benchmark with an average WER of around 9.1\%. These results reflect how our tailored AVSR system is able to reach state-of-the-art recognition rates while significantly reducing the model complexity w.r.t. the prevalent approach in the field. Code and pre-trained models are available at https://github.com/david-gimeno/tailored-avsr.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2025-02-21 10:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Tailored Design of Audio-Visual Speech Recognition Models using Branchformers はコメントを受け付けていません

MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing

要約

マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエンコーダーを大規模な言語モデルと結合することにより、視覚情報とテキスト情報を統合します。
既存のアプローチは一般的に単一の事前に訓練されたビジョンエンコーダーに依存していますが、個別のドメインでモデルのパフォーマンスを高めることができる特殊なエンコーダーの大きなばらつきがあります。
この作業では、特殊なマルチモーダルタスク用に複数の事前訓練を受けたエンコーダを活用するためのシンプルで効果的なアプローチを移動(ビジョンエンコーダーの混合)を提案します。
MOVEは、Unichat、Internvit、Texifyなどの候補者間で最も適切なエンコーダーに入力を自動的にルーティングし、Chartqa、Mmbench、MMMUなどの多様なベンチマークでパフォーマンスを向上させます。
実験結果は、動きが高解像度の画像の画像スライスの複雑さを発生させることなく競争の精度を達成することを示しています。

要約(オリジナル)

Multimodal language models (MLMs) integrate visual and textual information by coupling a vision encoder with a large language model through the specific adapter. While existing approaches commonly rely on a single pre-trained vision encoder, there is a great variability of specialized encoders that can boost model’s performance in distinct domains. In this work, we propose MOVE (Mixture of Vision Encoders) a simple yet effective approach to leverage multiple pre-trained encoders for specialized multimodal tasks. MOVE automatically routes inputs to the most appropriate encoder among candidates such as Unichat, InternViT, and Texify, thereby enhancing performance across a diverse set of benchmarks, including ChartQA, MMBench, and MMMU. Experimental results demonstrate that MOVE achieves competitive accuracy without incurring the complexities of image slicing for high-resolution images.

arxiv情報

著者 Matvey Skripkin,Elizaveta Goncharova,Dmitrii Tarasov,Andrey Kuznetsov
発行日 2025-02-21 11:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 6804, cs.CV, I.2.10 | MOVE: A Mixture-of-Vision-Encoders Approach for Domain-Focused Vision-Language Processing はコメントを受け付けていません

Long Video Understanding with Learnable Retrieval in Video-Language Models

要約

大規模な言語モデル(LLM)の驚くべき自然言語の理解、推論、および生成能力により、ビデオトークンをコンテキスト入力として利用するビデオ理解へのアプリケーションにとって魅力的になりました。
ただし、長いビデオ理解にLLMを採用すると、重要な課題があります。
幅広いビデオトークンは、集計されたトークンを使用して、視力の詳細が失われる一方で、LLMのかなりの計算コストにつながります。
さらに、豊富な質問に関係のあるトークンの存在は、ビデオ推論プロセスにノイズを導入します。
これらの問題に対処するために、効率的な長いビデオ理解のために、シンプルで効果的な学習可能な検索ベースのビデオ言語モデル(R-VLM)を紹介します。
具体的には、質問(クエリ)と長いビデオが与えられ、モデルは最も関連性の高いKビデオチャンクを識別および選択し、関連する視覚トークンを使用してLLM推論のコンテキストとして機能します。
これにより、ビデオトークンの数が効果的に削減され、ノイズ干渉がなくなり、システムのパフォーマンスが向上します。
これを実現し、学習可能な軽量MLPブロックを組み込んで、質問に関連するチャンクの効率的な検索を促進します。
複数のゼロショットビデオ質問データセットの質問に関する実験結果は、長いビデオを理解するためのフレームワークの有効性を検証します。

要約(オリジナル)

The remarkable natural language understanding, reasoning, and generation capabilities of large language models (LLMs) have made them attractive for application to video understanding, utilizing video tokens as contextual input. However, employing LLMs for long video understanding presents significant challenges. The extensive number of video tokens leads to considerable computational costs for LLMs while using aggregated tokens results in loss of vision details. Moreover, the presence of abundant question-irrelevant tokens introduces noise to the video reasoning process. To address these issues, we introduce a simple yet effective learnable retrieval-based video-language model (R-VLM) for efficient long video understanding. Specifically, given a question (query) and a long video, our model identifies and selects the most relevant K video chunks and uses their associated visual tokens to serve as context for the LLM inference. This effectively reduces the number of video tokens, eliminates noise interference, and enhances system performance. We achieve this by incorporating a learnable lightweight MLP block to facilitate the efficient retrieval of question-relevant chunks, through the end-to-end training of our video-language model with a proposed soft matching loss. Our experimental results on multiple zero-shot video question answering datasets validate the effectiveness of our framework for comprehending long videos.

arxiv情報

著者 Jiaqi Xu,Cuiling Lan,Wenxuan Xie,Xuejin Chen,Yan Lu
発行日 2025-02-21 11:10:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long Video Understanding with Learnable Retrieval in Video-Language Models はコメントを受け付けていません

A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations

要約

乳がん磁気共鳴画像法(MRI)の人工知能(AI)研究は、限られた専門家標識セグメンテーションのために課題に直面しています。
これに対処するために、原発腫瘍および非質量強化領域の専門家注釈を含む、1506の前治療前処理T1強調造影MRI症例の多施設データセットを提示します。
データセットは、がんイメージングアーカイブ(TCIA)の4つのコレクションからのイメージングデータを統合し、最初にエキスパートセグメンテーションを備えた163症例しか利用できませんでした。
注釈プロセスを容易にするために、残りのケースの予備的なセグメンテーションを作成するために、深い学習モデルが訓練されました。
その後、これらは16人の乳がんの専門家(平均9年の経験)によって修正および検証され、完全に注釈付きのデータセットが作成されました。
さらに、データセットには、注釈付きデータでトレーニングされたベースラインNNU-NETモデルの事前に訓練された重みと同様に、49の調和した臨床および人口統計学的変数が含まれています。
このリソースは、公開されている乳がんデータセットの重大なギャップに対処し、高度な深い学習モデルの開発、検証、ベンチマークを可能にし、乳がん診断、治療反応予測、およびパーソナライズされたケアの進歩を促進します。

要約(オリジナル)

Artificial Intelligence (AI) research in breast cancer Magnetic Resonance Imaging (MRI) faces challenges due to limited expert-labeled segmentations. To address this, we present a multicenter dataset of 1506 pre-treatment T1-weighted dynamic contrast-enhanced MRI cases, including expert annotations of primary tumors and non-mass-enhanced regions. The dataset integrates imaging data from four collections in The Cancer Imaging Archive (TCIA), where only 163 cases with expert segmentations were initially available. To facilitate the annotation process, a deep learning model was trained to produce preliminary segmentations for the remaining cases. These were subsequently corrected and verified by 16 breast cancer experts (averaging 9 years of experience), creating a fully annotated dataset. Additionally, the dataset includes 49 harmonized clinical and demographic variables, as well as pre-trained weights for a baseline nnU-Net model trained on the annotated data. This resource addresses a critical gap in publicly available breast cancer datasets, enabling the development, validation, and benchmarking of advanced deep learning models, thus driving progress in breast cancer diagnostics, treatment response prediction, and personalized care.

arxiv情報

著者 Lidia Garrucho,Kaisar Kushibar,Claire-Anne Reidel,Smriti Joshi,Richard Osuala,Apostolia Tsirikoglou,Maciej Bobowicz,Javier del Riego,Alessandro Catanese,Katarzyna Gwoździewicz,Maria-Laura Cosaka,Pasant M. Abo-Elhoda,Sara W. Tantawy,Shorouq S. Sakrana,Norhan O. Shawky-Abdelfatah,Amr Muhammad Abdo-Salem,Androniki Kozana,Eugen Divjak,Gordana Ivanac,Katerina Nikiforaki,Michail E. Klontzas,Rosa García-Dosdá,Meltem Gulsun-Akpinar,Oğuz Lafcı,Ritse Mann,Carlos Martín-Isla,Fred Prior,Kostas Marias,Martijn P. A. Starmans,Fredrik Strand,Oliver Díaz,Laura Igual,Karim Lekadir
発行日 2025-02-21 11:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.DB | A large-scale multicenter breast cancer DCE-MRI benchmark dataset with expert segmentations はコメントを受け付けていません

The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting

要約

Vision-Language Models(VLMS)は、入力画像と矛盾する出力を生成することがあり、実際のアプリケーションでの信頼性を制約します。
視覚的なプロンプトは、画像内の関連領域を備えたプロンプトを増強することにより幻覚を抑制することが報告されていますが、領域の観点からの有効性は不確実なままです。
この研究は、オブジェクトの幻覚における注意駆動型の視覚的プロンプトの成功と失敗のケースを分析し、オブジェクトの幻覚を緩和するために背景のコンテキストを維持することが重要であることを明らかにします。

要約(オリジナル)

Vision-Language Models (VLMs) occasionally generate outputs that contradict input images, constraining their reliability in real-world applications. While visual prompting is reported to suppress hallucinations by augmenting prompts with relevant area inside an image, the effectiveness in terms of the area remains uncertain. This study analyzes success and failure cases of Attention-driven visual prompting in object hallucination, revealing that preserving background context is crucial for mitigating object hallucination.

arxiv情報

著者 Masayo Tomita,Katsuhiko Hayashi,Tomoyuki Kaneko
発行日 2025-02-21 11:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting はコメントを受け付けていません

DeepInteraction++: Multi-Modality Interaction for Autonomous Driving

要約

既存の最高パフォーマンスの自律駆動システムは、通常、信頼できるシーンの理解のためにマルチモーダル融合戦略に依存しています。
ただし、この設計は、モダリティ固有の強度を見落とし、最終的にモデルのパフォーマンスを妨げるため、根本的に制限されています。
この制限に対処するために、この作業では、個々のモダリティ表現を学習および維持できる新しいモダリティ相互作用戦略を紹介し、知覚パイプライン全体で独自の特性を活用できるようにします。
提案された戦略の有効性を実証するために、マルチモーダル表現相互作用エンコーダとマルチモーダル予測インタラクションデコーダーを特徴とするマルチモーダルインタラクションフレームワークであるDeepItraction ++を設計します。
具体的には、エンコーダーは、個別のモダリティ固有の表現間の情報交換と統合のための特殊な注意操作を備えたデュアルストリームトランスとして実装されています。
当社のマルチモーダル表現学習には、オブジェクト中心の正確なサンプリングベースの機能アライメントと、より困難な計画タスクに不可欠なグローバルな密度の高い情報の両方の両方の両方が組み込まれています。
デコーダーは、統一されたモダリティに依存しない方法で個別の表現から情報を交互に集約し、マルチモーダル予測相互作用を実現することにより、予測を繰り返し改善するように設計されています。
広範な実験は、3Dオブジェクトの検出とエンドツーエンドの自律運転タスクの両方で提案されたフレームワークの優れた性能を示しています。
私たちのコードは、https://github.com/fudan-zvg/deepinteractionで入手できます。

要約(オリジナル)

Existing top-performance autonomous driving systems typically rely on the multi-modal fusion strategy for reliable scene understanding. This design is however fundamentally restricted due to overlooking the modality-specific strengths and finally hampering the model performance. To address this limitation, in this work, we introduce a novel modality interaction strategy that allows individual per-modality representations to be learned and maintained throughout, enabling their unique characteristics to be exploited during the whole perception pipeline. To demonstrate the effectiveness of the proposed strategy, we design DeepInteraction++, a multi-modal interaction framework characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Specifically, the encoder is implemented as a dual-stream Transformer with specialized attention operation for information exchange and integration between separate modality-specific representations. Our multi-modal representational learning incorporates both object-centric, precise sampling-based feature alignment and global dense information spreading, essential for the more challenging planning task. The decoder is designed to iteratively refine the predictions by alternately aggregating information from separate representations in a unified modality-agnostic manner, realizing multi-modal predictive interaction. Extensive experiments demonstrate the superior performance of the proposed framework on both 3D object detection and end-to-end autonomous driving tasks. Our code is available at https://github.com/fudan-zvg/DeepInteraction.

arxiv情報

著者 Zeyu Yang,Nan Song,Wei Li,Xiatian Zhu,Li Zhang,Philip H. S. Torr
発行日 2025-02-21 11:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DeepInteraction++: Multi-Modality Interaction for Autonomous Driving はコメントを受け付けていません

Chitrarth: Bridging Vision and Language for a Billion People

要約

最近のマルチモーダルファンデーションモデルは、主に英語または高リソースのヨーロッパ言語データでトレーニングされており、他の中型および低リソース言語への適用性を妨げています。
この制限に対処するために、包括的なビジョン言語モデル(VLM)であるChitrarth(Chitra:Image; Artha:意味)を紹介します。特に、10の著名なインド言語にわたる豊富な言語の多様性と視覚的推論を標的としています。
私たちのモデルは、主に多言語の画像テキストデータでトレーニングされた、最先端の(SOTA)多言語大手言語モデル(LLM)をVisionモジュールと効果的に統合しています。
さらに、さまざまなインド言語でVLMを評価するための包括的なフレームワークであるBharatbenchも紹介し、最終的にはより多様で効果的なAIシステムに貢献しています。
私たちのモデルは、英語での効率を保持しながら、低リソース言語のベンチマークのSOTA結果を達成します。
私たちの研究を通じて、私たちは多言語のマルチモーダル機能に新しいベンチマークを設定し、既存のモデルを大幅に改善し、この分野での将来の進歩を促進するための基盤を確立することを目指しています。

要約(オリジナル)

Recent multimodal foundation models are primarily trained on English or high resource European language data, which hinders their applicability to other medium and low-resource languages. To address this limitation, we introduce Chitrarth (Chitra: Image; Artha: Meaning), an inclusive Vision-Language Model (VLM), specifically targeting the rich linguistic diversity and visual reasoning across 10 prominent Indian languages. Our model effectively integrates a state-of-the-art (SOTA) multilingual Large Language Model (LLM) with a vision module, primarily trained on multilingual image-text data. Furthermore, we also introduce BharatBench, a comprehensive framework for evaluating VLMs across various Indian languages, ultimately contributing to more diverse and effective AI systems. Our model achieves SOTA results for benchmarks across low resource languages while retaining its efficiency in English. Through our research, we aim to set new benchmarks in multilingual-multimodal capabilities, offering substantial improvements over existing models and establishing a foundation to facilitate future advancements in this arena.

arxiv情報

著者 Shaharukh Khan,Ayush Tarun,Abhinav Ravi,Ali Faraz,Akshat Patidar,Praveen Kumar Pokala,Anagha Bhangare,Raja Kolla,Chandra Khatri,Shubham Agarwal
発行日 2025-02-21 11:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Chitrarth: Bridging Vision and Language for a Billion People はコメントを受け付けていません

LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models

要約

大規模なマルチモーダルモデル(LMM)は、ビデオ理解タスクで顕著なパフォーマンスを示しており、1時間以上ビデオを処理することもできます。
ただし、長い入力を処理する能力にもかかわらず、対応するレベルの豊かさを持つ出力を生成することは依然として課題です。
このホワイトペーパーでは、プロキシタスクとしてビデオキャプションを使用してLMMSの長い出力の問題を調査し、オープンソースLMMSが約300ワードを超える出力を一貫して生成するのに苦労していることがわかります。
制御された実験を通じて、トレーニング中のペアの例の希少性と長期キャプションがモデルの出力長を制限する主要な要因であることがわかります。
ただし、手動で長いキャプションの例を注釈するのは時間がかかり、高価です。
これに対処するために、マルチレベルの説明を集約することにより長いキャプションデータを合成するフレームワークであるLongcaption-Agentを提案します。
Longcaption-Agentを使用して、新しい長キャプテンデータセット、LongCaption-10Kをキュレーションしました。
また、LMMSによって生成された長いキャプションの品質を包括的に評価するために設計されたベンチマークであるLongcaption-benchも開発します。
LongCaption-10Kをトレーニングに組み込むことにより、LMMSが1,000語を超えるキャプションを生成し、高出力品質を維持します。
ロングキャプションベンチでは、8Bパラメーターモデルが最先端のパフォーマンスを達成し、より大きな独自モデルを超えています。
公開後にデータセットとコードをリリースします。

要約(オリジナル)

Large multimodal models (LMMs) have shown remarkable performance in video understanding tasks and can even process videos longer than one hour. However, despite their ability to handle long inputs, generating outputs with corresponding levels of richness remains a challenge. In this paper, we explore the issue of long outputs in LMMs using video captioning as a proxy task, and we find that open-source LMMs struggle to consistently generate outputs exceeding about 300 words. Through controlled experiments, we find that the scarcity of paired examples with long-captions during training is the primary factor limiting the model’s output length. However, manually annotating long-caption examples is time-consuming and expensive. To address this, we propose the LongCaption-Agent, a framework that synthesizes long caption data by aggregating multi-level descriptions. Using LongCaption-Agent, we curated a new long-caption dataset, LongCaption-10K. We also develop LongCaption-Bench, a benchmark designed to comprehensively evaluate the quality of long captions generated by LMMs. By incorporating LongCaption-10K into training, we enable LMMs to generate captions exceeding 1,000 words, while maintaining high output quality. In LongCaption-Bench, our 8B parameter model achieved state-of-the-art performance, even surpassing larger proprietary models. We will release the dataset and code after publication.

arxiv情報

著者 Hongchen Wei,Zhihong Tan,Yaosi Hu,Changwen Chen,Zhenzhong Chen
発行日 2025-02-21 11:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models はコメントを受け付けていません