Automated Measurement of Eczema Severity with Self-Supervised Learning

要約

デジタルカメラから取得した画像を使用した湿疹の自動診断により、個人は回復を自己監視できるようになります。
このプロセスでは、最初に画像から湿疹領域をセグメント化し、次にセグメント化された領域で湿疹の重症度を測定することを伴います。
自動化された湿疹診断の最先端の方法は、畳み込みニューラルネットワーク(CNN)などの深いニューラルネットワークに依存しており、湿疹の重症度を正確に測定する上で印象的なパフォーマンスを示しています。
ただし、これらの方法では、訓練するために大量の注釈付きデータが必要です。
このホワイトペーパーでは、限られたトレーニングデータ制度の下で自動化された湿疹診断のための自己監督の学習フレームワークを提案します。
私たちのフレームワークは、2つの段階で構成されています。i)セグメンテーションでは、画像からの湿疹領域の少数のショットセグメンテーションにSeggptと呼ばれるコンテキスト学習ベースのアルゴリズムを使用します。
ii)特徴抽出と分類。セグメント化された領域からディノ機能を抽出し、湿疹の重症度の4クラス分類のために多層パーセプトロン(MLP)に供給します。
注釈付きの「内部」湿疹画像のデータセットで評価された場合、私たちの方法は、Finetuned ResNet-18などの最先端のディープラーニング方法を上回ることを示します(加重F1:0.44 $ \ PM $ 0.16)およびVision Fised F1:0.40 $ $ 0.40)。
私たちの結果は、ラベル付けされたデータが希少な場合、自己監視学習が自動化された皮膚診断のための実行可能なソリューションになる可能性があることを示しています。

要約(オリジナル)

Automated diagnosis of eczema using images acquired from digital camera can enable individuals to self-monitor their recovery. The process entails first segmenting out the eczema region from the image and then measuring the severity of eczema in the segmented region. The state-of-the-art methods for automated eczema diagnosis rely on deep neural networks such as convolutional neural network (CNN) and have shown impressive performance in accurately measuring the severity of eczema. However, these methods require massive volume of annotated data to train which can be hard to obtain. In this paper, we propose a self-supervised learning framework for automated eczema diagnosis under limited training data regime. Our framework consists of two stages: i) Segmentation, where we use an in-context learning based algorithm called SegGPT for few-shot segmentation of eczema region from the image; ii) Feature extraction and classification, where we extract DINO features from the segmented regions and feed it to a multi-layered perceptron (MLP) for 4-class classification of eczema severity. When evaluated on a dataset of annotated ‘in-the-wild’ eczema images, we show that our method outperforms (Weighted F1: 0.67 $\pm$ 0.01) the state-of-the-art deep learning methods such as finetuned Resnet-18 (Weighted F1: 0.44 $\pm$ 0.16) and Vision Transformer (Weighted F1: 0.40 $\pm$ 0.22). Our results show that self-supervised learning can be a viable solution for automated skin diagnosis where labeled data is scarce.

arxiv情報

著者 Neelesh Kumar,Oya Aran
発行日 2025-04-21 16:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Automated Measurement of Eczema Severity with Self-Supervised Learning はコメントを受け付けていません

Zero-Shot, But at What Cost? Unveiling the Hidden Overhead of MILS’s LLM-CLIP Framework for Image Captioning

要約

MILS(Multimodal Iterative LLM Solver)は、ゼロショット画像キャプションのための反復的なLLMクリップベースのアプローチを活用することにより、「LLMがトレーニングなしで見たり聞いたりすることができると主張する最近公開されたフレームワークです。
このMILSアプローチは良好なパフォーマンスを示していますが、私たちの調査では、この成功は、高価なマルチステップ洗練プロセスのために隠された実質的な計算コストであることが明らかになりました。
対照的に、BLIP-2やGPT-4Vなどの代替モデルは、合理化されたシングルパスアプローチを通じて競争結果を達成します。
MILSの反復プロセスに固有の重要なオーバーヘッドは、その実際的な利点を損なう可能性があると仮定し、それにより、重いリソースの要求を伴うことなく、ゼロショットパフォーマンスを達成できるという物語に挑戦します。
この作業は、MILSの出力品質と計算コストの間のトレードオフを公開および定量化する最初の作業であり、より効率的なマルチモーダルモデルの設計に関する重要な洞察を提供します。

要約(オリジナル)

MILS (Multimodal Iterative LLM Solver) is a recently published framework that claims ‘LLMs can see and hear without any training’ by leveraging an iterative, LLM-CLIP based approach for zero-shot image captioning. While this MILS approach demonstrates good performance, our investigation reveals that this success comes at a hidden, substantial computational cost due to its expensive multi-step refinement process. In contrast, alternative models such as BLIP-2 and GPT-4V achieve competitive results through a streamlined, single-pass approach. We hypothesize that the significant overhead inherent in MILS’s iterative process may undermine its practical benefits, thereby challenging the narrative that zero-shot performance can be attained without incurring heavy resource demands. This work is the first to expose and quantify the trade-offs between output quality and computational cost in MILS, providing critical insights for the design of more efficient multimodal models.

arxiv情報

著者 Yassir Benhammou,Alessandro Tiberio,Gabriel Trautmann,Suman Kalyan
発行日 2025-04-21 16:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.PF | Zero-Shot, But at What Cost? Unveiling the Hidden Overhead of MILS’s LLM-CLIP Framework for Image Captioning はコメントを受け付けていません

DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation

要約

テキストからイメージ(T2I)拡散モデルの普及により、テキストの説明から高品質の画像の生成が可能になります。
ただし、参照視覚属性を使用して多様なカスタマイズされた画像を生成することは依然として困難です。
この作業は、より抽象的な概念またはカテゴリレベルでT2I拡散モデルをパーソナライズすることに焦点を当て、一連の参照画像から共通性を適応させながら、十分なバリエーションを備えた新しいインスタンスを作成します。
前処理されたT2I拡散モデルがソフトプロンプトのセットを学習できるようにするソリューションを導入し、学習した分布からプロンプトをサンプリングすることにより、新しい画像の生成を可能にします。
これらのプロンプトは、テキスト誘導編集機能と、複数の分布間の変動を制御し、混合する際の追加の柔軟性を提供します。
また、テキストから3Dなどの他のタスクへの学習迅速な分布の適応性も示しています。
最後に、自動評価や人間の評価などの定量分析を通じて、アプローチの有効性を実証します。
プロジェクトWebサイト:https://briannlongzhao.github.io/dreamdistribution

要約(オリジナル)

The popularization of Text-to-Image (T2I) diffusion models enables the generation of high-quality images from text descriptions. However, generating diverse customized images with reference visual attributes remains challenging. This work focuses on personalizing T2I diffusion models at a more abstract concept or category level, adapting commonalities from a set of reference images while creating new instances with sufficient variations. We introduce a solution that allows a pretrained T2I diffusion model to learn a set of soft prompts, enabling the generation of novel images by sampling prompts from the learned distribution. These prompts offer text-guided editing capabilities and additional flexibility in controlling variation and mixing between multiple distributions. We also show the adaptability of the learned prompt distribution to other tasks, such as text-to-3D. Finally we demonstrate effectiveness of our approach through quantitative analysis including automatic evaluation and human assessment. Project website: https://briannlongzhao.github.io/DreamDistribution

arxiv情報

著者 Brian Nlong Zhao,Yuhang Xiao,Jiashu Xu,Xinyang Jiang,Yifan Yang,Dongsheng Li,Laurent Itti,Vibhav Vineet,Yunhao Ge
発行日 2025-04-21 16:26:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DreamDistribution: Learning Prompt Distribution for Diverse In-distribution Generation はコメントを受け付けていません

Shape-Guided Clothing Warping for Virtual Try-On

要約

画像ベースのVirtual Try-Onは、ポーズの一貫性を維持しながら、人の画像にシームレスにフィットすることを目指しています。
既存の方法は、一般に、薄いプレートスプライン(TPS)変換または外観の流れを使用して、その人の体と調整するためにショップ内の衣服を変形させます。
彼らの有望なパフォーマンスにもかかわらず、これらの方法はしばしば細かい詳細に対する正確な制御を欠いており、衣服と人の体の間の形の矛盾、および露出した四肢領域の歪みにつながります。
これらの課題に取り組むために、Virtual Try-Onと呼ばれるSCW-Vtonと呼ばれる新しい形状誘導衣類ワーピング方法を提案します。これには、グローバルな形状の制約と追加の四肢のテクスチャが組み込まれており、ゆがんだ衣服のリアリズムと一貫性を高め、結果を試してみます。
衣料品の歪みのグローバルな形状の制約を統合するために、形状経路とフローパスで構成されるデュアルパス衣類ワーピングモジュールを考案します。
前者のパスは、人の体に整列した衣服の形状をキャプチャし、後者のパスは衣服形状の再構造前と再変形の間のマッピングをレバレッジして、外観の流れの推定を導きます。
さらに、トライオン結果の四肢領域の歪みを軽減するために、マスクされた画像モデリングに基づいて四肢再建ネットワークを開発することにより、詳細な四肢ガイダンスを統合します。
SCW-VTONの利用により、衣服の形状の一貫性が強化され、詳細を正確に制御することで、トライオン結果を生成することができます。
広範な実験は、定性的および定量的に最先端の方法よりもアプローチの優位性を示しています。
このコードは、https://github.com/xyhanhit/scw-vtonで入手できます。

要約(オリジナル)

Image-based virtual try-on aims to seamlessly fit in-shop clothing to a person image while maintaining pose consistency. Existing methods commonly employ the thin plate spline (TPS) transformation or appearance flow to deform in-shop clothing for aligning with the person’s body. Despite their promising performance, these methods often lack precise control over fine details, leading to inconsistencies in shape between clothing and the person’s body as well as distortions in exposed limb regions. To tackle these challenges, we propose a novel shape-guided clothing warping method for virtual try-on, dubbed SCW-VTON, which incorporates global shape constraints and additional limb textures to enhance the realism and consistency of the warped clothing and try-on results. To integrate global shape constraints for clothing warping, we devise a dual-path clothing warping module comprising a shape path and a flow path. The former path captures the clothing shape aligned with the person’s body, while the latter path leverages the mapping between the pre- and post-deformation of the clothing shape to guide the estimation of appearance flow. Furthermore, to alleviate distortions in limb regions of try-on results, we integrate detailed limb guidance by developing a limb reconstruction network based on masked image modeling. Through the utilization of SCW-VTON, we are able to generate try-on results with enhanced clothing shape consistency and precise control over details. Extensive experiments demonstrate the superiority of our approach over state-of-the-art methods both qualitatively and quantitatively. The code is available at https://github.com/xyhanHIT/SCW-VTON.

arxiv情報

著者 Xiaoyu Han,Shunyuan Zheng,Zonglin Li,Chenyang Wang,Xin Sun,Quanling Meng
発行日 2025-04-21 17:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Shape-Guided Clothing Warping for Virtual Try-On はコメントを受け付けていません

SuoiAI: Building a Dataset for Aquatic Invertebrates in Vietnam

要約

生態学的健康と保全の取り組みにとって、水生生物多様性の理解と監視が重要です。
このペーパーでは、ベトナムの水生無脊椎動物のデータセットを構築するためのエンドツーエンドのパイプラインであり、種分類に機械学習(ML)技術を採用するためのエンドツーエンドのパイプラインを提案します。
データ収集、注釈、モデルトレーニングの方法の概要を説明し、半学習学習を通じて注釈の努力を減らし、最先端のオブジェクトの検出と分類モデルを活用することに焦点を当てています。
私たちのアプローチの目的は、データ不足、きめの細かい分類、多様な環境条件での展開などの課題を克服することを目的としています。

要約(オリジナル)

Understanding and monitoring aquatic biodiversity is critical for ecological health and conservation efforts. This paper proposes SuoiAI, an end-to-end pipeline for building a dataset of aquatic invertebrates in Vietnam and employing machine learning (ML) techniques for species classification. We outline the methods for data collection, annotation, and model training, focusing on reducing annotation effort through semi-supervised learning and leveraging state-of-the-art object detection and classification models. Our approach aims to overcome challenges such as data scarcity, fine-grained classification, and deployment in diverse environmental conditions.

arxiv情報

著者 Tue Vo,Lakshay Sharma,Tuan Dinh,Khuong Dinh,Trang Nguyen,Trung Phan,Minh Do,Duong Vu
発行日 2025-04-21 17:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | SuoiAI: Building a Dataset for Aquatic Invertebrates in Vietnam はコメントを受け付けていません

Bringing Diversity from Diffusion Models to Semantic-Guided Face Asset Generation

要約

デジタルモデリングと人間の顔の再構築は、さまざまなアプリケーションに役立ちます。
ただし、その可用性は、データをキャプチャするデバイス、肉体労働、および適切なアクターの要件によってしばしば妨げられています。
この状況は、結果のモデルに対する多様性、表現力、および制御を制限します。
この作業の目的は、意味的に制御可能な生成ネットワークがデジタルフェイスモデリングプロセスを強化できる制御を提供できることを実証することを目的としています。
制御された設定でスキャンされた限られた人間の顔を超えた多様性を高めるために、事前に訓練された拡散モデルを使用して高品質の3Dフェイスデータベースを作成する新しいデータ生成パイプラインを導入します。
提案された正規化モジュールは、拡散モデルから合成データを高品質のスキャンデータに変換します。
取得した44,000のフェイスモデルを使用して、さらに効率的なGANベースのジェネレーターを開発しました。
このジェネレーターは、セマンティック属性を入力として受け入れ、ジオメトリとアルベドを生成します。
また、潜在空間での属性の継続的な編集後も可能になります。
当社の資産洗練コンポーネントは、その後、物理的にベースの顔の資産を作成します。
高品質のフェイスアセットを作成および編集するために設計された包括的なシステムを紹介します。
提案されたモデルは、広範な実験、比較、評価を受けています。
また、すべてをWebベースのインタラクティブツールに統合します。
このツールを、論文のリリースで公開することを目指しています。

要約(オリジナル)

Digital modeling and reconstruction of human faces serve various applications. However, its availability is often hindered by the requirements of data capturing devices, manual labor, and suitable actors. This situation restricts the diversity, expressiveness, and control over the resulting models. This work aims to demonstrate that a semantically controllable generative network can provide enhanced control over the digital face modeling process. To enhance diversity beyond the limited human faces scanned in a controlled setting, we introduce a novel data generation pipeline that creates a high-quality 3D face database using a pre-trained diffusion model. Our proposed normalization module converts synthesized data from the diffusion model into high-quality scanned data. Using the 44,000 face models we obtained, we further developed an efficient GAN-based generator. This generator accepts semantic attributes as input, and generates geometry and albedo. It also allows continuous post-editing of attributes in the latent space. Our asset refinement component subsequently creates physically-based facial assets. We introduce a comprehensive system designed for creating and editing high-quality face assets. Our proposed model has undergone extensive experiment, comparison and evaluation. We also integrate everything into a web-based interactive tool. We aim to make this tool publicly available with the release of the paper.

arxiv情報

著者 Yunxuan Cai,Sitao Xiang,Zongjian Li,Haiwei Chen,Yajie Zhao
発行日 2025-04-21 17:38:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Bringing Diversity from Diffusion Models to Semantic-Guided Face Asset Generation はコメントを受け付けていません

Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields

要約

弱い重力レンズは、主に宇宙の暗黒物質の重力効果によって引き起こされる銀河形状のわずかな歪みです。
私たちの仕事では、2D望遠鏡画像から弱いレンズ信号を反転させて、宇宙の暗い物質分野の3Dマップを再構築しようとしています。
反転は通常、暗黒物質分野の2D投影をもたらしますが、暗黒物質分布の正確な3Dマップは、関心のある構造をローカライズし、宇宙の理論をテストするために不可欠です。
ただし、3Dの反転は大きな課題をもたらします。
第一に、複数の視点に依存する標準の3D再構成とは異なり、この場合、画像は単一の視点からのみ観察されます。
この課題は、ボリューム全体の銀河エミッターがどのようにレンズされているかを観察することにより、部分的に対処できます。
ただし、これは2番目の課題につながります。解除された銀河の形状と正確な位置は不明であり、非常に大きな不確実性でのみ推定できます。
これにより、圧倒的な量のノイズが導入され、レンズ信号が完全にownれそうになります。
以前のアプローチは、ボリュームの構造について強い仮定を課すことでこれに取り組みます。
代わりに、重力に制約のある神経界を使用して、連続物質分布を柔軟にモデル化する方法論を提案します。
分析ごとのアプローチを採用し、完全に微分可能な物理的フォワードモデルを介してニューラルネットワークの重みを最適化して、画像測定に存在するレンズ信号を再現します。
シミュレーションに関する方法を紹介します。これには、今後の望遠鏡調査のデータを模倣する暗黒物質分布の現実的なシミュレーション測定が含まれます。
私たちの結果は、私たちの方法が以前の方法よりも優れているだけでなく、潜在的に驚くべき暗い物質構造を回復することも重要であることを示しています。

要約(オリジナル)

Weak gravitational lensing is the slight distortion of galaxy shapes caused primarily by the gravitational effects of dark matter in the universe. In our work, we seek to invert the weak lensing signal from 2D telescope images to reconstruct a 3D map of the universe’s dark matter field. While inversion typically yields a 2D projection of the dark matter field, accurate 3D maps of the dark matter distribution are essential for localizing structures of interest and testing theories of our universe. However, 3D inversion poses significant challenges. First, unlike standard 3D reconstruction that relies on multiple viewpoints, in this case, images are only observed from a single viewpoint. This challenge can be partially addressed by observing how galaxy emitters throughout the volume are lensed. However, this leads to the second challenge: the shapes and exact locations of unlensed galaxies are unknown, and can only be estimated with a very large degree of uncertainty. This introduces an overwhelming amount of noise which nearly drowns out the lensing signal completely. Previous approaches tackle this by imposing strong assumptions about the structures in the volume. We instead propose a methodology using a gravitationally-constrained neural field to flexibly model the continuous matter distribution. We take an analysis-by-synthesis approach, optimizing the weights of the neural network through a fully differentiable physical forward model to reproduce the lensing signal present in image measurements. We showcase our method on simulations, including realistic simulated measurements of dark matter distributions that mimic data from upcoming telescope surveys. Our results show that our method can not only outperform previous methods, but importantly is also able to recover potentially surprising dark matter structures.

arxiv情報

著者 Brandon Zhao,Aviad Levis,Liam Connor,Pratul P. Srinivasan,Katherine L. Bouman
発行日 2025-04-21 17:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.CO, cs.CV | Revealing the 3D Cosmic Web through Gravitationally Constrained Neural Fields はコメントを受け付けていません

Diffusion Bridge Models for 3D Medical Image Translation

要約

拡散テンソルイメージング(DTI)は、人間の脳の微細構造に関する重要な洞察を提供しますが、より容易に利用可能なT1強調(T1W)磁気共鳴画像(MRI)と比較して、獲得するのは時間がかかる場合があります。
この課題に対処するために、T1W MRIとDTIモダリティの間の3D脳画像翻訳の拡散ブリッジモデルを提案します。
私たちのモデルは、T1W画像から高品質のDTI分数異方性(FA)画像を生成することを学び、その逆も同様です。
知覚的類似性、ピクセルレベルの一致、および分布の一貫性メトリックを使用してアプローチを評価し、解剖学的構造をキャプチャし、白質の完全性に関する情報を保存する際の強力なパフォーマンスを実証します。
合成データの実用的な有用性は、性分類とアルツハイマー病分類タスクを通じて検証されます。ここでは、生成された画像が実際のデータに匹敵するパフォーマンスを実現します。
拡散ブリッジモデルは、ニューロイメージングデータセットを改善し、臨床的意思決定をサポートするための有望なソリューションを提供し、神経画像の研究と臨床診療に大きな影響を与える可能性があります。

要約(オリジナル)

Diffusion tensor imaging (DTI) provides crucial insights into the microstructure of the human brain, but it can be time-consuming to acquire compared to more readily available T1-weighted (T1w) magnetic resonance imaging (MRI). To address this challenge, we propose a diffusion bridge model for 3D brain image translation between T1w MRI and DTI modalities. Our model learns to generate high-quality DTI fractional anisotropy (FA) images from T1w images and vice versa, enabling cross-modality data augmentation and reducing the need for extensive DTI acquisition. We evaluate our approach using perceptual similarity, pixel-level agreement, and distributional consistency metrics, demonstrating strong performance in capturing anatomical structures and preserving information on white matter integrity. The practical utility of the synthetic data is validated through sex classification and Alzheimer’s disease classification tasks, where the generated images achieve comparable performance to real data. Our diffusion bridge model offers a promising solution for improving neuroimaging datasets and supporting clinical decision-making, with the potential to significantly impact neuroimaging research and clinical practice.

arxiv情報

著者 Shaorong Zhang,Tamoghna Chattopadhyay,Sophia I. Thomopoulos,Jose-Luis Ambite,Paul M. Thompson,Greg Ver Steeg
発行日 2025-04-21 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion Bridge Models for 3D Medical Image Translation はコメントを受け付けていません

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes

要約

大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本質的にさまざまな時間情報密度を持つビデオの計算非効率性を作成します。
このペーパーでは、\ textBf {QuicksViewer}を紹介します。これは、Gumbel SoftMaxを使用して、不均一な密度のビデオをさまざまなキューブに分割する新しい知覚パラダイムを備えたLMMであり、それに続いて各キューブの統一された再サンプリングが行われ、効率的なビデオ理解を実現します。
このシンプルで直感的なアプローチは、その時間密度に基づいてオンラインでビデオを動的に圧縮し、時空間的冗長性(全体で45 $ \ Times $ $圧縮率)を大幅に減らし、大きな受容フィールドで効率的なトレーニングを可能にします。
言語のバックボーンから3つのプログレッシブステージを通じてモデルをトレーニングします。それぞれが、知覚効率のおかげで平均420S/1FPSで長いビデオを組み込んでいます。
トレーニング用の合計ビデオテキストサンプルのみで、私たちのモデルは、固定パーティション戦略を最大8.72の精度で使用する直接ベースラインよりも優れており、パフォーマンスの有効性を示しています。
Video-Mmeでは、QuicksViewerは、ベースラインで必要なフレームごとに最大5 \%のトークンを使用して、控えめなシーケンス長でSOTAを実現します。
このパラダイムを使用すると、入力フレームの数を拡大すると、モデル機能の明確な電力法則が明らかになります。
また、キューブネットワークによって生成されたセグメントがビデオでの継続的なイベントの分析に役立つことが経験的に検証されています。

要約(オリジナル)

Large Multimodal Models (LMMs) uniformly perceive video frames, creating computational inefficiency for videos with inherently varying temporal information density. This paper present \textbf{Quicksviewer}, an LMM with new perceiving paradigm that partitions a video of nonuniform density into varying cubes using Gumbel Softmax, followed by a unified resampling for each cube to achieve efficient video understanding. This simple and intuitive approach dynamically compress video online based on its temporal density, significantly reducing spatiotemporal redundancy (overall 45$\times$ compression rate), while enabling efficient training with large receptive field. We train the model from a language backbone through three progressive stages, each incorporating lengthy videos on average of 420s/1fps thanks to the perceiving efficiency. With only 0.8M total video-text samples for training, our model outperforms the direct baseline employing a fixed partitioning strategy by a maximum of 8.72 in accuracy, demonstrating the effectiveness in performance. On Video-MME, Quicksviewer achieves SOTA under modest sequence lengths using just up to 5\% of tokens per frame required by baselines. With this paradigm, scaling up the number of input frames reveals a clear power law of the model capabilities. It is also empirically verified that the segments generated by the cubing network can help for analyzing continuous events in videos.

arxiv情報

著者 Ji Qi,Yuan Yao,Yushi Bai,Bin Xu,Juanzi Li,Zhiyuan Liu,Tat-Seng Chua
発行日 2025-04-21 17:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes はコメントを受け付けていません

Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

要約

長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(VLMS)のファミリーであるイーグル2.5を紹介します。
私たちの仕事は、長いビデオ理解と高解像度の画像理解の課題に対処し、両方のタスクのジェネラリストの枠組みを紹介しています。
提案されたトレーニングフレームワークには、自動劣化サンプリングと画像エリアの保存、文脈的な完全性と視覚的な詳細を保持する2つの手法が組み込まれています。
このフレームワークには、長いコンテキストデータトレーニングのためのパイプラインの多数の効率的最適化も含まれています。
最後に、ストーリーレベルとクリップレベルの注釈の両方を統合する新しいデータセットであるEagle-Video-10Kを提案し、長いビデオの理解を促進します。
Eagle 2.5は、長いコンテキストマルチモーダルベンチマークの大幅な改善を示しており、既存のVLMの制限に対する堅牢なソリューションを提供します。
特に、当社のBest Model Eagle 2.5-8Bは、512の入力フレームでVideo-MMEで72.4%を達成し、GPT-4Oなどのトップ層の商用モデルの結果とQWEN2.5-VL-72BやInternVL2.5-78Bなどの大規模なオープンソースモデルの結果と一致します。

要約(オリジナル)

We introduce Eagle 2.5, a family of frontier vision-language models (VLMs) for long-context multimodal learning. Our work addresses the challenges in long video comprehension and high-resolution image understanding, introducing a generalist framework for both tasks. The proposed training framework incorporates Automatic Degrade Sampling and Image Area Preservation, two techniques that preserve contextual integrity and visual details. The framework also includes numerous efficiency optimizations in the pipeline for long-context data training. Finally, we propose Eagle-Video-110K, a novel dataset that integrates both story-level and clip-level annotations, facilitating long-video understanding. Eagle 2.5 demonstrates substantial improvements on long-context multimodal benchmarks, providing a robust solution to the limitations of existing VLMs. Notably, our best model Eagle 2.5-8B achieves 72.4% on Video-MME with 512 input frames, matching the results of top-tier commercial model such as GPT-4o and large-scale open-source models like Qwen2.5-VL-72B and InternVL2.5-78B.

arxiv情報

著者 Guo Chen,Zhiqi Li,Shihao Wang,Jindong Jiang,Yicheng Liu,Lidong Lu,De-An Huang,Wonmin Byeon,Matthieu Le,Tuomas Rintamaki,Tyler Poon,Max Ehrlich,Tuomas Rintamaki,Tyler Poon,Tong Lu,Limin Wang,Bryan Catanzaro,Jan Kautz,Andrew Tao,Zhiding Yu,Guilin Liu
発行日 2025-04-21 17:57:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models はコメントを受け付けていません