RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding

要約

ビデオ理解が可能なマルチモーダルの大手言語モデル(MLLMS)は急速に進んでいます。
ビデオ理解機能を効果的に評価するために、ビデオMMEやMLVUなどの長いビデオ理解ベンチマークが提案されています。
ただし、これらのベンチマークは、テストに均一なフレームサンプリングを直接使用します。これにより、重要な情報損失が生じ、MLLMの真の能力を反映する評価の精度に影響します。
これに対処するために、特定の質問に最も関連するサンプリングフレームによるテスト中の情報損失を減らすプラグアンドプレイフレームワークであるRag-Adapterを提案します。
さらに、構築されたMMATデータセットで微調整を通じてRAG-Adapterのサンプリング効果をさらに強化するために、グループ化された監視対照学習(GCL)メソッドを導入します。
最後に、さまざまなビデオ理解ベンチマークで多数のベースラインMLLMSをテストし、rag-adapterサンプリングが一貫して均一なサンプリングを上回ることがわかりました(たとえば、GPT-4oの精度はビデオ-mmeで9.3%増加します)。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) capable of video understanding are advancing rapidly. To effectively assess their video comprehension capabilities, long video understanding benchmarks, such as Video-MME and MLVU, are proposed. However, these benchmarks directly use uniform frame sampling for testing, which results in significant information loss and affects the accuracy of the evaluations in reflecting the true abilities of MLLMs. To address this, we propose RAG-Adapter, a plug-and-play framework that reduces information loss during testing by sampling frames most relevant to the given question. Additionally, we introduce a Grouped-supervised Contrastive Learning (GCL) method to further enhance sampling effectiveness of RAG-Adapter through fine-tuning on our constructed MMAT dataset. Finally, we test numerous baseline MLLMs on various video understanding benchmarks, finding that RAG-Adapter sampling consistently outperforms uniform sampling (e.g., Accuracy of GPT-4o increases by 9.3 percent on Video-MME), providing a more accurate testing method for long video benchmarks.

arxiv情報

著者 Xichen Tan,Yunfan Ye,Yuanjing Luo,Qian Wan,Fang Liu,Zhiping Cai
発行日 2025-03-11 16:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding はコメントを受け付けていません

Comparing Satellite Data for Next-Day Wildfire Predictability

要約

複数の研究が衛星画像を使用して翌日の火災予測を実施しています。
2つの主要な衛星は、山火事を検出するために使用されます:ModisとViirs。
両方の衛星は、それぞれMOD14とVNP14と呼ばれるファイヤーマスク製品を提供します。
研究はどちらか一方を使用していますが、それらの間に比較はありませんでした。
この論文では、まず、VIIRSとMODISデータを使用して、1日先に山火事が広がると予測できるかを評価します。
VIIRSを入力として、VNP14をターゲットとして使用するモデルが最良の結果を達成することがわかります。
興味深いことに、MODISを入力として、VNP14をターゲットとして使用するモデルは、VNP14を入力として、MOD14をターゲットとして使用するよりも大幅に優れたパフォーマンスを発揮します。
次に、MOD14が翌日の火災を予測するのに使用するのが難しい理由について説明します。
MOD14ファイヤーマスクは非常に確率的であり、合理的な火災散布パターンと相関していないことがわかります。
これは、モデルが不合理なパターンを学習するため、機械学習タスクにとって有害で​​す。
したがって、MOD14は翌日の火災予測には適さないこと、およびVNP14がはるかに優れた選択肢であると結論付けます。
ただし、MODIS入力とVNP14をターゲットとして使用すると、予測可能性が大幅に改善されます。
これは、MODISでは改善された火災検出モデルが可能であることを示しています。
完全なコードとデータセットは、オンラインで入手できます:https://github.com/justuskarlsson/wildfire-mod14-vnp14

要約(オリジナル)

Multiple studies have performed next-day fire prediction using satellite imagery. Two main satellites are used to detect wildfires: MODIS and VIIRS. Both satellites provide fire mask products, called MOD14 and VNP14, respectively. Studies have used one or the other, but there has been no comparison between them to determine which might be more suitable for next-day fire prediction. In this paper, we first evaluate how well VIIRS and MODIS data can be used to forecast wildfire spread one day ahead. We find that the model using VIIRS as input and VNP14 as target achieves the best results. Interestingly, the model using MODIS as input and VNP14 as target performs significantly better than using VNP14 as input and MOD14 as target. Next, we discuss why MOD14 might be harder to use for predicting next-day fires. We find that the MOD14 fire mask is highly stochastic and does not correlate with reasonable fire spread patterns. This is detrimental for machine learning tasks, as the model learns irrational patterns. Therefore, we conclude that MOD14 is unsuitable for next-day fire prediction and that VNP14 is a much better option. However, using MODIS input and VNP14 as target, we achieve a significant improvement in predictability. This indicates that an improved fire detection model is possible for MODIS. The full code and dataset is available online: https://github.com/justuskarlsson/wildfire-mod14-vnp14

arxiv情報

著者 Justus Karlsson,Yonghao Xu,Amanda Berg,Leif Haglund
発行日 2025-03-11 16:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Comparing Satellite Data for Next-Day Wildfire Predictability はコメントを受け付けていません

MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification

要約

バッグベースの複数インスタンス学習(MIL)アプローチは、スライド画像全体(WSI)分類の主流の方法論として浮上しています。
ただし、ほとんどの既存の方法では、セグメント化されたトレーニング戦略が採用されています。これは、最初に事前に訓練された機能抽出器を使用して機能を抽出し、次にMILを介してこれらの機能を集約します。
このセグメント化されたトレーニングアプローチは、機能抽出ネットワークとMILネットワーク間の共同最適化が不十分になり、エンドツーエンドのジョイントの最適化を防ぎ、それによってモデルの全体的なパフォーマンスが制限されます。
さらに、従来の方法は通常、病理学者のマルチスケールの観測特性を無視して、固定サイズのすべてのパッチから特徴を抽出します。
これにより、腫瘍領域が最小限の割合を表している場合(Camelyon16データセットのように)、重要な計算リソース廃棄物をもたらすだけでなく、モデルを最適でないソリューションに導く可能性もあります。
これらの制限に対処するために、このペーパーでは、マルチスケール機能抽出を複数のインスタンス学習と統合するエンドツーエンドのマルチスケールWSI分類フレームワークを提案します。
具体的には、私たちのアプローチには次のものが含まれます。(1)非病原領域からの干渉を減らすためのセマンティック機能フィルタリングモジュール。
(2)さまざまなレベルで病的情報をキャプチャするマルチスケール機能抽出モジュール。
(3)グローバルモデリングと特徴統合のためのマルチスケール融合MILモジュール。
エンドツーエンドのトレーニング戦略を通じて、機能抽出器とMILネットワークの両方を同時に最適化し、それらの間の最大の互換性を確保します。
実験は、3つのクロスセンターデータセット(DigestPath2019、BCNB、およびUBC-OCEAN)で実施されました。
結果は、提案された方法が、精度(ACC)とAUCメトリックの両方の観点から、既存の最先端のアプローチを上回ることを示しています。

要約(オリジナル)

Bag-based Multiple Instance Learning (MIL) approaches have emerged as the mainstream methodology for Whole Slide Image (WSI) classification. However, most existing methods adopt a segmented training strategy, which first extracts features using a pre-trained feature extractor and then aggregates these features through MIL. This segmented training approach leads to insufficient collaborative optimization between the feature extraction network and the MIL network, preventing end-to-end joint optimization and thereby limiting the overall performance of the model. Additionally, conventional methods typically extract features from all patches of fixed size, ignoring the multi-scale observation characteristics of pathologists. This not only results in significant computational resource waste when tumor regions represent a minimal proportion (as in the Camelyon16 dataset) but may also lead the model to suboptimal solutions. To address these limitations, this paper proposes an end-to-end multi-scale WSI classification framework that integrates multi-scale feature extraction with multiple instance learning. Specifically, our approach includes: (1) a semantic feature filtering module to reduce interference from non-lesion areas; (2) a multi-scale feature extraction module to capture pathological information at different levels; and (3) a multi-scale fusion MIL module for global modeling and feature integration. Through an end-to-end training strategy, we simultaneously optimize both the feature extractor and MIL network, ensuring maximum compatibility between them. Experiments were conducted on three cross-center datasets (DigestPath2019, BCNB, and UBC-OCEAN). Results demonstrate that our proposed method outperforms existing state-of-the-art approaches in terms of both accuracy (ACC) and AUC metrics.

arxiv情報

著者 Jiangping Wen,Jinyu Wen,Emei Fang
発行日 2025-03-11 16:16:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MsaMIL-Net: An End-to-End Multi-Scale Aware Multiple Instance Learning Network for Efficient Whole Slide Image Classification はコメントを受け付けていません

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding

要約

マルチモーダルの大手言語モデル(MLLM)の進歩にもかかわらず、現在のアプローチは、フレームとコンテキストの長さの制限により、中程度から長いビデオ理解に苦労しています。
その結果、これらのモデルは多くの場合、フレームサンプリングに依存します。フレームサンプリングは、時間の経過とともに重要な情報が欠落しているリスクがあり、タスク固有の関連性を欠いています。
これらの課題に対処するために、LLMのコンテキスト長の制限を避けながら、フレームの必要性をバイパスするためにフレームを順次処理するタスクに対応する階層Q-formerベースのフレームワークであるHierarqを導入します。
軽量の2ストリーム言語誘導機能変調器を導入して、ビデオ理解にタスク認識を組み込むことができます。エンティティストリームは、短いコンテキスト内でフレームレベルのオブジェクト情報をキャプチャし、シーンストリームはより広範な相互作用を識別します。
各ストリームは、提案されているHierachicalクエリトランス(HierARQ)が短期的および長期的なコンテキストを効果的にキャプチャできるようにする専用のメモリバンクによってサポートされています。
ビデオの理解、質問への回答、およびキャプションタスク全体の10のビデオベンチマークに関する広範な評価は、ほとんどのデータセットにわたってHierARQの最先端のパフォーマンスを示し、包括的なビデオ分析のための堅牢性と効率性を証明しています。

要約(オリジナル)

Despite advancements in multimodal large language models (MLLMs), current approaches struggle in medium-to-long video understanding due to frame and context length limitations. As a result, these models often depend on frame sampling, which risks missing key information over time and lacks task-specific relevance. To address these challenges, we introduce HierarQ, a task-aware hierarchical Q-Former based framework that sequentially processes frames to bypass the need for frame sampling, while avoiding LLM’s context length limitations. We introduce a lightweight two-stream language-guided feature modulator to incorporate task awareness in video understanding, with the entity stream capturing frame-level object information within a short context and the scene stream identifying their broader interactions over longer period of time. Each stream is supported by dedicated memory banks which enables our proposed Hierachical Querying transformer (HierarQ) to effectively capture short and long-term context. Extensive evaluations on 10 video benchmarks across video understanding, question answering, and captioning tasks demonstrate HierarQ’s state-of-the-art performance across most datasets, proving its robustness and efficiency for comprehensive video analysis.

arxiv情報

著者 Shehreen Azad,Vibhav Vineet,Yogesh Singh Rawat
発行日 2025-03-11 16:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding はコメントを受け付けていません

Integration of nested cross-validation, automated hyperparameter optimization, high-performance computing to reduce and quantify the variance of test performance estimation of deep learning models

要約

医療イメージングのためのディープラーニングモデルの実際のパフォーマンスベンチマークの変動とバイアスは、実際の展開に対する信頼性を損なうことを妥協します。
単一の固定テストセットを保持する一般的なアプローチは、テストパフォーマンスメトリックの推定の分散を定量化できません。
この研究では、深い学習モデルのテストパフォーマンスメトリックの分散を減らして定量化するために、ナチョス(ネストされた自動化された交差検証とハイパーパラメーターの最適化)を紹介します。
Nachosは、並列化された高性能コンピューティング(HPC)フレームワーク内で、ネストされた交差検証(NCV)と自動化ハイパーパラメーター最適化(AHPO)を統合します。
ナチョスは、複数のデータパーティションスキームの下で、胸部X線リポジトリと光コヒーレンス断層撮影(OCT)データセットで実証されました。
パフォーマンスの推定を超えて、ダコス(スーパーコンピューティングを使用した自動化された交差検証とハイパーパラメーターの最適化による展開)がAHPOと交差検証を活用して、完全なデータセットで最終モデルを構築し、予想される展開パフォーマンスを改善します。
この調査結果は、推定の分散を定量化および削減する際のNCV、テストの折り目全体で一貫してハイパーパラメーターを最適化する際のAHPO、および計算の実現可能性を確保するためのHPCの重要性を強調しています。
これらの方法論を統合することにより、NachosとDachosは、医療イメージングにおけるDLモデルの評価と展開のためのスケーラブルで再現可能な、信頼できるフレームワークを提供します。

要約(オリジナル)

The variability and biases in the real-world performance benchmarking of deep learning models for medical imaging compromise their trustworthiness for real-world deployment. The common approach of holding out a single fixed test set fails to quantify the variance in the estimation of test performance metrics. This study introduces NACHOS (Nested and Automated Cross-validation and Hyperparameter Optimization using Supercomputing) to reduce and quantify the variance of test performance metrics of deep learning models. NACHOS integrates Nested Cross-Validation (NCV) and Automated Hyperparameter Optimization (AHPO) within a parallelized high-performance computing (HPC) framework. NACHOS was demonstrated on a chest X-ray repository and an Optical Coherence Tomography (OCT) dataset under multiple data partitioning schemes. Beyond performance estimation, DACHOS (Deployment with Automated Cross-validation and Hyperparameter Optimization using Supercomputing) is introduced to leverage AHPO and cross-validation to build the final model on the full dataset, improving expected deployment performance. The findings underscore the importance of NCV in quantifying and reducing estimation variance, AHPO in optimizing hyperparameters consistently across test folds, and HPC in ensuring computational feasibility. By integrating these methodologies, NACHOS and DACHOS provide a scalable, reproducible, and trustworthy framework for DL model evaluation and deployment in medical imaging.

arxiv情報

著者 Paul Calle,Averi Bates,Justin C. Reynolds,Yunlong Liu,Haoyang Cui,Sinaro Ly,Chen Wang,Qinghao Zhang,Alberto J. de Armendi,Shashank S. Shettar,Kar Ming Fung,Qinggong Tang,Chongle Pan
発行日 2025-03-11 16:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Integration of nested cross-validation, automated hyperparameter optimization, high-performance computing to reduce and quantify the variance of test performance estimation of deep learning models はコメントを受け付けていません

3D Point Cloud Generation via Autoregressive Up-sampling

要約

3Dポイントクラウド生成向けの先駆的なオートレーフレフな生成モデルを紹介します。
Visual Autore-Gonisure Modeling(VAR)に触発され、Point Cloud Generationを自己回帰アップサンプリングプロセスとして概念化します。
これは、私たちの新しいモデルであるPointaruにつながります。これは、粗いスケールから微細なスケールまで3Dポイント雲を徐々に改良します。
Pointaruは2段階のトレーニングパラダイムに従います。まず、ポイントクラウドのマルチスケールの離散表現を学習し、次に次に次のスケール予測のために自動再生トランスを訓練します。
ポイントクラウドの固有の非秩序化された不規則な構造に対処するために、両方の段階に特殊なポイントベースのアップサンプリングネットワークモジュールを組み込み、第2段階で各スケールでデコードされたポイントクラウドに基づいて3D絶対位置エンコードを統合します。
私たちのモデルは、多様な実験設定にわたって生成品質とパラメーター効率の両方で最先端の(SOTA)拡散ベースのアプローチを上回り、3Dポイントクラウド生成における自己回帰法の新しいマイルストーンをマークします。
さらに、Pointaruは、部分的な3D形状を完成させ、アップサンプリングスパースポイントクラウドを完成させ、これらのタスクの既存の生成モデルを上回る際に、例外的なパフォーマンスを示しています。

要約(オリジナル)

We introduce a pioneering autoregressive generative model for 3D point cloud generation. Inspired by visual autoregressive modeling (VAR), we conceptualize point cloud generation as an autoregressive up-sampling process. This leads to our novel model, PointARU, which progressively refines 3D point clouds from coarse to fine scales. PointARU follows a two-stage training paradigm: first, it learns multi-scale discrete representations of point clouds, and then it trains an autoregressive transformer for next-scale prediction. To address the inherent unordered and irregular structure of point clouds, we incorporate specialized point-based up-sampling network modules in both stages and integrate 3D absolute positional encoding based on the decoded point cloud at each scale during the second stage. Our model surpasses state-of-the-art (SoTA) diffusion-based approaches in both generation quality and parameter efficiency across diverse experimental settings, marking a new milestone for autoregressive methods in 3D point cloud generation. Furthermore, PointARU demonstrates exceptional performance in completing partial 3D shapes and up-sampling sparse point clouds, outperforming existing generative models in these tasks.

arxiv情報

著者 Ziqiao Meng,Qichao Wang,Zhipeng Zhou,Irwin King,Peilin Zhao
発行日 2025-03-11 16:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | 3D Point Cloud Generation via Autoregressive Up-sampling はコメントを受け付けていません

X-Field: A Physically Grounded Representation for 3D X-ray Reconstruction

要約

X線イメージングは​​、医療診断において不可欠ですが、その使用は潜在的な健康リスクのために厳しく規制されています。
放射線曝露を緩和するために、最近の研究では、スパース入力からの新しいビューの生成と、コンピューター断層撮影(CT)ボリュームの再構築、3D再構成エリアからの借入表現に焦点を当てています。
ただし、これらの表現はもともと、X線イメージングの浸透と減衰特性を無視しながら、反射と散乱効果を強調する可視光イメージングをターゲットにしています。
この論文では、さまざまな材料のエネルギー吸収速度に根ざしたX線イメージング用に特別に設計された最初の3D表現であるX-Fieldを紹介します。
内部構造内の多様な材料を正確にモデル化するために、明確な減衰係数を持つ3D楕円体を使用します。
各材料のX線のエネルギー吸収を推定するために、複雑な楕円交差を占める効率的な経路分割アルゴリズムを考案します。
さらに、ハイブリッドのプログレッシブ初期化を提案して、X-Filedおよび組み込まれた材料ベースの最適化の幾何学的精度を改良して、材料の境界に沿ったモデルの適合を強化します。
実験は、X-fieldが現実世界の人間の臓器と合成オブジェクトの両方のデータセットで優れた視覚忠実度を達成し、X線斬新ビューの合成とCT再構成の最先端の方法を上回ることを示しています。

要約(オリジナル)

X-ray imaging is indispensable in medical diagnostics, yet its use is tightly regulated due to potential health risks. To mitigate radiation exposure, recent research focuses on generating novel views from sparse inputs and reconstructing Computed Tomography (CT) volumes, borrowing representations from the 3D reconstruction area. However, these representations originally target visible light imaging that emphasizes reflection and scattering effects, while neglecting penetration and attenuation properties of X-ray imaging. In this paper, we introduce X-Field, the first 3D representation specifically designed for X-ray imaging, rooted in the energy absorption rates across different materials. To accurately model diverse materials within internal structures, we employ 3D ellipsoids with distinct attenuation coefficients. To estimate each material’s energy absorption of X-rays, we devise an efficient path partitioning algorithm accounting for complex ellipsoid intersections. We further propose hybrid progressive initialization to refine the geometric accuracy of X-Filed and incorporate material-based optimization to enhance model fitting along material boundaries. Experiments show that X-Field achieves superior visual fidelity on both real-world human organ and synthetic object datasets, outperforming state-of-the-art methods in X-ray Novel View Synthesis and CT Reconstruction.

arxiv情報

著者 Feiran Wang,Jiachen Tao,Junyi Wu,Haoxuan Wang,Bin Duan,Kai Wang,Zongxin Yang,Yan Yan
発行日 2025-03-11 16:31:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X-Field: A Physically Grounded Representation for 3D X-ray Reconstruction はコメントを受け付けていません

LiSu: A Dataset and Method for LiDAR Surface Normal Estimation

要約

表面正数は3Dシーンのジオメトリを分析するために広く使用されていますが、Lidar Point Cloudsからの表面正常推定は、露出していないままです。
これは、一方では大規模な注釈付きデータセットがないこと、および他方では妥当な時間でスパースでしばしばノイズの多いライダーデータを堅牢に処理できる方法がないことが原因です。
トラフィックシミュレーションエンジンを使用してこれらの制限に対処し、グラウンドトゥルースサーフェスの通常の注釈を備えた最初の大規模で合成ライダーポイントクラウドデータセットであるLISUを提示し、退屈なマニュアルラベル付けの必要性を排除します。
さらに、表面の通常の推定精度を高めるために、自律運転データの時空間特性を活用する新しい方法を提案します。
2つの正規化項を組み込むことにより、隣接するポイント間の空間的一貫性と、連続したライダーフレーム全体で時間的な滑らかさを実施します。
これらの正統派は、自己訓練の設定で特に効果的であり、そこではノイズの多い擬似ラベルの影響を軽減し、堅牢な実世界の展開を可能にします。
Lisuに対する方法の有効性を実証し、Lidar表面の通常の推定で最先端のパフォーマンスを達成します。
さらに、合成間ドメイン適応の挑戦的なタスクに対処する可能性を最大限に示し、実際のデータでの神経表面再構成の改善につながります。

要約(オリジナル)

While surface normals are widely used to analyse 3D scene geometry, surface normal estimation from LiDAR point clouds remains severely underexplored. This is caused by the lack of large-scale annotated datasets on the one hand, and lack of methods that can robustly handle the sparse and often noisy LiDAR data in a reasonable time on the other hand. We address these limitations using a traffic simulation engine and present LiSu, the first large-scale, synthetic LiDAR point cloud dataset with ground truth surface normal annotations, eliminating the need for tedious manual labeling. Additionally, we propose a novel method that exploits the spatiotemporal characteristics of autonomous driving data to enhance surface normal estimation accuracy. By incorporating two regularization terms, we enforce spatial consistency among neighboring points and temporal smoothness across consecutive LiDAR frames. These regularizers are particularly effective in self-training settings, where they mitigate the impact of noisy pseudo-labels, enabling robust real-world deployment. We demonstrate the effectiveness of our method on LiSu, achieving state-of-the-art performance in LiDAR surface normal estimation. Moreover, we showcase its full potential in addressing the challenging task of synthetic-to-real domain adaptation, leading to improved neural surface reconstruction on real-world data.

arxiv情報

著者 Dušan Malić,Christian Fruhwirth-Reisinger,Samuel Schulter,Horst Possegger
発行日 2025-03-11 16:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LiSu: A Dataset and Method for LiDAR Surface Normal Estimation はコメントを受け付けていません

ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding

要約

ビデオ大規模な言語モデル(Videollms)は、ビデオ理解において顕著な進歩を遂げています。
ただし、既存のVideollmsは、長いシーケンスを処理する際にバックボーンLLMの制限を継承し、長いビデオ理解のための課題につながります。
一般的なソリューションは、ビデオのフレームを均一にサンプリングするか、視覚的なトークンを圧縮する単純に、主に低レベルの時間的視覚冗長性に焦点を当て、高レベルの知識冗長性を見落とします。
これにより、達成可能な圧縮率が最小限の損失で制限されます。
この目的を達成するために。
2つの新しいモジュールDPSelectとPIVOTKVを含むトレーニングフリーメソッド$ \ textBf {retake} $を導入して、長いビデオ理解のための時間的視覚的冗長性と知識冗長性の両方を共同でモデル化して減らします。
具体的には、DPSelectは、視覚的特徴に基づいて、局所的な最大ピーク距離でキーフレームを識別します。これは、人間のビデオ認識と密接に整合しています。
PivotKVは、取得したキーフレームをPIVOTSとして採用し、LLMの学習事前知識から導き出される注意スコアの低い非ピボットトークンのKVキャッシュ圧縮を実施します。
ベンチマークでの実験VideMomme、MLVU、およびLVBenchは、パフォーマンスの損失を最小限に抑えて4倍長いビデオシーケンスをサポートし(<1%)、3%-5%ですべての同様のサイズのビデオオルムを上回ることができることを示しています。 私たちのコードは、https://github.com/sczwangxiao/video-retakeで入手できます

要約(オリジナル)

Video Large Language Models (VideoLLMs) have achieved remarkable progress in video understanding. However, existing VideoLLMs often inherit the limitations of their backbone LLMs in handling long sequences, leading to challenges for long video understanding. Common solutions either simply uniformly sample videos’ frames or compress visual tokens, which focus primarily on low-level temporal visual redundancy, overlooking high-level knowledge redundancy. This limits the achievable compression rate with minimal loss. To this end. we introduce a training-free method, $\textbf{ReTaKe}$, containing two novel modules DPSelect and PivotKV, to jointly model and reduce both temporal visual redundancy and knowledge redundancy for long video understanding. Specifically, DPSelect identifies keyframes with local maximum peak distance based on their visual features, which are closely aligned with human video perception. PivotKV employs the obtained keyframes as pivots and conducts KV-Cache compression for the non-pivot tokens with low attention scores, which are derived from the learned prior knowledge of LLMs. Experiments on benchmarks VideoMME, MLVU, and LVBench, show that ReTaKe can support 4x longer video sequences with minimal performance loss (<1%) and outperform all similar-size VideoLLMs with 3%-5%, even surpassing or on par with much larger ones. Our code is available at https://github.com/SCZwangxiao/video-ReTaKe

arxiv情報

著者 Xiao Wang,Qingyi Si,Jianlong Wu,Shiyu Zhu,Li Cao,Liqiang Nie
発行日 2025-03-11 16:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM | ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding はコメントを受け付けていません

CellStyle: Improved Zero-Shot Cell Segmentation via Style Transfer

要約

細胞顕微鏡データは豊富です。
ただし、対応するセグメンテーション注釈は希少なままです。
さらに、セルタイプ、イメージングデバイス、染色技術のバリエーションは、データセット間に重要なドメインギャップをもたらします。
その結果、多様なデータセット(ソースデータセット)で訓練された大規模で前提条件のセグメンテーションモデルでさえ、目に見えないデータセット(ターゲットデータセット)に一般化するのに苦労しています。
この一般化問題を克服するために、ターゲットデータセットにラベルを必要とせずにそのようなモデルのセグメンテーション品質を改善するCellStyleを提案し、それによりゼロショットの適応を可能にします。
CellStyleは、テクスチャ、色、ノイズなどの発表されていないターゲットデータセットの属性を注釈付きのソースデータセットに転送します。
この転送は、ソース画像のセル形状を保持しながら実行され、ターゲットデータセットの視覚特性を維持しながら既存のソース注釈を使用できるようにします。
既存の注釈を備えたスタイルの合成画像により、発表されていないターゲットデータへの適用のためのジェネラリストセグメンテーションモデルの微調整を可能にします。
CellSteleは、スタイルが移動されたデータで複数のセグメンテーションモデルを獲得することにより、多様なデータセット全体でゼロショットセルセグメンテーションのパフォーマンスを大幅に改善することを実証します。
コードは公開されます。

要約(オリジナル)

Cell microscopy data are abundant; however, corresponding segmentation annotations remain scarce. Moreover, variations in cell types, imaging devices, and staining techniques introduce significant domain gaps between datasets. As a result, even large, pretrained segmentation models trained on diverse datasets (source datasets) struggle to generalize to unseen datasets (target datasets). To overcome this generalization problem, we propose CellStyle, which improves the segmentation quality of such models without requiring labels for the target dataset, thereby enabling zero-shot adaptation. CellStyle transfers the attributes of an unannotated target dataset, such as texture, color, and noise, to the annotated source dataset. This transfer is performed while preserving the cell shapes of the source images, ensuring that the existing source annotations can still be used while maintaining the visual characteristics of the target dataset. The styled synthetic images with the existing annotations enable the finetuning of a generalist segmentation model for application to the unannotated target data. We demonstrate that CellStyle significantly improves zero-shot cell segmentation performance across diverse datasets by finetuning multiple segmentation models on the style-transferred data. The code will be made publicly available.

arxiv情報

著者 Rüveyda Yilmaz,Zhu Chen,Yuli Wu,Johannes Stegmaier
発行日 2025-03-11 16:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | CellStyle: Improved Zero-Shot Cell Segmentation via Style Transfer はコメントを受け付けていません