Grounding Video Models to Actions through Goal Conditioned Exploration

要約

大量のインターネットビデオで事前に処理された大規模なビデオモデルは、オブジェクトとタスクのダイナミクスと動きに関する物理的知識の豊富なソースを提供します。
ただし、ビデオモデルはエージェントの具体化に基づいていないため、ビデオに描かれている視覚状態に到達するために世界を作動させる方法を説明していません。
この問題に取り組むために、現在の方法は、具体化固有のデータで訓練された別のビジョンベースの逆動的モデルを使用して、画像状態をアクションにマッピングします。
このようなモデルをトレーニングするためにデータを収集することは、多くの場合、高価で挑戦的であり、このモデルはデータが利用可能なものと同様の視覚設定に限定されます。
この論文では、生成されたビデオ状態を探索の視覚的目標として使用して、具体化された環境での自己探求を通じて、ビデオモデルを継続的なアクションに直接接地する方法を調査します。
ビデオガイダンスと組み合わせて軌道レベルのアクション生成を使用して、エージェントが外部の監督、報酬、アクションラベル、セグメンテーションマスクなしで複雑なタスクを解決できるようにするフレームワークを提案します。
Liberoの8つのタスク、Metaworldの6つのタスク、Calvinの4つのタスク、およびIthor Visual Navigationの12タスクで提案されたアプローチを検証します。
私たちのアプローチがどのように同様であるかを示します。

要約(オリジナル)

Large video models, pretrained on massive amounts of Internet video, provide a rich source of physical knowledge about the dynamics and motions of objects and tasks. However, video models are not grounded in the embodiment of an agent, and do not describe how to actuate the world to reach the visual states depicted in a video. To tackle this problem, current methods use a separate vision-based inverse dynamic model trained on embodiment-specific data to map image states to actions. Gathering data to train such a model is often expensive and challenging, and this model is limited to visual settings similar to the ones in which data are available. In this paper, we investigate how to directly ground video models to continuous actions through self-exploration in the embodied environment — using generated video states as visual goals for exploration. We propose a framework that uses trajectory level action generation in combination with video guidance to enable an agent to solve complex tasks without any external supervision, e.g., rewards, action labels, or segmentation masks. We validate the proposed approach on 8 tasks in Libero, 6 tasks in MetaWorld, 4 tasks in Calvin, and 12 tasks in iThor Visual Navigation. We show how our approach is on par with or even surpasses multiple behavior cloning baselines trained on expert demonstrations while without requiring any action annotations.

arxiv情報

著者 Yunhao Luo,Yilun Du
発行日 2025-03-12 17:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Grounding Video Models to Actions through Goal Conditioned Exploration はコメントを受け付けていません

RRWNet: Recursive Refinement Network for effective retinal artery/vein segmentation and classification

要約

網膜血管の口径と構成は、さまざまな疾患や病状の重要なバイオマーカーとして機能します。
網膜血管系の徹底的な分析では、血管のセグメンテーションと、通常、レチノグラフィで得られた色の眼底画像で実行される動脈と静脈に分類する必要があります。
ただし、これらのタスクを手動で実行することは労働集約的であり、ヒューマンエラーが発生しやすいです。
このタスクに対処するためにいくつかの自動化された方法が提案されていますが、現在のARTの状態は、セグメンテーションマップのトポロジカル一貫性に影響を与えるマニフェスト分類エラーにより課題に直面しています。
この作業では、この制限に対処する新しいエンドツーエンドの深い学習フレームワークであるRrwnetを紹介します。
フレームワークは、セマンティックセグメンテーションマップを再帰的に洗練し、マニフェスト分類エラーを修正し、トポロジーの一貫性を改善する完全な畳み込みニューラルネットワークで構成されています。
特に、RRWNETは、入力画像からベースセグメンテーションマップを生成するベースサブネットワークと、これらのマップを反復的かつ再帰的に改善する再帰精製サブネットワークの2つの特殊なサブネットワークで構成されています。
3つの異なるパブリックデータセットでの評価は、提案された方法の最先端のパフォーマンスを示しており、既存のアプローチよりもマニフェスト分類エラーが少ないトポロジカルで一貫したセグメンテーションマップを生成します。
さらに、RRWNET内の再帰洗練モジュールは、他の方法からの後処理セグメンテーションマップに効果的であることが証明されており、その可能性をさらに実証しています。
モデルコード、重み、および予測は、https://github.com/j-morano/rrwnetで公開されます。

要約(オリジナル)

The caliber and configuration of retinal blood vessels serve as important biomarkers for various diseases and medical conditions. A thorough analysis of the retinal vasculature requires the segmentation of the blood vessels and their classification into arteries and veins, typically performed on color fundus images obtained by retinography. However, manually performing these tasks is labor-intensive and prone to human error. While several automated methods have been proposed to address this task, the current state of art faces challenges due to manifest classification errors affecting the topological consistency of segmentation maps. In this work, we introduce RRWNet, a novel end-to-end deep learning framework that addresses this limitation. The framework consists of a fully convolutional neural network that recursively refines semantic segmentation maps, correcting manifest classification errors and thus improving topological consistency. In particular, RRWNet is composed of two specialized subnetworks: a Base subnetwork that generates base segmentation maps from the input images, and a Recursive Refinement subnetwork that iteratively and recursively improves these maps. Evaluation on three different public datasets demonstrates the state-of-the-art performance of the proposed method, yielding more topologically consistent segmentation maps with fewer manifest classification errors than existing approaches. In addition, the Recursive Refinement module within RRWNet proves effective in post-processing segmentation maps from other methods, further demonstrating its potential. The model code, weights, and predictions will be publicly available at https://github.com/j-morano/rrwnet.

arxiv情報

著者 José Morano,Guilherme Aresta,Hrvoje Bogunović
発行日 2025-03-12 17:04:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | RRWNet: Recursive Refinement Network for effective retinal artery/vein segmentation and classification はコメントを受け付けていません

Electromyography-Informed Facial Expression Reconstruction for Physiological-Based Synthesis and Analysis

要約

筋肉の活動と結果として生じる表情の関係は、心理学、医学、娯楽など、さまざまな分野で重要です。
表面筋電図(SEMG)を介した顔の模倣と筋肉活動の同期記録は、これらの複雑なダイナミクスへのユニークな窓を提供します。
残念ながら、顔面分析のための既存の方法は電極の閉塞を処理することができず、効果がありません。
同じ人の閉塞のない参照画像でさえ、発現強度と実行の変動は比類のないものです。
私たちの筋電図に形成された表情再構成(EIFER)アプローチは、SEMG閉塞の下で敵対的な方法で忠実に顔を回復する新しい方法です。
3Dの形態モデル(3DMM)とニューラルの対応のない画像間翻訳を参照記録を介して組み合わせることにより、顔のジオメトリと視覚的な外観(肌のテクスチャー、照明、電極など)を切り離します。
次に、eiferは、3DMM発現パラメーターと筋肉活動の間の双方向マッピングを学習し、2つのドメイン間の対応を確立します。
同期されたSEMG録音と顔の模倣のデータセットでの実験を通じてアプローチの有効性を検証し、忠実な幾何学と外観の再構築を実証します。
さらに、筋肉の活動に基づいて表現を合成し、観察された表現が動的筋肉の活動をどのように予測できるかを合成します。
その結果、Eiferは、顔の筋電図の新しいパラダイムを導入します。これは、他の形態のマルチモーダル顔記録に拡張できます。

要約(オリジナル)

The relationship between muscle activity and resulting facial expressions is crucial for various fields, including psychology, medicine, and entertainment. The synchronous recording of facial mimicry and muscular activity via surface electromyography (sEMG) provides a unique window into these complex dynamics. Unfortunately, existing methods for facial analysis cannot handle electrode occlusion, rendering them ineffective. Even with occlusion-free reference images of the same person, variations in expression intensity and execution are unmatchable. Our electromyography-informed facial expression reconstruction (EIFER) approach is a novel method to restore faces under sEMG occlusion faithfully in an adversarial manner. We decouple facial geometry and visual appearance (e.g., skin texture, lighting, electrodes) by combining a 3D Morphable Model (3DMM) with neural unpaired image-to-image translation via reference recordings. Then, EIFER learns a bidirectional mapping between 3DMM expression parameters and muscle activity, establishing correspondence between the two domains. We validate the effectiveness of our approach through experiments on a dataset of synchronized sEMG recordings and facial mimicry, demonstrating faithful geometry and appearance reconstruction. Further, we synthesize expressions based on muscle activity and how observed expressions can predict dynamic muscle activity. Consequently, EIFER introduces a new paradigm for facial electromyography, which could be extended to other forms of multi-modal face recordings.

arxiv情報

著者 Tim Büchner,Christoph Anders,Orlando Guntinas-Lichius,Joachim Denzler
発行日 2025-03-12 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Electromyography-Informed Facial Expression Reconstruction for Physiological-Based Synthesis and Analysis はコメントを受け付けていません

The R2D2 Deep Neural Network Series for Scalable Non-Cartesian Magnetic Resonance Imaging

要約

磁気共鳴イメージング(MRI)における高度に加速した非カテーシア語Kスペース取得から高速かつスケーラブルな画像再構築のために、R2D2ディープニューラルネットワーク(DNN)シリーズパラダイムを導入します。
展開されているDNNアーキテクチャは、データコンシンジェンシー層を介して堅牢な画像形成アプローチを提供しますが、DNNに不均一な高速フーリエ変換演算子を埋め込むことは、大規模なコイルを使用して2D MRIで、または高次元の想像力を備えた大規模でトレーニングするのに非実用的になります。
測定設定に盲目的に学んだ除去者をデータコンシンジェンシーステップで交互にするプラグアンドプレイアプローチは、この制限の影響を受けませんが、それらの非常に反復的な性質はゆっくりとした再構成を意味します。
このスケーラビリティチャレンジに対処するために、最近導入されたR2D2パラダイムを活用して、電波天文学の大規模なフーリエイメージングの超高速再構成を可能にします。
R2D2の再構成は、以前の反復データを入力として残留するDNNモジュールの出力として繰り返し推定される一連の残留画像として形成されます。
この方法は、一致する追求アルゴリズムの学習バージョンとして解釈できます。
一連のR2D2 DNNモジュールは、FastMRIデータセットで監視された方法で連続的にトレーニングされ、シミュレーションおよび実際のデータで2DマルチコイルMRIについて検証され、高度にサンプリングされていないラジアルKスペースサンプリングをターゲットにしました。
結果は、DNNSが少ないシリーズが、その展開された化身R2D2-NET(トレーニングもはるかにスケーラブルではない)よりも優れた再構成の品質を達成し、最先端の拡散ベースの「分解された拡散サンプラー」アプローチ(より遅い再構成プロセスを特徴とする)よりも達成することを示唆しています。

要約(オリジナル)

We introduce the R2D2 Deep Neural Network (DNN) series paradigm for fast and scalable image reconstruction from highly-accelerated non-Cartesian k-space acquisitions in Magnetic Resonance Imaging (MRI). While unrolled DNN architectures provide a robust image formation approach via data-consistency layers, embedding non-uniform fast Fourier transform operators in a DNN can become impractical to train at large scale, e.g in 2D MRI with a large number of coils, or for higher-dimensional imaging. Plug-and-play approaches that alternate a learned denoiser blind to the measurement setting with a data-consistency step are not affected by this limitation but their highly iterative nature implies slow reconstruction. To address this scalability challenge, we leverage the R2D2 paradigm that was recently introduced to enable ultra-fast reconstruction for large-scale Fourier imaging in radio astronomy. R2D2’s reconstruction is formed as a series of residual images iteratively estimated as outputs of DNN modules taking the previous iteration’s data residual as input. The method can be interpreted as a learned version of the Matching Pursuit algorithm. A series of R2D2 DNN modules were sequentially trained in a supervised manner on the fastMRI dataset and validated for 2D multi-coil MRI in simulation and on real data, targeting highly under-sampled radial k-space sampling. Results suggest that a series with only few DNNs achieves superior reconstruction quality over its unrolled incarnation R2D2-Net (whose training is also much less scalable), and over the state-of-the-art diffusion-based ‘Decomposed Diffusion Sampler’ approach (also characterised by a slower reconstruction process).

arxiv情報

著者 Yiwei Chen,Amir Aghabiglou,Shijie Chen,Motahare Torki,Chao Tang,Ruud B. van Heeswijk,Yves Wiaux
発行日 2025-03-12 17:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, eess.SP | The R2D2 Deep Neural Network Series for Scalable Non-Cartesian Magnetic Resonance Imaging はコメントを受け付けていません

FCaS: Fine-grained Cardiac Image Synthesis based on 3D Template Conditional Diffusion Model

要約

セマンティックな画像生成を通じて医療画像データの希少性を解決することは、近年大きな注目を集めています。
ただし、既存の方法は、主に全球体または大量の構造の生成に焦点を当てており、細粒構造を持つ臓器の有効性が限られていることを示しています。
厳しいトポロジーの一貫性、壊れやすい冠動脈の特徴、および心臓イメージングにおける複雑な3D形態学的不均一性のため、心臓の細粒の解剖学的詳細を正確に再構築することは大きな課題です。
この問題に対処するために、このホワイトペーパーでは、3Dテンプレート条件拡散モデルで確立された、細粒の心臓画像合成(FCAS)フレームワークを提案します。
FCASは、テンプレートのガイダンスを通じてターゲット画像の微細なトポロジカル構造情報を提供する双方向メカニズムを通じて、テンプレート誘導条件拡散モデル(TCDM)を使用して、正確な心臓構造生成を達成します。
一方、生成プロセスにおける高品質で多様な参照マスクの希少性を軽減するために、変形可能なマスク生成モジュール(MGM)を設計します。
さらに、不正確な合成画像によって引き起こされる混乱を緩和するために、ダウンストリームセグメンテーションタスクの事前トレーニングを促進するための自信を得る適応学習(CAL)戦略を提案します。
具体的には、Skip-Sampling分散(SSV)推定を導入して信頼マップを取得します。このマップは、その後、下流タスクでのトレーニング前のトレーニングを修正するために採用されます。
実験結果は、FCAから生成された画像がトポロジーの一貫性と視覚品質の最先端のパフォーマンスを達成し、下流のタスクも大幅に促進することを示しています。
コードは将来リリースされます。

要約(オリジナル)

Solving medical imaging data scarcity through semantic image generation has attracted significant attention in recent years. However, existing methods primarily focus on generating whole-organ or large-tissue structures, showing limited effectiveness for organs with fine-grained structure. Due to stringent topological consistency, fragile coronary features, and complex 3D morphological heterogeneity in cardiac imaging, accurately reconstructing fine-grained anatomical details of the heart remains a great challenge. To address this problem, in this paper, we propose the Fine-grained Cardiac image Synthesis(FCaS) framework, established on 3D template conditional diffusion model. FCaS achieves precise cardiac structure generation using Template-guided Conditional Diffusion Model (TCDM) through bidirectional mechanisms, which provides the fine-grained topological structure information of target image through the guidance of template. Meanwhile, we design a deformable Mask Generation Module (MGM) to mitigate the scarcity of high-quality and diverse reference mask in the generation process. Furthermore, to alleviate the confusion caused by imprecise synthetic images, we propose a Confidence-aware Adaptive Learning (CAL) strategy to facilitate the pre-training of downstream segmentation tasks. Specifically, we introduce the Skip-Sampling Variance (SSV) estimation to obtain confidence maps, which are subsequently employed to rectify the pre-training on downstream tasks. Experimental results demonstrate that images generated from FCaS achieves state-of-the-art performance in topological consistency and visual quality, which significantly facilitates the downstream tasks as well. Code will be released in the future.

arxiv情報

著者 Jiahao Xia,Yutao Hu,Yaolei Qi,Zhenliang Li,Wenqi Shao,Junjun He,Ying Fu,Longjiang Zhang,Guanyu Yang
発行日 2025-03-12 17:25:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | FCaS: Fine-grained Cardiac Image Synthesis based on 3D Template Conditional Diffusion Model はコメントを受け付けていません

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

要約

不完全または騒々しい観察からのパラメーターの推定を含む逆問題は、医療イメージング、地球物理学、信号処理などのさまざまな分野で発生します。
これらの問題はしばしば不適切であり、ソリューションを安定させるために正則化手法が必要です。
この作業では、フローマッチング(FM)を採用しています。これは、決定論的プロセスを統合してガウスなどの単純な参照分布をターゲット分布にマッピングする生成的フレームワークです。
Method Dawn-FM:Data-AwareおよびNoise-Informed Flow Matchingには、データとノイズの埋め込みが組み込まれているため、モデルは測定データに関する表現に明示的にアクセスし、観察結果のノイズを説明できます。
時間依存の速度フィールドを学習することにより、FMは正確なソリューションを提供するだけでなく、複数のもっともらしい結果を生成することにより不確実性の定量化を可能にします。
非常に不適切な設定で苦労する可能性のある事前に訓練された拡散モデルとは異なり、私たちのアプローチは、逆の問題ごとに特別に訓練され、さまざまなノイズレベルに適応します。
画像デブリングや断層撮影などのタスクでの広範な数値実験を通じて、方法の有効性と堅牢性を検証します。

要約(オリジナル)

Inverse problems, which involve estimating parameters from incomplete or noisy observations, arise in various fields such as medical imaging, geophysics, and signal processing. These problems are often ill-posed, requiring regularization techniques to stabilize the solution. In this work, we employ Flow Matching (FM), a generative framework that integrates a deterministic processes to map a simple reference distribution, such as a Gaussian, to the target distribution. Our method DAWN-FM: Data-AWare and Noise-informed Flow Matching incorporates data and noise embedding, allowing the model to access representations about the measured data explicitly and also account for noise in the observations, making it particularly robust in scenarios where data is noisy or incomplete. By learning a time-dependent velocity field, FM not only provides accurate solutions but also enables uncertainty quantification by generating multiple plausible outcomes. Unlike pre-trained diffusion models, which may struggle in highly ill-posed settings, our approach is trained specifically for each inverse problem and adapts to varying noise levels. We validate the effectiveness and robustness of our method through extensive numerical experiments on tasks such as image deblurring and tomography.

arxiv情報

著者 Shadab Ahamed,Eldad Haber
発行日 2025-03-12 17:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems はコメントを受け付けていません

TPDiff: Temporal Pyramid Video Diffusion Model

要約

ビデオ拡散モデルの開発により、重要な課題が明らかになります。これは、実質的な計算需要です。
この課題を緩和するために、拡散の逆のプロセスは固有のエントロピー還元性を示すことに注意してください。
ビデオモダリティにおけるフレーム間冗長性を考えると、高エントロピー段階でフルフレームレートを維持することは不要です。
この洞察に基づいて、トレーニングと推論効率を高めるための統一されたフレームワークであるTPDIFFを提案します。
拡散をいくつかの段階に分割することにより、私たちのフレームワークは、拡散プロセスに沿ってフレームレートを徐々に増加させ、最後のステージのみがフルフレームレートで動作し、それにより計算効率を最適化します。
マルチステージ拡散モデルをトレーニングするために、専用のトレーニングフレームワークであるステージごとの拡散を紹介します。
整列データとノイズの下で、分割された確率フロー拡散の通常の微分方程式(ODE)を解くことにより、トレーニング戦略はさまざまな拡散型に適用でき、トレーニング効率をさらに高めます。
包括的な実験的評価は、当社の方法の一般性を検証し、トレーニングコストの50%の削減と推論効率の1.5倍の改善を示しています。

要約(オリジナル)

The development of video diffusion models unveils a significant challenge: the substantial computational demands. To mitigate this challenge, we note that the reverse process of diffusion exhibits an inherent entropy-reducing nature. Given the inter-frame redundancy in video modality, maintaining full frame rates in high-entropy stages is unnecessary. Based on this insight, we propose TPDiff, a unified framework to enhance training and inference efficiency. By dividing diffusion into several stages, our framework progressively increases frame rate along the diffusion process with only the last stage operating on full frame rate, thereby optimizing computational efficiency. To train the multi-stage diffusion model, we introduce a dedicated training framework: stage-wise diffusion. By solving the partitioned probability flow ordinary differential equations (ODE) of diffusion under aligned data and noise, our training strategy is applicable to various diffusion forms and further enhances training efficiency. Comprehensive experimental evaluations validate the generality of our method, demonstrating 50% reduction in training cost and 1.5x improvement in inference efficiency.

arxiv情報

著者 Lingmin Ran,Mike Zheng Shou
発行日 2025-03-12 17:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | TPDiff: Temporal Pyramid Video Diffusion Model はコメントを受け付けていません

Fair Federated Medical Image Classification Against Quality Shift via Inter-Client Progressive State Matching

要約

医療アプリケーションでの連邦学習の可能性にもかかわらず、機関全体で一貫性のないイメージングの品質 – 少数のクライアントバイアスのフェデレーションモデルからのより一般的な高品質の画像への低品質のデータからです。
これは、重大な公平性の懸念を引き起こします。
既存の公正な連合学習方法は、単一の0番目または1次収束状態(トレーニング損失やシャープネスなど)を整列させることにより、この問題を解決する際にある程度の有効性を実証しています。
ただし、この作業では、このような単一の状態に基づいた公平性は、テスト中の公平性の適切な代理ではないと主張しています。これらの単一のメトリックが収束特性を完全にキャプチャできず、公正な学習を導くために最適であると主張しています。
この制限に対処するために、一般化されたフレームワークを開発します。
具体的には、さまざまな検索距離で計算されたシャープネスまたは摂動損失として定義された複数の状態を使用して収束を評価することを提案します。
この包括的な評価に基づいて、私たちは、クライアント全体のこれらの州の公平性を促進するために、私たちの究極の公平性の目的を達成することを提案します。
これは、提案された方法であるFedism+を通じて達成されます。
Fedism+では、検索距離は時間とともに進化し、さまざまな状態に徐々に焦点を当てています。
次に、地元のトレーニングとグローバルな集約に2つのコンポーネントを組み込み、各州のクロスクライアントの公平性を確保します。
これにより、徐々にすべての状態で収束が公平になり、テスト中の公平性が向上します。
よく知られているRSNA ICHおよびISIC 2019データセットで実行された私たちの経験的評価は、公正な連邦学習のための既存の最先端の方法に対するFedism+の優位性を示しています。
このコードは、https://github.com/wnn2000/ffl4miaで入手できます。

要約(オリジナル)

Despite the potential of federated learning in medical applications, inconsistent imaging quality across institutions-stemming from lower-quality data from a minority of clients-biases federated models toward more common high-quality images. This raises significant fairness concerns. Existing fair federated learning methods have demonstrated some effectiveness in solving this problem by aligning a single 0th- or 1st-order state of convergence (e.g., training loss or sharpness). However, we argue in this work that fairness based on such a single state is still not an adequate surrogate for fairness during testing, as these single metrics fail to fully capture the convergence characteristics, making them suboptimal for guiding fair learning. To address this limitation, we develop a generalized framework. Specifically, we propose assessing convergence using multiple states, defined as sharpness or perturbed loss computed at varying search distances. Building on this comprehensive assessment, we propose promoting fairness for these states across clients to achieve our ultimate fairness objective. This is accomplished through the proposed method, FedISM+. In FedISM+, the search distance evolves over time, progressively focusing on different states. We then incorporate two components in local training and global aggregation to ensure cross-client fairness for each state. This gradually makes convergence equitable for all states, thereby improving fairness during testing. Our empirical evaluations, performed on the well-known RSNA ICH and ISIC 2019 datasets, demonstrate the superiority of FedISM+ over existing state-of-the-art methods for fair federated learning. The code is available at https://github.com/wnn2000/FFL4MIA.

arxiv情報

著者 Nannan Wu,Zhuo Kuang,Zengqiang Yan,Ping Wang,Li Yu
発行日 2025-03-12 17:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Fair Federated Medical Image Classification Against Quality Shift via Inter-Client Progressive State Matching はコメントを受け付けていません

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

要約

長いビデオのビデオ質問応答(VQA)は、関連する情報を抽出し、多くの冗長フレームから長距離依存関係をモデリングするという重要な課題を提起します。
自己関節メカニズムは、シーケンスモデリングの一般的なソリューションを提供しますが、長いビデオで膨大な数の空間的トークンに適用すると、法外なコストがあります。
ほとんどの先行方法は、スパースフレームサンプリングを介して入力長を削減したり、時空プーリングを介して大規模な言語モデル(LLM)に渡された出力シーケンスを圧縮したりするなど、計算コストを削減するための圧縮戦略に依存しています。
ただし、これらの素朴なアプローチは、冗長な情報を過剰に表現し、顕著なイベントや急速に発生する時空パターンを見逃します。
この作業では、長型のビデオを処理するための効率的な状態空間モデルであるBimbaを紹介します。
私たちのモデルは、選択的スキャンアルゴリズムを活用して、高次元ビデオから重要な情報を効果的に選択し、効率的なLLM処理のために縮小トークンシーケンスに変換することを学習します。
広範な実験は、BimbaがPerception、Next-QA、Egoschema、Vnbench、Longvideobench、Video-Mmeなど、複数の長型VQAベンチマークで最先端の精度を達成することを示しています。
コードとモデルは、https://sites.google.com/view/bimba-mllmで公開されています。

要約(オリジナル)

Video Question Answering (VQA) in long videos poses the key challenge of extracting relevant information and modeling long-range dependencies from many redundant frames. The self-attention mechanism provides a general solution for sequence modeling, but it has a prohibitive cost when applied to a massive number of spatiotemporal tokens in long videos. Most prior methods rely on compression strategies to lower the computational cost, such as reducing the input length via sparse frame sampling or compressing the output sequence passed to the large language model (LLM) via space-time pooling. However, these naive approaches over-represent redundant information and often miss salient events or fast-occurring space-time patterns. In this work, we introduce BIMBA, an efficient state-space model to handle long-form videos. Our model leverages the selective scan algorithm to learn to effectively select critical information from high-dimensional video and transform it into a reduced token sequence for efficient LLM processing. Extensive experiments demonstrate that BIMBA achieves state-of-the-art accuracy on multiple long-form VQA benchmarks, including PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench, and Video-MME. Code, and models are publicly available at https://sites.google.com/view/bimba-mllm.

arxiv情報

著者 Md Mohaiminul Islam,Tushar Nagarajan,Huiyu Wang,Gedas Bertasius,Lorenzo Torresani
発行日 2025-03-12 17:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | BIMBA: Selective-Scan Compression for Long-Range Video Question Answering はコメントを受け付けていません

HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation

要約

ドライビングワールドモデル(DWM)は、将来のシーン予測を可能にすることにより、自律運転に不可欠になりました。
ただし、既存のDWMはシーン生成に限定されており、シーンの理解を組み込むことができません。これには、運転環境に関する解釈と推論が含まれます。
この論文では、Hermesという名前の統一された運転世界モデルを紹介します。
3Dシーンの理解と将来のシーンの進化(世代)を、運転シナリオの統一されたフレームワークを通じてシームレスに統合します。
具体的には、エルメスは鳥瞰図(BEV)表現を活用して、幾何学的な関係と相互作用を維持しながら、マルチビューの空間情報を統合します。
また、大規模な言語モデルでの因果関係を介して世界の知識をBEV機能に組み込み、理解と生成タスクのコンテキスト濃縮を可能にする世界クエリも紹介します。
私たちは、ヌスケンとオムニドライブヌスセンデータセットに関する包括的な研究を実施して、方法の有効性を検証します。
エルメスは最先端のパフォーマンスを達成し、生成エラーを32.4%削減し、サイダーなどの理解のメトリックを8.0%削減します。
モデルとコードは、https://github.com/lmd0311/hermesで公開されます。

要約(オリジナル)

Driving World Models (DWMs) have become essential for autonomous driving by enabling future scene prediction. However, existing DWMs are limited to scene generation and fail to incorporate scene understanding, which involves interpreting and reasoning about the driving environment. In this paper, we present a unified Driving World Model named HERMES. We seamlessly integrate 3D scene understanding and future scene evolution (generation) through a unified framework in driving scenarios. Specifically, HERMES leverages a Bird’s-Eye View (BEV) representation to consolidate multi-view spatial information while preserving geometric relationships and interactions. We also introduce world queries, which incorporate world knowledge into BEV features via causal attention in the Large Language Model, enabling contextual enrichment for understanding and generation tasks. We conduct comprehensive studies on nuScenes and OmniDrive-nuScenes datasets to validate the effectiveness of our method. HERMES achieves state-of-the-art performance, reducing generation error by 32.4% and improving understanding metrics such as CIDEr by 8.0%. The model and code will be publicly released at https://github.com/LMD0311/HERMES.

arxiv情報

著者 Xin Zhou,Dingkang Liang,Sifan Tu,Xiwu Chen,Yikang Ding,Dingyuan Zhang,Feiyang Tan,Hengshuang Zhao,Xiang Bai
発行日 2025-03-12 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation はコメントを受け付けていません