Flopping for FLOPs: Leveraging equivariance for computational efficiency

要約

幾何学的不変性をニューラルネットワークに組み込むと、パラメーター効率が向上しますが、通常は計算コストが増加します。
このペーパーでは、対称性を維持しながら、パラメーターごとに同等の数のフローティングポイント操作(FLOPS)を標準的な非等変量ネットワークに維持しながら、対称性を維持する新しい等量ニューラルネットワークを紹介します。
多くのコンピュータービジョンタスクで一般的な水平ミラーリング(フロップ)不変性に焦点を当てています。
主なアイデアは、ミラー対称およびミラー対称の特徴、つまりフロッピンググループのいらいらの点で特徴スペースをパラメータ化することです。
これにより、線形層がブロック対角になるように分解し、フロップの半分が必要です。
私たちのアプローチは、フロップと壁1時間の両方の時間を短縮し、効率的でスケーラブルな対称性を意識するアーキテクチャのための実用的なソリューションを提供します。

要約(オリジナル)

Incorporating geometric invariance into neural networks enhances parameter efficiency but typically increases computational costs. This paper introduces new equivariant neural networks that preserve symmetry while maintaining a comparable number of floating-point operations (FLOPs) per parameter to standard non-equivariant networks. We focus on horizontal mirroring (flopping) invariance, common in many computer vision tasks. The main idea is to parametrize the feature spaces in terms of mirror-symmetric and mirror-antisymmetric features, i.e., irreps of the flopping group. This decomposes the linear layers to be block-diagonal, requiring half the number of FLOPs. Our approach reduces both FLOPs and wall-clock time, providing a practical solution for efficient, scalable symmetry-aware architectures.

arxiv情報

著者 Georg Bökman,David Nordström,Fredrik Kahl
発行日 2025-02-07 18:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Flopping for FLOPs: Leveraging equivariance for computational efficiency はコメントを受け付けていません

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

要約

回転位置の埋め込み(ロープ)とそのバリアントは、長いコンテキスト機能に広く採用されていますが、複雑な時空間構造を備えた1Dロープへの拡張は、未解決の課題のままです。
この作業は、最初に、ロープへの効果的な適応に不可欠な4つの重要な特性を識別する包括的な分析を紹介します。
分析の一環として、V-Niahに定期的なディストラクタを追加する挑戦的なV-Niah-D(Visual Needle-in-a-haystackを使用して)タスクを紹介します。
V-Niah-Dタスクは、適切な時間的寸法の割り当てを欠いている以前のロープバリアントが、ディストラクタによって簡単に誤解されることを示しています。
分析に基づいて、\ textbf {videorope}を導入します。これは、時空間的関係を保持するように設計された\ textit {3D構造}を使用します。
Videoropeは、定期的な振動を緩和するための\ textIT {低周波数割り当て}、空間的対称性を維持するための\ textit {斜めのレイアウト}、および\ textit {調整可能な時間間隔}を維持して、時間と空間のインデックスを分離します。
Videoropeは、長いビデオ検索、ビデオ理解、ビデオ幻覚などの多様な下流タスクを越えて、以前のロープバリアントを一貫して上回ります。
私たちのコードは、\ href {https://github.com/wiselnn570/videorope} {https://github.com/wiselnn570/videorope}で入手できます。

要約(オリジナル)

While Rotary Position Embedding (RoPE) and its variants are widely adopted for their long-context capabilities, the extension of the 1D RoPE to video, with its complex spatio-temporal structure, remains an open challenge. This work first introduces a comprehensive analysis that identifies four key characteristics essential for the effective adaptation of RoPE to video, which have not been fully considered in prior work. As part of our analysis, we introduce a challenging V-NIAH-D (Visual Needle-In-A-Haystack with Distractors) task, which adds periodic distractors into V-NIAH. The V-NIAH-D task demonstrates that previous RoPE variants, lacking appropriate temporal dimension allocation, are easily misled by distractors. Based on our analysis, we introduce \textbf{VideoRoPE}, with a \textit{3D structure} designed to preserve spatio-temporal relationships. VideoRoPE features \textit{low-frequency temporal allocation} to mitigate periodic oscillations, a \textit{diagonal layout} to maintain spatial symmetry, and \textit{adjustable temporal spacing} to decouple temporal and spatial indexing. VideoRoPE consistently surpasses previous RoPE variants, across diverse downstream tasks such as long video retrieval, video understanding, and video hallucination. Our code will be available at \href{https://github.com/Wiselnn570/VideoRoPE}{https://github.com/Wiselnn570/VideoRoPE}.

arxiv情報

著者 Xilin Wei,Xiaoran Liu,Yuhang Zang,Xiaoyi Dong,Pan Zhang,Yuhang Cao,Jian Tong,Haodong Duan,Qipeng Guo,Jiaqi Wang,Xipeng Qiu,Dahua Lin
発行日 2025-02-07 18:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoRoPE: What Makes for Good Video Rotary Position Embedding? はコメントを受け付けていません

Fillerbuster: Multi-View Scene Completion for Casual Captures

要約

Fillerbusterを提示します。これは、新しい大規模なマルチビュー潜在拡散トランスを利用することにより、3Dシーンの未知の領域を完成させる方法です。
カジュアルなキャプチャは、多くの場合、オブジェクトの後ろまたはシーンの上の周囲のコンテンツをまばらで見逃しています。
既存のメソッドは、既知のピクセルをスパースビュープライアーで見栄えを良くするか、1枚または2枚の写真からオブジェクトの欠落している側面を作成することに焦点を当てているため、この課題を処理するのに適していません。
実際には、多くの場合、数百の入力フレームがあり、入力フレームから欠落していない領域を完成させたいと考えています。
さらに、画像にはカメラのパラメーターが既知ではないことがよくあります。
私たちの解決策は、不明なターゲットビューを生成し、必要に応じて画像のポーズを回復しながら、入力フレームの大きなコンテキストを消費できる生成モデルをトレーニングすることです。
2つの既存のデータセットで部分的なキャプチャを完成させる結果を示します。
また、統一されたモデルがポーズの両方を予測し、新しいコンテンツを作成する非調整されたシーン完了タスクも提示します。
私たちのモデルは、シーンの完成のために一緒に多くの画像とポーズを予測する最初のモデルです。

要約(オリジナル)

We present Fillerbuster, a method that completes unknown regions of a 3D scene by utilizing a novel large-scale multi-view latent diffusion transformer. Casual captures are often sparse and miss surrounding content behind objects or above the scene. Existing methods are not suitable for handling this challenge as they focus on making the known pixels look good with sparse-view priors, or on creating the missing sides of objects from just one or two photos. In reality, we often have hundreds of input frames and want to complete areas that are missing and unobserved from the input frames. Additionally, the images often do not have known camera parameters. Our solution is to train a generative model that can consume a large context of input frames while generating unknown target views and recovering image poses when desired. We show results where we complete partial captures on two existing datasets. We also present an uncalibrated scene completion task where our unified model predicts both poses and creates new content. Our model is the first to predict many images and poses together for scene completion.

arxiv情報

著者 Ethan Weber,Norman Müller,Yash Kant,Vasu Agrawal,Michael Zollhöfer,Angjoo Kanazawa,Christian Richardt
発行日 2025-02-07 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Fillerbuster: Multi-View Scene Completion for Casual Captures はコメントを受け付けていません

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

要約

3次元のシーンの入力は、仮想現実からアーキテクチャの視覚化までのアプリケーションにとって非常に重要ですが、既存の方法は、360 {\ deg}無制限のシーンでの視界の一貫性と幾何学的精度に苦しんでいます。
Gaussian Splattingに代表される3Dシーンで高品質のオブジェクトの除去と穴の充填を可能にする新しい参照ベースの方法であるAurafusion360を提示します。
私たちのアプローチでは、(1)正確な閉塞識別のために(1)深度認識のないマスク生成、(2)追加のトレーニングを必要とせずに正確な初期点配置のためのゼロショット方法、および(3)SDEDITベースの詳細強化を紹介します。
マルチビューコヒーレンス。
また、360-USIDである360 {\ deg}の最初の包括的なデータセットであり、グラウンドトゥルースで入力されています。
広範な実験は、Aurafusion360が既存の方法を大幅に上回り、劇的な視点の変化全体で幾何学的精度を維持しながら優れた知覚品質を達成することを示しています。
ビデオの結果については、https://kkennethwu.github.io/aurafusion360/のデータセットについては、プロジェクトページを参照してください。

要約(オリジナル)

Three-dimensional scene inpainting is crucial for applications from virtual reality to architectural visualization, yet existing methods struggle with view consistency and geometric accuracy in 360{\deg} unbounded scenes. We present AuraFusion360, a novel reference-based method that enables high-quality object removal and hole filling in 3D scenes represented by Gaussian Splatting. Our approach introduces (1) depth-aware unseen mask generation for accurate occlusion identification, (2) Adaptive Guided Depth Diffusion, a zero-shot method for accurate initial point placement without requiring additional training, and (3) SDEdit-based detail enhancement for multi-view coherence. We also introduce 360-USID, the first comprehensive dataset for 360{\deg} unbounded scene inpainting with ground truth. Extensive experiments demonstrate that AuraFusion360 significantly outperforms existing methods, achieving superior perceptual quality while maintaining geometric accuracy across dramatic viewpoint changes. See our project page for video results and the dataset at https://kkennethwu.github.io/aurafusion360/.

arxiv情報

著者 Chung-Ho Wu,Yang-Jung Chen,Ying-Huan Chen,Jie-Ying Lee,Bo-Hsu Ke,Chun-Wei Tuan Mu,Yi-Chuan Huang,Chin-Yang Lin,Min-Hung Chen,Yen-Yu Lin,Yu-Lun Liu
発行日 2025-02-07 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting はコメントを受け付けていません

Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray

要約

大規模な視覚言語モデルの長いコンテキスト機能を確立することは、ビデオ理解、高解像度の画像理解、マルチモーダルエージェント、推論に不可欠です。
長い視覚視覚理解タスクのためのシンプルで効果的な大規模なマルチモーダルモデルであるLong-vitaを紹介します。
4Kフレームまたは1Mトークンを超える画像、ビデオ、テキストのモダリティを同時に処理および分析しながら、ショートテキストマルチモーダルタスクで高度なパフォーマンスを提供します。
大規模な言語モデルから始まり、ビジョン言語の調整、一般的な知識学習、および長期微調整の2つの連続段階を通じて進行する効果的なマルチモーダルトレーニングスキーマを提案します。
さらに、モデルの推論中に画像とテキストの長vitaから無限に長い入力をスケーリングするために、ヘッドをスケーリングするために、コンテキストと平行分散の推論とロジッツマスクされた言語モデリングを実装します。
トレーニングデータに関して、Long-vitaは、パブリックデータセットのみの17ドルのサンプルの組み合わせに基づいて構築され、さまざまなマルチモーダルベンチマークの最先端のパフォーマンスを実証します。
Long-vitaは完全に再現性があり、トレーニングとテストのためにNPUプラットフォームとGPUプラットフォームの両方をサポートしています。
Long-vitaが競争の激しいベースラインとして機能し、オープンソースコミュニティに長いコンテキストマルチモーダルの理解を進めるための貴重な洞察を提供できることを願っています。

要約(オリジナル)

Establishing the long-context capability of large vision-language models is crucial for video understanding, high-resolution image understanding, multi-modal agents and reasoning. We introduce Long-VITA, a simple yet effective large multi-modal model for long-context visual-language understanding tasks. It is adept at concurrently processing and analyzing modalities of image, video, and text over 4K frames or 1M tokens while delivering advanced performances on short-context multi-modal tasks. We propose an effective multi-modal training schema that starts with large language models and proceeds through vision-language alignment, general knowledge learning, and two sequential stages of long-sequence fine-tuning. We further implement context-parallelism distributed inference and logits-masked language modeling head to scale Long-VITA to infinitely long inputs of images and texts during model inference. Regarding training data, Long-VITA is built on a mix of $17$M samples from public datasets only and demonstrates the state-of-the-art performance on various multi-modal benchmarks, compared against recent cutting-edge models with internal data. Long-VITA is fully reproducible and supports both NPU and GPU platforms for training and testing. We hope Long-VITA can serve as a competitive baseline and offer valuable insights for the open-source community in advancing long-context multi-modal understanding.

arxiv情報

著者 Yunhang Shen,Chaoyou Fu,Shaoqi Dong,Xiong Wang,Peixian Chen,Mengdan Zhang,Haoyu Cao,Ke Li,Xiawu Zheng,Yan Zhang,Yiyi Zhou,Rongrong Ji,Xing Sun
発行日 2025-02-07 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuray はコメントを受け付けていません

QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation

要約

最先端の再構築品質と最先端のゼロショット画像理解を組み合わせた視覚トークン化方法であるQuantized Language-Image Pretraining(QLIP)を紹介します。
QLIPは、再構成および言語イメージのアライメント目標を備えたバイナリ球状の定量化ベースの自動エンコーダーをトレーニングします。
私たちは、2つの目的が対立する必要がないことを最初に示しています。
トレーニング中に2つの損失条件のバランスをとり、2段階のトレーニングパイプラインが、画像言語のトレーニングの大バッチ要件を再構築目標によって課されるメモリボトルネックと効果的に混合することを示します。
単一のモデルを使用して、マルチモーダル理解とテキスト条件付けされた画像生成のためのQLIPの有効性を検証します。
具体的には、QLIPは、Llavaの視覚エンコーダーのドロップイン交換として機能し、同等またはさらに優れたパフォーマンスを備えたラマゲン用の画像トークナー剤として機能します。
最後に、QLIPが理解と生成のための統一された混合モダリティの自動回帰モデルを有効にすることを実証します。

要約(オリジナル)

We introduce Quantized Language-Image Pretraining (QLIP), a visual tokenization method that combines state-of-the-art reconstruction quality with state-of-the-art zero-shot image understanding. QLIP trains a binary-spherical-quantization-based autoencoder with reconstruction and language-image alignment objectives. We are the first to show that the two objectives do not need to be at odds. We balance the two loss terms dynamically during training and show that a two-stage training pipeline effectively mixes the large-batch requirements of image-language pre-training with the memory bottleneck imposed by the reconstruction objective. We validate the effectiveness of QLIP for multimodal understanding and text-conditioned image generation with a single model. Specifically, QLIP serves as a drop-in replacement for the visual encoder for LLaVA and the image tokenizer for LlamaGen with comparable or even better performance. Finally, we demonstrate that QLIP enables a unified mixed-modality auto-regressive model for understanding and generation.

arxiv情報

著者 Yue Zhao,Fuzhao Xue,Scott Reed,Linxi Fan,Yuke Zhu,Jan Kautz,Zhiding Yu,Philipp Krähenbühl,De-An Huang
発行日 2025-02-07 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation はコメントを受け付けていません

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

要約

DIT拡散モデルは、テキストからビデオへの生成で大きな成功を収め、モデル容量とデータスケールでのスケーラビリティを活用しています。
ただし、テキストプロンプトと一致する高いコンテンツとモーションフィデリティは、多くの場合、大きなモデルパラメーターとかなりの数の関数評価(NFE)が必要です。
現実的で視覚的に魅力的な詳細は、通常、高解像度の出力に反映されており、特に単一段階のDITモデルの計算需要をさらに増幅します。
これらの課題に対処するために、新しい2段階のフレームワークであるFlashVideoを提案します。このFlashVideoは、生成の忠実度と品質のバランスをとるために、モデル容量とNFEを段階的に戦略的に割り当てます。
最初の段階では、計算効率を高めるのに十分なパラメーターと十分なNFEを利用した低解像度の生成プロセスを通じて、迅速な忠実度が優先されます。
第2段階では、低解像度と高解像度の間のフローマッチングを確立し、最小限のNFEで微細な詳細を効果的に生成します。
定量的および視覚的な結果は、FlashVideoが優れた計算効率で最先端の高解像度ビデオ生成を達成することを示しています。
さらに、2段階の設計により、ユーザーはフル解像度の生成にコミットする前に初期出力をプレビューすることができ、それにより、計算コストと待ち時間を大幅に削減し、商業的な実行可能性を向上させることができます。

要約(オリジナル)

DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .

arxiv情報

著者 Shilong Zhang,Wenbo Li,Shoufa Chen,Chongjian Ge,Peize Sun,Yida Zhang,Yi Jiang,Zehuan Yuan,Binyue Peng,Ping Luo
発行日 2025-02-07 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation はコメントを受け付けていません

Efficient Few-Shot Continual Learning in Vision-Language Models

要約

Vision-Language Models(VLM)は、視覚的な質問応答や画像キャプションなどのタスクで優れています。
ただし、VLMは、クリップなどの前提条件の画像エンコーダーを使用することで制限されることが多く、全体的なパフォーマンスを妨げる画像理解エラーにつながります。
それに加えて、実際のアプリケーションは、多くの場合、新しい、しばしば限られたデータが継続的に到着するにつれて、モデルを継続的に適合させる必要があることがよくあります。
これに対処するために、VLMS内の画像エンコーダーを選択的に更新するための堅牢で計算効率の良い方法であるLORSU(構造化された更新による低ランク適応)を提案します。
Lorsuは、構造化されたローカライズされたパラメーターの更新を導入し、モデルの一般的な堅牢性を維持しながら、以前にエラーが発生しやすいデータのパフォーマンスを効果的に修正します。
当社のアプローチは、理論的な洞察を活用して、最も重要なパラメーターのみを識別および更新し、重要なリソース効率を達成しています。
具体的には、パフォーマンスを犠牲にすることなく、完全なVLM更新と比較して、Lorsuが計算オーバーヘッドを25倍以上削減することを実証します。
少数のショットの継続的な学習設定でのVQAタスクに関する実験結果は、Lorsuのスケーラビリティ、効率、および有効性を検証し、リソースに制約のある環境での画像エンコーダー適応の魅力的なソリューションになります。

要約(オリジナル)

Vision-language models (VLMs) excel in tasks such as visual question answering and image captioning. However, VLMs are often limited by their use of pretrained image encoders, like CLIP, leading to image understanding errors that hinder overall performance. On top of that, real-world applications often require the model to be continuously adapted as new and often limited data continuously arrive. To address this, we propose LoRSU (Low-Rank Adaptation with Structured Updates), a robust and computationally efficient method for selectively updating image encoders within VLMs. LoRSU introduces structured and localized parameter updates, effectively correcting performance on previously error-prone data while preserving the model’s general robustness. Our approach leverages theoretical insights to identify and update only the most critical parameters, achieving significant resource efficiency. Specifically, we demonstrate that LoRSU reduces computational overhead by over 25x compared to full VLM updates, without sacrificing performance. Experimental results on VQA tasks in the few-shot continual learning setting, validate LoRSU’s scalability, efficiency, and effectiveness, making it a compelling solution for image encoder adaptation in resource-constrained environments.

arxiv情報

著者 Aristeidis Panos,Rahaf Aljundi,Daniel Olmeda Reino,Richard E. Turner
発行日 2025-02-07 13:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Efficient Few-Shot Continual Learning in Vision-Language Models はコメントを受け付けていません

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching

要約

マッピングは、モバイルロボットの自律的なナビゲーションを可能にする重要なタスクの1つです。
従来のマッピング方法密な幾何学マップ表現を出力します。
占有グリッド。これは、大きな環境をカバーする長時間のランで一貫性を保つのは簡単ではありません。
一方、ワークスペースのトポロジ構造をキャプチャすることにより、迅速なパス計画が可能になり、通常、匂い測定エラーの蓄積が発生しやすくなり、多くのメモリを消費しません。
このアイデアに続いて、このペーパーでは、グローバルメトリック座標に依存しないローカルに配置された場所のグラフを維持するトポロジマッピング方法であるPrism-Topomapを紹介します。
提案された方法には、場所のグラフにローカリゼーションとループ閉鎖のために、スキャンマッチングパイプラインと組み合わせた元の学習可能なマルチモーダル場所認識が含まれます。
後者はオンラインで更新され、ロボットは各タイムステップで適切なノードにローカライズされます。
私たちは、写真と現実的な環境の範囲と実際のロボットで提案されたアプローチの幅広い実験的評価を実施し、それを最新の芸術と比較します。
経験的評価の結果は、Prism-Topomapが競合他社を計算上面で一貫して上回ることを確認し、高いマッピング品質を達成し、実際のロボットでうまく機能することを確認しています。
Prism-Topomapのコードはオープンソースであり、https://github.com/kirillmouraviev/prism-topomapで入手できます。

要約(オリジナル)

Mapping is one of the crucial tasks enabling autonomous navigation of a mobile robot. Conventional mapping methods output a dense geometric map representation, e.g. an occupancy grid, which is not trivial to keep consistent for prolonged runs covering large environments. Meanwhile, capturing the topological structure of the workspace enables fast path planning, is typically less prone to odometry error accumulation, and does not consume much memory. Following this idea, this paper introduces PRISM-TopoMap — a topological mapping method that maintains a graph of locally aligned locations not relying on global metric coordinates. The proposed method involves original learnable multimodal place recognition paired with the scan matching pipeline for localization and loop closure in the graph of locations. The latter is updated online, and the robot is localized in a proper node at each time step. We conduct a broad experimental evaluation of the suggested approach in a range of photo-realistic environments and on a real robot, and compare it to state of the art. The results of the empirical evaluation confirm that PRISM-Topomap consistently outperforms competitors computationally-wise, achieves high mapping quality and performs well on a real robot. The code of PRISM-Topomap is open-sourced and is available at: https://github.com/kirillMouraviev/prism-topomap.

arxiv情報

著者 Kirill Muravyev,Alexander Melekhin,Dmitry Yudin,Konstantin Yakovlev
発行日 2025-02-07 10:37:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 | PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching はコメントを受け付けていません

Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training

要約

オフラインの行動クローニングを介して訓練された拡散ポリシーは、最近ロボットモーション生成で牽引力を獲得しました。
効果的ですが、これらのポリシーは通常、多数のトレーニング可能なパラメーターを必要とします。
このモデルサイズは強力な表現を提供しますが、トレーニング中に高い計算コストも発生します。
理想的には、必要に応じてトレーニング可能な部分を動的に調整し、表現力と計算効率のバランスをとることが有益です。
たとえば、オーバーパラメーター化により、拡散ポリシーはオフラインの行動クローンを介して複雑なロボット行動をキャプチャすることができますが、計算需要の増加により、オンラインインタラクティブな模倣学習は、トレーニング時間が長いため非現実的になります。
この課題に対処するために、Driftと呼ばれるフレームワークを提示します。これは、拡散ポリシートレーニング中に動的なランク調整を可能にするために特異値分解を使用します。
このフレームワークの利点は、オフラインブートストラップフェーズとオンラインインタラクティブフェーズの間でシームレスにスライドできる模倣学習アルゴリズムであるDrift-Daggerで実装および実証します。
提案されたフレームワークをよりよく理解するために広範な実験を実行し、ドリフトダガーがサンプルの効率を改善し、モデルのパフォーマンスに最小限の影響を与えるより速いトレーニングを達成することを実証します。

要約(オリジナル)

Diffusion policies trained via offline behavioral cloning have recently gained traction in robotic motion generation. While effective, these policies typically require a large number of trainable parameters. This model size affords powerful representations but also incurs high computational cost during training. Ideally, it would be beneficial to dynamically adjust the trainable portion as needed, balancing representational power with computational efficiency. For example, while overparameterization enables diffusion policies to capture complex robotic behaviors via offline behavioral cloning, the increased computational demand makes online interactive imitation learning impractical due to longer training time. To address this challenge, we present a framework, called DRIFT, that uses the Singular Value Decomposition to enable dynamic rank adjustment during diffusion policy training. We implement and demonstrate the benefits of this framework in DRIFT-DAgger, an imitation learning algorithm that can seamlessly slide between an offline bootstrapping phase and an online interactive phase. We perform extensive experiments to better understand the proposed framework, and demonstrate that DRIFT-DAgger achieves improved sample efficiency and faster training with minimal impact on model performance.

arxiv情報

著者 Xiatao Sun,Shuo Yang,Yinxing Chen,Francis Fan,Yiyan Liang,Daniel Rakita
発行日 2025-02-07 03:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Dynamic Rank Adjustment in Diffusion Policies for Efficient and Flexible Training はコメントを受け付けていません