Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

要約

アクションとビデオのダイナミクスをモデリングするための不均一なマスク自己網膜(HMA)を提案して、ロボット学習のスケーリングで高品質のデータと評価を生成します。
インタラクティブなビデオの世界モデルとロボット工学のポリシーを構築することは、多様な設定を処理するという課題により、計算効率をリアルタイムで実行することが困難です。
HMAは、さまざまなロボットの実施形態、ドメイン、およびタスクにわたる観測および作用シーケンスからの不均一なトレーニングを使用します。
HMAは、マスクされた自己網羅を使用して、ビデオ予測のために量子化されたトークンまたはソフトトークンを生成します。
\ Ourshortは、現実の世界で15倍高速な速度を備えた、以前のロボットビデオ生成モデルよりも優れた視覚的忠実度と制御性を実現します。
トレーニング後の後、このモデルは、ポリシーを評価し、合成データを生成するための低レベルアクション入力のビデオシミュレーターとして使用できます。
詳細については、このリンクhttps://liruiw.github.io/hmaを参照してください。

要約(オリジナル)

We propose Heterogeneous Masked Autoregression (HMA) for modeling action-video dynamics to generate high-quality data and evaluation in scaling robot learning. Building interactive video world models and policies for robotics is difficult due to the challenge of handling diverse settings while maintaining computational efficiency to run in real time. HMA uses heterogeneous pre-training from observations and action sequences across different robotic embodiments, domains, and tasks. HMA uses masked autoregression to generate quantized or soft tokens for video predictions. \ourshort achieves better visual fidelity and controllability than the previous robotic video generation models with 15 times faster speed in the real world. After post-training, this model can be used as a video simulator from low-level action inputs for evaluating policies and generating synthetic data. See this link https://liruiw.github.io/hma for more information.

arxiv情報

著者 Lirui Wang,Kevin Zhao,Chaoqi Liu,Xinlei Chen
発行日 2025-02-06 18:38:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression はコメントを受け付けていません

MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation

要約

このペーパーでは、ユーザーが画像間生成のコンテキストで映画のビデオショットを設計できる方法を紹介します。
映画製作の重要な側面であるショットデザインには、シーンでカメラの動きとオブジェクトの動きの両方を細心の注意を払って計画します。
ただし、最新の画像間生成システムで直感的なショットデザインを有効にすると、2つの主な課題があります。まず、カメラの動きとシーン空間オブジェクトの動きの両方を共同で指定する必要があるモーションデザインでユーザーの意図を効果的にキャプチャすることです。
第二に、ビデオ拡散モデルによって効果的に利用できるモーション情報を表して、画像アニメーションを合成します。
これらの課題に対処するために、ユーザー駆動型のコントロールを画像間(I2V)生成モデルに統合する方法であるMotionCanvasを紹介し、ユーザーがオブジェクトとカメラの両方のモーションとカメラのモーションをシーンを使用する方法で制御できるようにします。
古典的なコンピューターグラフィックスと現代的なビデオ生成技術からの洞察を接続することにより、費用のかかる3D関連トレーニングデータを必要とせずに、I2V合成で3D認識のモーションコントロールを実現する能力を実証します。
MotionCanvasを使用すると、ユーザーはシーンスペースの動きの意図を直感的に描写し、ビデオ拡散モデルの時空間モーションコンディショニングシグナルに変換できます。
幅広い現実世界の画像コンテンツとショットデザインのシナリオに対する方法の有効性を実証し、デジタルコンテンツの作成における創造的なワークフローを強化し、さまざまな画像編集アプリケーションに適応する可能性を強調しています。

要約(オリジナル)

This paper presents a method that allows users to design cinematic video shots in the context of image-to-video generation. Shot design, a critical aspect of filmmaking, involves meticulously planning both camera movements and object motions in a scene. However, enabling intuitive shot design in modern image-to-video generation systems presents two main challenges: first, effectively capturing user intentions on the motion design, where both camera movements and scene-space object motions must be specified jointly; and second, representing motion information that can be effectively utilized by a video diffusion model to synthesize the image animations. To address these challenges, we introduce MotionCanvas, a method that integrates user-driven controls into image-to-video (I2V) generation models, allowing users to control both object and camera motions in a scene-aware manner. By connecting insights from classical computer graphics and contemporary video generation techniques, we demonstrate the ability to achieve 3D-aware motion control in I2V synthesis without requiring costly 3D-related training data. MotionCanvas enables users to intuitively depict scene-space motion intentions, and translates them into spatiotemporal motion-conditioning signals for video diffusion models. We demonstrate the effectiveness of our method on a wide range of real-world image content and shot-design scenarios, highlighting its potential to enhance the creative workflows in digital content creation and adapt to various image and video editing applications.

arxiv情報

著者 Jinbo Xing,Long Mai,Cusuh Ham,Jiahui Huang,Aniruddha Mahapatra,Chi-Wing Fu,Tien-Tsin Wong,Feng Liu
発行日 2025-02-06 18:41:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation はコメントを受け付けていません

SWAG: Long-term Surgical Workflow Prediction with Generative-based Anticipation

要約

既存のアプローチは現在の外科段階を認識することに優れていますが、将来の手続き段階への限られた先見性と術中ガイダンスを提供します。
同様に、現在の予測方法は、短期的および特異なイベントを予測することに制約されており、外科的ワークフローの密度と連続した性質を無視しています。
これらのニーズと制限に対処するために、SWAG(Surgical Workflow Heascativative Generation)を提案します。これは、外科的ワークフローガイダンスのための生成アプローチを使用して、位相認識と予想を組み合わせたフレームワークです。
このペーパーでは、2つの異なるデコード方法シングルパス(SP)と自動回帰(AR)を調査して、最大60分間の長い視野にわたって瞬間に将来の外科相のシーケンスを生成します。
事前の知識を使用して、位相予測の精度を高めるための新しい埋め込みアプローチを提案します。
さらに、予想されるフレームワークは残りの時間回帰を提供し、分類から分類への回帰(R2C)メソッドを提案します。
SWAGのパフォーマンスは、CHOLEC80およびAutolaparo21データセットで評価されました。
事前知識の埋め込み(SP*)を備えたシングルパスモデルは、Autolaparo21で18分間で49.8%の平均精度を達成しますが、R2C拡張の単純なSPはChoLEC80の同じ地平線で56.6%の平均精度に達します。
さらに、私たちのアプローチは、2分間および3分間の地平線でそれぞれ0.32および0.48分の加重平均絶対誤差を達成し、それぞれ2分間と3分間の視野で0.32および0.48分の既存の方法を上回ります。
SWAGは、分類タスクと回帰タスク全体の汎用性を示し、外科的ワークフロー認識と予想の間に時間的連続性を生み出します。
術中に生成ベースの予測の影響を理解するにはさらなる研究が必要ですが、私たちの方法はこの方向への手順を提供します。

要約(オリジナル)

While existing approaches excel at recognising current surgical phases, they provide limited foresight and intraoperative guidance into future procedural steps. Similarly, current anticipation methods are constrained to predicting short-term and singular events, neglecting the dense and sequential nature of surgical workflows. To address these needs and limitations, we propose SWAG (Surgical Workflow Anticipative Generation), a framework to combine phase recognition and anticipation, using a generative approach for surgical workflow guidance. This paper investigates two distinct decoding methods-single-pass (SP) and auto-regressive (AR)-to generate sequences of future surgical phases at minute intervals over long horizons of up to 60 minutes. We propose a novel embedding approach using prior knowledge to enhance the accuracy of phase anticipation. Additionally, our anticipative framework offers remaining time regression and proposes a regression-to-classification (R2C) method. SWAG’s performance was evaluated on the Cholec80 and AutoLaparo21 datasets. Our single-pass model with prior knowledge embeddings (SP*) achieves 49.8% mean accuracy over 18-minute anticipation on AutoLaparo21, while the simple SP with R2C extension reaches 56.6% mean accuracy over the same horizon on Cholec80. Moreover, our approach outperforms existing methods on the phase remaining time regression task, achieving weighted mean absolute errors of 0.32 and 0.48 minutes for 2- and 3-minute horizons, respectively. SWAG demonstrates versatility across classification and regression tasks and creates a temporal continuity between surgical workflow recognition and anticipation. While further studies are required to understand the impact of generative-based anticipation intraoperatively, our method provides steps towards this direction.

arxiv情報

著者 Maxence Boels,Yang Liu,Prokar Dasgupta,Alejandro Granados,Sebastien Ourselin
発行日 2025-02-06 18:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | SWAG: Long-term Surgical Workflow Prediction with Generative-based Anticipation はコメントを受け付けていません

SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning

要約

強化学習(RL)により、ソーシャルロボットは、人間が設計したルールや介入に依存することなく軌道を生成でき、一般的に複雑で動的な現実世界のシナリオに適応するルールベースのシステムよりも効果的になります。
ただし、ソーシャルナビゲーションは、歩行者との衝突を避けるためにロボットを必要とする安全性の高いタスクですが、既存のRLベースのソリューションは、複雑な環境での安全性を確保することができないことがよくあります。
このホワイトペーパーでは、ソニックを提案します。これは、私たちの知る限り、ソーシャルナビゲーションの安全な政策学習を可能にするために、適応型コンフォーマル推論(ACI)を制約された強化学習(CRL)と統合する最初のアルゴリズムです。
具体的には、我々の方法は、ACi産生の不適合スコアを使用したRL観測を強化するだけでなく、エージェントに定量化された不確実性を通知するだけでなく、これらの不確実性の推定値を使用して、制約された強化学習を使用してRLエージェントの行動を効果的に導きます。
この統合により、RLエージェントの動作が調節され、安全性が批判的な状況を処理できます。
標準のCrowdNavベンチマークでは、私たちの方法は96.93%の成功率を達成します。これは、以前の最先端のRLメソッドよりも11.67%高く、衝突の4.5倍、侵入が2.8倍少なくなります。
将来の軌跡と、分散型シナリオの堅牢性の向上。
アプローチをさらに検証するために、ROS2ベースのナビゲーションシステムを開発することにより、アルゴリズムを実際のロボットに展開します。
私たちの実験は、システムがまばらな群衆と密集した群衆の両方と相互作用するときに、堅牢で社会的に丁寧な意思決定を生成できることを示しています。
ビデオデモは、プロジェクトのWebサイトhttps://sonic-social-nav.github.io/にあります。

要約(オリジナル)

Reinforcement learning (RL) enables social robots to generate trajectories without relying on human-designed rules or interventions, making it generally more effective than rule-based systems in adapting to complex, dynamic real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians, whereas existing RL-based solutions often fall short of ensuring safety in complex environments. In this paper, we propose SoNIC, which to the best of our knowledge is the first algorithm that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to enable safe policy learning for social navigation. Specifically, our method not only augments RL observations with ACI-generated nonconformity scores, which inform the agent of the quantified uncertainty but also employs these uncertainty estimates to effectively guide the behaviors of RL agents by using constrained reinforcement learning. This integration regulates the behaviors of RL agents and enables them to handle safety-critical situations. On the standard CrowdNav benchmark, our method achieves a success rate of 96.93%, which is 11.67% higher than the previous state-of-the-art RL method and results in 4.5 times fewer collisions and 2.8 times fewer intrusions to ground-truth human future trajectories as well as enhanced robustness in out-of-distribution scenarios. To further validate our approach, we deploy our algorithm on a real robot by developing a ROS2-based navigation system. Our experiments demonstrate that the system can generate robust and socially polite decision-making when interacting with both sparse and dense crowds. The video demos can be found on our project website: https://sonic-social-nav.github.io/.

arxiv情報

著者 Jianpeng Yao,Xiaopan Zhang,Yu Xia,Zejin Wang,Amit K. Roy-Chowdhury,Jiachen Li
発行日 2025-02-06 18:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY | SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning はコメントを受け付けていません

Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction

要約

計算流体ダイナミクス(CFD)は自動車設計に不可欠であり、大きな3Dポイント雲の分析を必要として、車両のジオメトリが圧力場と抗力にどのように影響するかを調べます。
ただし、CFDの既存の深い学習アプローチは、高解像度3Dデータの処理の計算の複雑さと闘っています。
任意の入力および出力ジオメトリを使用して非常に大きな3DメッシュのCFD問題を効率的に解決する新しいアーキテクチャである、暗黙のグローバル畳み込み(FICCONV)を因数分解しました。
figconvは二次複雑さ$ o(n^2)$を達成します。これは、立方体の複雑さ$ o(n^3)$を必要とする既存の3D神経CFDモデルよりも大幅に改善されています。
私たちのアプローチは、因数分解された暗黙のグリッドを組み合わせて、高解像度ドメインを近似し、2Dリダメータ化を通じて効率的なグローバルな畳み込み、および効果的な情報収集と統合のためのU字型アーキテクチャを組み合わせています。
業界標準のアーメドボディデータセットと大規模なDrivaernetデータセットに関するアプローチを検証します。
Drivaernetでは、モデルはドラッグ予測に対して0.95の$ r^2 $値を実現し、以前の最先端を大幅に上回ることを上回ります。
これは、相対的な平均四角誤差の40%の改善と、以前の方法での絶対平均二乗誤差の70%の改善を表しています。

要約(オリジナル)

Computational Fluid Dynamics (CFD) is crucial for automotive design, requiring the analysis of large 3D point clouds to study how vehicle geometry affects pressure fields and drag forces. However, existing deep learning approaches for CFD struggle with the computational complexity of processing high-resolution 3D data. We propose Factorized Implicit Global Convolution (FIGConv), a novel architecture that efficiently solves CFD problems for very large 3D meshes with arbitrary input and output geometries. FIGConv achieves quadratic complexity $O(N^2)$, a significant improvement over existing 3D neural CFD models that require cubic complexity $O(N^3)$. Our approach combines Factorized Implicit Grids to approximate high-resolution domains, efficient global convolutions through 2D reparameterization, and a U-shaped architecture for effective information gathering and integration. We validate our approach on the industry-standard Ahmed body dataset and the large-scale DrivAerNet dataset. In DrivAerNet, our model achieves an $R^2$ value of 0.95 for drag prediction, outperforming the previous state-of-the-art by a significant margin. This represents a 40% improvement in relative mean squared error and a 70% improvement in absolute mean squared error over previous methods.

arxiv情報

著者 Chris Choy,Alexey Kamenev,Jean Kossaifi,Max Rietmann,Jan Kautz,Kamyar Azizzadenesheli
発行日 2025-02-06 18:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction はコメントを受け付けていません

sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views

要約

まばらな外向きの景色から無制限の屋外シーンを再構築することは、最小限の視野のオーバーラップのために大きな課題をもたらします。
以前の方法には、クロスシーンの理解が欠けていることが多く、その原始中心の定式化にはローカルな機能が過負荷になり、グローバルなコンテキストが欠落しているため、シーンの目に見えない部分がぼやけます。
潜在的な特徴の階層外挿を介したスパースビュー3Dシーンの再構築のための高速でシングルショットパイプラインであるSshelfを提案します。
私たちの重要な洞察は、プリミティブデコードからの情報の外挿により、トレーニングシーン全体で構造パターンを効率的に転送できることです。
私たちの方法:(1)クロスシーン事前に学習して、観察されていない領域に外挿する中間の仮想ビューを生成することを学習します。
3)潜在的な特徴とテクスチャの共同推論のための事前に訓練された基礎モデルを統合し、シーンの理解と一般化を改善します。
Sshelfは、6つのまばらな入力ビューから360度シーンを再構築し、合成および実世界のデータセットで競争結果を達成できます。
Sshelfは、閉塞された領域を忠実に再構築し、リアルタイムのレンダリングをサポートし、ダウンストリームアプリケーションに豊富な潜在的な機能を提供することがわかります。
コードがリリースされます。

要約(オリジナル)

Reconstructing unbounded outdoor scenes from sparse outward-facing views poses significant challenges due to minimal view overlap. Previous methods often lack cross-scene understanding and their primitive-centric formulations overload local features to compensate for missing global context, resulting in blurriness in unseen parts of the scene. We propose sshELF, a fast, single-shot pipeline for sparse-view 3D scene reconstruction via hierarchal extrapolation of latent features. Our key insights is that disentangling information extrapolation from primitive decoding allows efficient transfer of structural patterns across training scenes. Our method: (1) learns cross-scene priors to generate intermediate virtual views to extrapolate to unobserved regions, (2) offers a two-stage network design separating virtual view generation from 3D primitive decoding for efficient training and modular model design, and (3) integrates a pre-trained foundation model for joint inference of latent features and texture, improving scene understanding and generalization. sshELF can reconstruct 360 degree scenes from six sparse input views and achieves competitive results on synthetic and real-world datasets. We find that sshELF faithfully reconstructs occluded regions, supports real-time rendering, and provides rich latent features for downstream applications. The code will be released.

arxiv情報

著者 Eyvaz Najafli,Marius Kästingschäfer,Sebastian Bernhard,Thomas Brox,Andreas Geiger
発行日 2025-02-06 18:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | sshELF: Single-Shot Hierarchical Extrapolation of Latent Features for 3D Reconstruction from Sparse-Views はコメントを受け付けていません

ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features

要約

マルチモーダル拡散トランス(DITS)の豊富な表現は、解釈可能性を高めるユニークな特性を示していますか?
DIT注意レイヤーの表現力を活用して、画像内にテキスト概念を正確に特定する高品質の顕著性マップを生成する概念的な方法を紹介します。
追加のトレーニングを必要とせずに、コンセプトアテンションはDIT注意レイヤーのパラメーターを再利用して、高度にコンテキスト化された概念の埋め込みを生成し、DIT注意レイヤーの出力空間で線形投影を実行すると、一般的に使用される交差メカニズムと比較して大幅に鮮明な顕著性マップが得られるという主要な発見に貢献します。
驚くべきことに、概念的な競争は、ゼロショット画像セグメンテーションベンチマークで最先端のパフォーマンスを達成し、Imagenet-Segmentation DatasetおよびPascalvocの単一クラスのサブセットで11のゼロショット解釈可能性メソッドを上回ります。
私たちの研究は、フラックスのようなマルチモーダルDITモデルの表現がセグメンテーションなどの視覚タスクに非常に移行できるという最初の証拠に貢献し、クリップなどのマルチモーダルファンデーションモデルを上回ることさえあります。

要約(オリジナル)

Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.

arxiv情報

著者 Alec Helbling,Tuna Han Salih Meral,Ben Hoover,Pinar Yanardag,Duen Horng Chau
発行日 2025-02-06 18:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | ConceptAttention: Diffusion Transformers Learn Highly Interpretable Features はコメントを受け付けていません

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

要約

このペーパーでは、視覚、オーディオ、テキスト入力を同時に網羅するマルチモーダルビデオの理解を評価する最初のベンチマークであるWorldSenseを紹介します。
既存のベンチマークとは対照的に、WorldSenseにはいくつかの機能があります。(i)Omni-Modalityのコラボレーションでは、オーディオとビデオの強力な結合を特徴とする評価タスクを設計し、モデルがオムニモダリティの相乗的認識を効果的に利用する必要があります。
(ii)ビデオとタスクの多様性には、ワールドセンスには、1,662のオーディオビジュアル同期ビデオの多様なコレクションが含まれます。これは、8つのプライマリドメインと67のファイングレインサブカテゴリに体系的に分類され、幅広いシナリオ、および3,172のマルチチョイスQAペアを越えて3,172のマルチチョイスQAペアを網羅しています。
包括的な評価を可能にするタスク。
(iii)高品質の注釈、すべてのQAペアは、品質を確保するために複数の修正を伴う80の専門家アノテーターによって手動でラベル付けされます。
ワールドセンスに基づいて、さまざまな最先端のモデルを広範囲に評価します。
実験結果は、既存のモデルが実際のシナリオを理解する上で重要な課題に直面していることを示しています(48.0%の最高の精度)。
WorldSenseが、Omni-Modalityから一貫したコンテキストを構築および理解する能力を評価するためのプラットフォームを提供できることを願っています。

要約(オリジナル)

In this paper, we introduce WorldSense, the first benchmark to assess the multi-modal video understanding, that simultaneously encompasses visual, audio, and text inputs. In contrast to existing benchmarks, our WorldSense has several features: (i) collaboration of omni-modality, we design the evaluation tasks to feature a strong coupling of audio and video, requiring models to effectively utilize the synergistic perception of omni-modality; (ii) diversity of videos and tasks, WorldSense encompasses a diverse collection of 1,662 audio-visual synchronised videos, systematically categorized into 8 primary domains and 67 fine-grained subcategories to cover the broad scenarios, and 3,172 multi-choice QA pairs across 26 distinct tasks to enable the comprehensive evaluation; (iii) high-quality annotations, all the QA pairs are manually labeled by 80 expert annotators with multiple rounds of correction to ensure quality. Based on our WorldSense, we extensively evaluate various state-of-the-art models. The experimental results indicate that existing models face significant challenges in understanding real-world scenarios (48.0% best accuracy). We hope our WorldSense can provide a platform for evaluating the ability in constructing and understanding coherent contexts from omni-modality.

arxiv情報

著者 Jack Hong,Shilin Yan,Jiayin Cai,Xiaolong Jiang,Yao Hu,Weidi Xie
発行日 2025-02-06 18:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約

特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダリティを理解できるオムニモーダルモデルの開発への関心が高まっています。
いくつかのオープンソースの代替品が出現していますが、パフォーマンスには特殊なシングルモダリティモデルの背後には顕著な遅れがあります。
このペーパーでは、専門化されたカウンターパートと比較して、画像、ビデオ、オーディオの理解を超えて競争力のあるパフォーマンスを達成するオムニモーダル言語モデルであるOlaを紹介します。
Olaのコア設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にあります。
トレーニングパイプラインは、画像とテキストという最も明確なモダリティから始まり、言語とオーディオの知識を接続する音声データ、およびすべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。
プログレッシブ学習パイプラインにより、クロスモーダルアライメントデータの比較的小さなサイズを維持することもでき、既存のビジョン言語モデルからのオムニモーダルの開発が簡単でコストがかかりません。
さらに、GPT-4Oなどの高度なインタラクティブエクスペリエンスのロックを解除するために、ストリーミング音声生成のための文ごとのデコードソリューションをさらに設計します。
広範な実験は、Olaがすべてのモダリティにわたって既存のオープンオムニモーダルLLMを上回り、同様のサイズの最先端の専門モデルと比較して非常に競争力のあるパフォーマンスを達成することを示しています。
私たちは、この新興分野での将来の研究を促進するために、オラを完全にオープンなオムニモーダル理解ソリューションにすることを目指しています。
モデルの重み、コード、およびデータは、https://github.com/ola-omni/olaでオープンソーリングされています。

要約(オリジナル)

Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.

arxiv情報

著者 Zuyan Liu,Yuhao Dong,Jiahui Wang,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao
発行日 2025-02-06 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

SMART: Advancing Scalable Map Priors for Driving Topology Reasoning

要約

トポロジーの推論は、車線と交通要素の間の接続性と関係を包括的に理解することを可能にするため、自律運転にとって重要です。
最近のアプローチでは、車両に取り付けられたセンサーを使用して運転トポロジを知覚することに成功していますが、そのスケーラビリティは、一貫したセンサー構成によってキャプチャされたトレーニングデータへの依存によって妨げられています。
スケーラブルな車線認識とトポロジーの推論における重要な要因が、このセンサー依存の機能の排除であることを特定します。
これに対処するために、センサー設定に依存しない大規模なジオ参照高解像度(HD)マップによって監督されたMAP以前のモデルを学習するために、簡単に入手可能な標準解像度(SD)および衛星マップを活用するスケーラブルなソリューションであるSMARTを提案します。

スケーリングされたトレーニングに起因するスマートだけで、SDおよび衛星入力のみを使用して優れたオフラインレーントポロジの理解を達成します。
広範な実験はさらに、Smartをオンライントポロジの推論方法にシームレスに統合できることを示しており、OpenLane-V2ベンチマークで最大28%の大幅な改善をもたらします。

要約(オリジナル)

Topology reasoning is crucial for autonomous driving as it enables comprehensive understanding of connectivity and relationships between lanes and traffic elements. While recent approaches have shown success in perceiving driving topology using vehicle-mounted sensors, their scalability is hindered by the reliance on training data captured by consistent sensor configurations. We identify that the key factor in scalable lane perception and topology reasoning is the elimination of this sensor-dependent feature. To address this, we propose SMART, a scalable solution that leverages easily available standard-definition (SD) and satellite maps to learn a map prior model, supervised by large-scale geo-referenced high-definition (HD) maps independent of sensor settings. Attributed to scaled training, SMART alone achieves superior offline lane topology understanding using only SD and satellite inputs. Extensive experiments further demonstrate that SMART can be seamlessly integrated into any online topology reasoning methods, yielding significant improvements of up to 28% on the OpenLane-V2 benchmark.

arxiv情報

著者 Junjie Ye,David Paz,Hengyuan Zhang,Yuliang Guo,Xinyu Huang,Henrik I. Christensen,Yue Wang,Liu Ren
発行日 2025-02-06 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SMART: Advancing Scalable Map Priors for Driving Topology Reasoning はコメントを受け付けていません