Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model

要約

ビデオ理解モデルは、多くの場合、高い計算要件、広範なパラメーターカウント、および推論速度が遅いため、実用的には非効率的になります。
これらの課題に取り組むために、10億未満のパラメーターで動作するように設計された効率的なマルチモーダルフレームワークであるMobile-VideOgptを提案します。
従来のビデオの大規模なマルチモーダルモデル(LMMS)とは異なり、モバイルVideoGPTは、軽量のデュアルビジュアルエンコーダー、効率的なプロジェクター、および小言語モデル(SLM)で構成され、リアルタイムスループットを可能にします。
効率をさらに向上させるために、キーフレームを選択するための注意ベースのフレームスコアリングメカニズムを提示し、冗長な視覚トークンをプルーナし、本質的なコンテキストキューを保存する効率的なトークンプロジェクターを提示します。
確立された6つのビデオ理解ベンチマーク(例:MVBench、Egoschema、NextQA、Cenceptest)でモデルを評価します。
我々の結果は、モバイル-VideOGPT-0.5Bが毎秒最大46トークンを生成し、既存の最先端の0.5Bパラメーターモデルを平均で6ポイント上回ることができることを示しています。
私たちのコードとモデルは、https://github.com/amshaker/mobile-videogptで公開されています。

要約(オリジナル)

Video understanding models often struggle with high computational requirements, extensive parameter counts, and slow inference speed, making them inefficient for practical use. To tackle these challenges, we propose Mobile-VideoGPT, an efficient multimodal framework designed to operate with fewer than a billion parameters. Unlike traditional video large multimodal models (LMMs), Mobile-VideoGPT consists of lightweight dual visual encoders, efficient projectors, and a small language model (SLM), enabling real-time throughput. To further improve efficiency, we present an Attention-Based Frame Scoring mechanism to select the key-frames, along with an efficient token projector that prunes redundant visual tokens and preserves essential contextual cues. We evaluate our model across well-established six video understanding benchmarks (e.g., MVBench, EgoSchema, NextQA, and PercepTest). Our results show that Mobile-VideoGPT-0.5B can generate up to 46 tokens per second while outperforming existing state-of-the-art 0.5B-parameter models by 6 points on average with 40% fewer parameters and more than 2x higher throughput. Our code and models are publicly available at: https://github.com/Amshaker/Mobile-VideoGPT.

arxiv情報

著者 Abdelrahman Shaker,Muhammad Maaz,Chenhui Gou,Hamid Rezatofighi,Salman Khan,Fahad Shahbaz Khan
発行日 2025-03-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model はコメントを受け付けていません

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

要約

カスタマイズされたテキストからビデオへの生成は、ユーザーが指定したサブジェクトのアイデンティティまたはモーションパターンを組み込んだ高品質のビデオを作成することを目的としています。
ただし、既存の方法は、主に、被験者のアイデンティティまたはモーションパターンの単一の概念のパーソナライズに焦点を当て、目的のモーションパターンを使用して複数の被験者の有効性を制限します。
この課題に取り組むために、複数の被験者とそれらのインタラクティブな動きの両方をめぐるビデオカスタマイズのための統一されたフレームワークビデオを提案します。
Videomageは、サブジェクトとモーションロラを採用して、ユーザーが提供する画像やビデオからパーソナライズされたコンテンツをキャプチャし、視覚的な外観からモーションパターンを解くための外観に依存しないモーション学習アプローチをキャプチャします。
さらに、目的のモーションパターン内の被験者間の相互作用を導くための空間的組成スキームを開発します。
広範な実験は、ビデオ化が既存の方法を上回り、一貫した主題のアイデンティティと相互作用を備えたコヒーレントなユーザー制御ビデオを生成することを示しています。

要約(オリジナル)

Customized text-to-video generation aims to produce high-quality videos that incorporate user-specified subject identities or motion patterns. However, existing methods mainly focus on personalizing a single concept, either subject identity or motion pattern, limiting their effectiveness for multiple subjects with the desired motion patterns. To tackle this challenge, we propose a unified framework VideoMage for video customization over both multiple subjects and their interactive motions. VideoMage employs subject and motion LoRAs to capture personalized content from user-provided images and videos, along with an appearance-agnostic motion learning approach to disentangle motion patterns from visual appearance. Furthermore, we develop a spatial-temporal composition scheme to guide interactions among subjects within the desired motion patterns. Extensive experiments demonstrate that VideoMage outperforms existing methods, generating coherent, user-controlled videos with consistent subject identities and interactions.

arxiv情報

著者 Chi-Pin Huang,Yen-Siang Wu,Hung-Kai Chung,Kai-Po Chang,Fu-En Yang,Yu-Chiang Frank Wang
発行日 2025-03-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models はコメントを受け付けていません

Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

要約

オープンボキャブラリーセマンティックセグメンテーションモデルは、テキストクエリを使用して、未定義のクラスのセットからピクセルをラベル付けし、新しいデータセットで汎用性の高いパフォーマンスを提供するクラスのピクセルをラベル付けするために、ビジョンとテキストを関連付けます。
ただし、トレーニングドメインとテストドメインの間の大きなシフトはパフォーマンスを低下させ、効果的な現実世界アプリケーションに微調整を必要とします。
トレーニングなしのテスト時間ドメイン適応のための新しいフレームワークであるSemantic Library Adaptation(SEMLA)を紹介します。
Semlaは、クリップ埋め込みでインデックス付けされたLORAベースのアダプターのライブラリを活用し、埋め込みスペースのターゲットドメインに近接して最も関連性の高いアダプターを動的にマージします。
このアプローチは、追加のトレーニングなしで、各特定の入力に合わせたアドホックモデルを構築します。
私たちの方法は効率的にスケーリングし、アダプターの貢献を追跡することで説明可能性を向上させ、データプライバシーを本質的に保護し、デリケートなアプリケーションに最適です。
10を超える標準データセットを構築した20ドメインベンチマークでの包括的な実験は、多様な設定にわたってSemlaの優れた適応性とパフォーマンスを示し、オープンホキャブラリーセマンティックセグメンテーションのドメイン適応に新しい標準を確立します。

要約(オリジナル)

Open-vocabulary semantic segmentation models associate vision and text to label pixels from an undefined set of classes using textual queries, providing versatile performance on novel datasets. However, large shifts between training and test domains degrade their performance, requiring fine-tuning for effective real-world applications. We introduce Semantic Library Adaptation (SemLA), a novel framework for training-free, test-time domain adaptation. SemLA leverages a library of LoRA-based adapters indexed with CLIP embeddings, dynamically merging the most relevant adapters based on proximity to the target domain in the embedding space. This approach constructs an ad-hoc model tailored to each specific input without additional training. Our method scales efficiently, enhances explainability by tracking adapter contributions, and inherently protects data privacy, making it ideal for sensitive applications. Comprehensive experiments on a 20-domain benchmark built over 10 standard datasets demonstrate SemLA’s superior adaptability and performance across diverse settings, establishing a new standard in domain adaptation for open-vocabulary semantic segmentation.

arxiv情報

著者 Reza Qorbani,Gianluca Villani,Theodoros Panagiotakopoulos,Marc Botet Colomer,Linus Härenstam-Nielsen,Mattia Segu,Pier Luigi Dovesi,Jussi Karlgren,Daniel Cremers,Federico Tombari,Matteo Poggi
発行日 2025-03-27 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation はコメントを受け付けていません

Immersive and Wearable Thermal Rendering for Augmented Reality

要約

デジタルコンテンツが現実の世界に覆われている拡張現実(AR)では、現実的な熱フィードバックが浸漬を強化することが示されています。
しかし、仮想現実のニーズに大きく影響される現在の熱フィードバックデバイスは、しばしば物理的相互作用を妨げ、ARに没頭するのに効果がありません。
このギャップを埋めるために、ARサーマルフィードバックに関連する3つの設計上の考慮事項を特定しました:器用さを維持するための間接フィードバック、実際の温度知覚を保持するための熱パススルー、および動的感覚のための空間的レンダリング。
次に、これらの基準を満たすユニークで革新的な熱フィードバックデバイスを作成しました。
知覚感度、オブジェクトの温度マッチング、空間パターン認識、および動く熱刺激​​を評価するヒト被験者実験により、設計の影響が示され、現実的な温度識別、仮想オブジェクト知覚、浸漬の強化が可能になりました。
これらの発見は、慎重に設計された熱フィードバックシステムが、物理的相互作用と仮想相互作用の間の感覚ギャップを埋め、ARリアリズムと使いやすさを高めることができることを示しています。

要約(オリジナル)

In augmented reality (AR), where digital content is overlaid onto the real world, realistic thermal feedback has been shown to enhance immersion. Yet current thermal feedback devices, heavily influenced by the needs of virtual reality, often hinder physical interactions and are ineffective for immersion in AR. To bridge this gap, we have identified three design considerations relevant for AR thermal feedback: indirect feedback to maintain dexterity, thermal passthrough to preserve real-world temperature perception, and spatiotemporal rendering for dynamic sensations. We then created a unique and innovative thermal feedback device that satisfies these criteria. Human subject experiments assessing perceptual sensitivity, object temperature matching, spatial pattern recognition, and moving thermal stimuli demonstrated the impact of our design, enabling realistic temperature discrimination, virtual object perception, and enhanced immersion. These findings demonstrate that carefully designed thermal feedback systems can bridge the sensory gap between physical and virtual interactions, enhancing AR realism and usability.

arxiv情報

著者 Alexandra Watkins,Ritam Ghosh,Evan Chow,Nilanjan Sarkar
発行日 2025-03-27 17:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SY, eess.SY | Immersive and Wearable Thermal Rendering for Augmented Reality はコメントを受け付けていません

PVLens: Enhancing Pharmacovigilance Through Automated Label Extraction

要約

信頼できる医薬品安全リファレンスデータベースは薬物学生に不可欠ですが、Siderのような既存のリソースは時代遅れで静的です。
FDA構造製品ラベル(SPL)からラベル付きの安全情報を抽出し、MEDDRAにマップという用語を抽出する自動システムであるPVLENSを導入します。
PVLENSは、Webベースのレビューツールを通じて、自動化を専門家の監視と統合します。
97の薬物ラベルに対する検証では、PVLENSは0.882のF1スコアを達成し、高いリコール(0.983)と中程度の精度(0.799)を獲得しました。
Siderに代わるスケーラブルでより正確で継続的に更新された代替品を提供することにより、PVLensは、精度と同時期の洞察を改善して、リアルタイムのPharamcovigilanceを強化します。

要約(オリジナル)

Reliable drug safety reference databases are essential for pharmacovigilance, yet existing resources like SIDER are outdated and static. We introduce PVLens, an automated system that extracts labeled safety information from FDA Structured Product Labels (SPLs) and maps terms to MedDRA. PVLens integrates automation with expert oversight through a web-based review tool. In validation against 97 drug labels, PVLens achieved an F1 score of 0.882, with high recall (0.983) and moderate precision (0.799). By offering a scalable, more accurate and continuously updated alternative to SIDER, PVLens enhances real-time pharamcovigilance with improved accuracy and contemporaneous insights.

arxiv情報

著者 Jeffery L Painter,Gregory E Powell,Andrew Bate
発行日 2025-03-27 17:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, J.3 | PVLens: Enhancing Pharmacovigilance Through Automated Label Extraction はコメントを受け付けていません

DR-PETS: Learning-Based Control With Planning in Adversarial Environments

要約

信頼性の高い現実世界の意思決定には、認識的、おそらく敵対的な摂動に対する堅牢性を確保することが不可欠です。
軌跡サンプリング(PET)アルゴリズムを備えた確率的アンサンブルは、アンサンブルベースの確率モデルを介して本質的に不確実性を処理しますが、構造化された敵対的または最悪の不確実性分布に対する保証がありません。
これに対処するために、敵対的な摂動に対する堅牢性を証明するペットの分布的に堅牢な拡張であるdr-petsを提案します。
P-Wasserstein Ambiguityセットを介して不確実性を正式にし、最悪の最適化フレームワークを通じて最悪のケースを認識する計画を可能にします。
ペットは確率的に確率を占めていますが、DRペットは、ペット計画ループに統合された扱いやすい凸近似を介して堅牢性を積極的に最適化します。
振り子の安定化とカートポールバランスの実験は、DR-PETが敵対的なパラメーター摂動に対する堅牢性を証明し、ペットが悪化する最悪のシナリオで一貫したパフォーマンスを達成することを示しています。

要約(オリジナル)

Ensuring robustness against epistemic, possibly adversarial, perturbations is essential for reliable real-world decision-making. While the Probabilistic Ensembles with Trajectory Sampling (PETS) algorithm inherently handles uncertainty via ensemble-based probabilistic models, it lacks guarantees against structured adversarial or worst-case uncertainty distributions. To address this, we propose DR-PETS, a distributionally robust extension of PETS that certifies robustness against adversarial perturbations. We formalize uncertainty via a p-Wasserstein ambiguity set, enabling worst-case-aware planning through a min-max optimization framework. While PETS passively accounts for stochasticity, DR-PETS actively optimizes robustness via a tractable convex approximation integrated into PETS planning loop. Experiments on pendulum stabilization and cart-pole balancing show that DR-PETS certifies robustness against adversarial parameter perturbations, achieving consistent performance in worst-case scenarios where PETS deteriorates.

arxiv情報

著者 Hozefa Jesawada,Antonio Acernese,Giovanni Russo,Carmen Del Vecchio
発行日 2025-03-27 11:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | DR-PETS: Learning-Based Control With Planning in Adversarial Environments はコメントを受け付けていません

Imitating Radiological Scrolling: A Global-Local Attention Model for 3D Chest CT Volumes Multi-Label Anomaly Classification

要約

コンピューター断層撮影(CT)スキャン検査の数の急速な増加は、放射線科医がワークロードの増加を支援するために、臓器のセグメンテーション、異常分類、報告生成などの自動化されたツールが緊急の必要性を生み出しました。
3次元(3D)CTスキャンのマルチラベル分類は、データの体積性と検出されるさまざまな異常のため、困難なタスクです。
畳み込みニューラルネットワーク(CNNS)に基づく既存の深い学習方法は、長距離依存関係を効果的にキャプチャするのに苦労していますが、視覚変圧器は実用的な課題をもたらす広範な事前トレーニングを必要とします。
さらに、これらの既存の方法は、CTスキャンスライスをスクロールしながら放射線科医のナビゲーション動作を明示的にモデル化しません。これには、グローバルなコンテキストの理解とローカルの詳細認識の両方が必要です。
この研究では、3D CTスキャンの分析中に放射線科医のスクロール挙動をエミュレートするように特別に設計された新しいグローバルローカル注意モデルであるCTスクロールを提示します。
私たちのアプローチは2つのパブリックデータセットで評価され、包括的な実験と各モデルコンポーネントの貢献を強調するアブレーション研究を通じてその有効性を実証します。

要約(オリジナル)

The rapid increase in the number of Computed Tomography (CT) scan examinations has created an urgent need for automated tools, such as organ segmentation, anomaly classification, and report generation, to assist radiologists with their growing workload. Multi-label classification of Three-Dimensional (3D) CT scans is a challenging task due to the volumetric nature of the data and the variety of anomalies to be detected. Existing deep learning methods based on Convolutional Neural Networks (CNNs) struggle to capture long-range dependencies effectively, while Vision Transformers require extensive pre-training, posing challenges for practical use. Additionally, these existing methods do not explicitly model the radiologist’s navigational behavior while scrolling through CT scan slices, which requires both global context understanding and local detail awareness. In this study, we present CT-Scroll, a novel global-local attention model specifically designed to emulate the scrolling behavior of radiologists during the analysis of 3D CT scans. Our approach is evaluated on two public datasets, demonstrating its efficacy through comprehensive experiments and an ablation study that highlights the contribution of each model component.

arxiv情報

著者 Theo Di Piazza,Carole Lazarus,Olivier Nempont,Loic Boussel
発行日 2025-03-27 14:46:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Imitating Radiological Scrolling: A Global-Local Attention Model for 3D Chest CT Volumes Multi-Label Anomaly Classification はコメントを受け付けていません

Demand Estimation with Text and Image Data

要約

非構造化されたテキストと画像データをレバレバルして、代替パターンを推測する需要推定方法を提案します。
事前に訓練されたディープラーニングモデルを使用して、製品画像とテキストの説明から埋め込みを抽出し、それらをランダム係数ロジットモデルに組み込みます。
このアプローチにより、研究者は、製品属性に関するデータが不足している場合、または消費者が視覚設計や機能的利点などの困難な属性を大切にしている場合でも、需要を推定できます。
選択実験のデータを使用して、私たちのアプローチは、消費者の2番目の選択肢の反事実的予測で標準属性ベースのモデルよりも優れていることを示しています。
また、Amazonの40の製品カテゴリにまたがることにも適用し、テキストと画像データが各カテゴリ内の密接な代替品を識別するのに役立つことが一貫して発見されました。

要約(オリジナル)

We propose a demand estimation method that leverages unstructured text and image data to infer substitution patterns. Using pre-trained deep learning models, we extract embeddings from product images and textual descriptions and incorporate them into a random coefficients logit model. This approach enables researchers to estimate demand even when they lack data on product attributes or when consumers value hard-to-quantify attributes, such as visual design or functional benefits. Using data from a choice experiment, we show that our approach outperforms standard attribute-based models in counterfactual predictions of consumers’ second choices. We also apply it across 40 product categories on Amazon and consistently find that text and image data help identify close substitutes within each category.

arxiv情報

著者 Giovanni Compiani,Ilya Morozov,Stephan Seiler
発行日 2025-03-27 14:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, econ.GN, q-fin.EC | Demand Estimation with Text and Image Data はコメントを受け付けていません

Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound

要約

2D乳房超音波(BUS)と3D自動乳房超音波(ABUS)の両方における結節の正確なセグメンテーションは、臨床診断と治療計画に重要です。
したがって、結節セグメンテーションのための自動システムを開発することで、ユーザーの独立性を高め、臨床分析を促進することができます。
完全に監視された学習とは異なり、弱く監視されたセグメンテーション(WSS)は、面倒で複雑な注釈プロセスを合理化できます。
ただし、現在のWSSメソッドは、正確な結節セグメンテーションを達成する上で課題に直面しています。その多くは、不正確な活性化マップまたは非効率的な擬似マスク生成アルゴリズムに依存しているためです。
この研究では、正確なセグメンテーションのために2D/3Dボックスのみに依存するFlip Learningと呼ばれる新しいマルチエージェント補強学習ベースのWSSフレームワークを紹介します。
具体的には、複数のエージェントがボックスからターゲットを消去するために使用され、分類タグの反転を容易にし、消去された領域が予測されたセグメンテーションマスクとして機能します。
この研究の重要な貢献は、次のとおりです。(1)標準化された環境をエンコードし、境界前のキャプチャをキャプチャし、学習プロセスを促進するためのスーパーピクセル/スーパーオクセルベースのアプローチの採用。
(2)分類スコアの報酬と2つの強度分布報酬を含む3つの細心の注意を払って設計された報酬の導入。
(3)エージェントが徐々に挑戦的な方法で環境と対話し、それによって学習効率を高めるための進歩的なカリキュラム学習戦略の実装。
大規模な社内バスおよびABUSデータセットで広範囲に検証されているフリップ学習方法は、最先端のWSSメソッドと基礎モデルよりも優れており、完全に監視された学習アルゴリズムとして同等のパフォーマンスを実現します。

要約(オリジナル)

Accurate segmentation of nodules in both 2D breast ultrasound (BUS) and 3D automated breast ultrasound (ABUS) is crucial for clinical diagnosis and treatment planning. Therefore, developing an automated system for nodule segmentation can enhance user independence and expedite clinical analysis. Unlike fully-supervised learning, weakly-supervised segmentation (WSS) can streamline the laborious and intricate annotation process. However, current WSS methods face challenges in achieving precise nodule segmentation, as many of them depend on inaccurate activation maps or inefficient pseudo-mask generation algorithms. In this study, we introduce a novel multi-agent reinforcement learning-based WSS framework called Flip Learning, which relies solely on 2D/3D boxes for accurate segmentation. Specifically, multiple agents are employed to erase the target from the box to facilitate classification tag flipping, with the erased region serving as the predicted segmentation mask. The key contributions of this research are as follows: (1) Adoption of a superpixel/supervoxel-based approach to encode the standardized environment, capturing boundary priors and expediting the learning process. (2) Introduction of three meticulously designed rewards, comprising a classification score reward and two intensity distribution rewards, to steer the agents’ erasing process precisely, thereby avoiding both under- and over-segmentation. (3) Implementation of a progressive curriculum learning strategy to enable agents to interact with the environment in a progressively challenging manner, thereby enhancing learning efficiency. Extensively validated on the large in-house BUS and ABUS datasets, our Flip Learning method outperforms state-of-the-art WSS methods and foundation models, and achieves comparable performance as fully-supervised learning algorithms.

arxiv情報

著者 Yuhao Huang,Ao Chang,Haoran Dou,Xing Tao,Xinrui Zhou,Yan Cao,Ruobing Huang,Alejandro F Frangi,Lingyun Bao,Xin Yang,Dong Ni
発行日 2025-03-27 06:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound はコメントを受け付けていません

LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning

要約

Deep Renection Learning(DRL)は、ロボット制御において強力なパフォーマンスを実証していますが、分散排出(OOD)状態の影響を受けやすく、しばしば信頼できないアクションとタスクの障害をもたらします。
以前の方法では、OODの発生の最小化または防止に焦点を当てていますが、エージェントがそのような状態に遭遇すると、回復をほとんど無視しています。
最新の研究では、エージェントが分配内の状態に戻ることでこれに対処しようとしましたが、不確実性の推定への依存は、複雑な環境でのスケーラビリティを妨げます。
この制限を克服するために、不確実性の推定に依存することなく回復学習を可能にする、分散除外回復(Lamour)の言語モデルを導入します。
Lamourは、エージェントを元のタスクを正常に実行できる状態に戻す密な報酬コードを生成し、画像の説明、論理的推論、およびコード生成でLVLMSの機能を活用します。
実験結果は、Lamourが多様な移動タスク全体の回復効率を大幅に向上させ、既存の方法が苦労しているヒューマノイド移動やモバイル操作など、複雑な環境に効果的に一般化することさえあることを示しています。
コードと補足資料は、https://lamour-rl.github.io/で入手できます。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.

arxiv情報

著者 Chan Kim,Seung-Woo Seo,Seong-Woo Kim
発行日 2025-03-27 05:17:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning はコメントを受け付けていません