Distilling Diversity and Control in Diffusion Models

要約

蒸留拡散モデルは、重大な制限に悩まされています。サンプルの多様性の低下と比較して、ベースのカウンターパートです。
この作業では、この多様性の損失にもかかわらず、蒸留モデルがベースモデルの基本的な概念表現を保持していることを明らかにします。
コントロール蒸留を示します – ベースモデルでトレーニングされた概念スライダーやLORASなどの制御メカニズムをシームレスに蒸留モデルに転送し、その逆に、再訓練なしで効果的にコントロールを蒸留することができます。
この表現構造の保存により、蒸留中の多様性崩壊のメカニズムに関する調査が促されました。
蒸留が多様性にどのように影響するかを理解するために、モデルが中間ステップで最終出力を予測する方法を明らかにする分析とデバッグツールである拡散ターゲット(DT)の視覚化を導入します。
DT視覚化を通じて、世代のアーティファクト、矛盾を特定し、初期の拡散時のタイムステップが出力の多様性を不釣り合いに決定し、その後のステップが主に詳細を改善することを実証します。
これらの洞察に基づいて、多様性の蒸留を導入します。これは、効率的な蒸留モデルに移行する前に、最初の批判的なタイムステップのみに基本モデルを戦略的に使用するハイブリッド推論アプローチです。
私たちの実験は、この単純な変更により、多様性能力が基本モデルから蒸留モデルへの能力を回復するだけでなく、驚くべきことにそれを超え、蒸留推論のほぼ計算効率を維持し、すべて追加のトレーニングやモデルの変更を必要とせずに維持することを示しています。
私たちのコードとデータは、https://distillation.baulab.infoで入手できます

要約(オリジナル)

Distilled diffusion models suffer from a critical limitation: reduced sample diversity compared to their base counterparts. In this work, we uncover that despite this diversity loss, distilled models retain the fundamental concept representations of base models. We demonstrate control distillation – where control mechanisms like Concept Sliders and LoRAs trained on base models can be seamlessly transferred to distilled models and vice-versa, effectively distilling control without any retraining. This preservation of representational structure prompted our investigation into the mechanisms of diversity collapse during distillation. To understand how distillation affects diversity, we introduce Diffusion Target (DT) Visualization, an analysis and debugging tool that reveals how models predict final outputs at intermediate steps. Through DT-Visualization, we identify generation artifacts, inconsistencies, and demonstrate that initial diffusion timesteps disproportionately determine output diversity, while later steps primarily refine details. Based on these insights, we introduce diversity distillation – a hybrid inference approach that strategically employs the base model for only the first critical timestep before transitioning to the efficient distilled model. Our experiments demonstrate that this simple modification not only restores the diversity capabilities from base to distilled models but surprisingly exceeds it, while maintaining nearly the computational efficiency of distilled inference, all without requiring additional training or model modifications. Our code and data are available at https://distillation.baulab.info

arxiv情報

著者 Rohit Gandikota,David Bau
発行日 2025-03-14 13:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Distilling Diversity and Control in Diffusion Models はコメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約

Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の両方を維持しながら、ビデオのターゲット担当者に参照衣服をシームレスに転送することを目的としています。
既存の方法は、通常、マスクの入力に依存して試行領域を定義し、シンプルなシーンの正確な衣服の転送を可能にします(たとえば、ショップ内のビデオなど)。
ただし、これらのマスクベースのアプローチは、複雑な現実世界のシナリオと格闘しています。これは、過度に大きくて一貫性のないマスクが空間的情報を破壊し、歪んだ結果につながるためです。
マスクフリーの方法はこの問題を軽減しますが、特にダイナミックな体の動きを持つビデオのトライオンエリアを正確に決定する際に課題に直面しています。
これらの制限に対処するために、PEMF-VTOを提案します。PEMF-VTOは、スパースポイントアラインメントを活用して衣服移動を明示的にガイドする新しいポイント強化されたビデオバーチャルトライドオンフレームワークです。
私たちの主要な革新は、ポイント強化ガイダンスの導入です。これは、空間レベルの衣服の転送と時間レベルのビデオコヒーレンスの両方を柔軟で信頼できる制御を提供します。
具体的には、2つのコアコンポーネントを備えたポイント強化変圧器(PET)を設計します。ポイント強度の空間的注意(PSA)は、フレームクロスポイントアラインメントを使用して衣服移動を正確に導き、ポイント強度の時間的注意(PTA)を設計します。
広範な実験は、PEMF-VTOが最先端の方法を上回り、特に挑戦的なワイルドシナリオのために、より自然で一貫した、視覚的に魅力的なトライオンビデオを生成することを示しています。
紙のホームページへのリンクはhttps://pemf-vto.github.io/です。

要約(オリジナル)

Video Virtual Try-on aims to seamlessly transfer a reference garment onto a target person in a video while preserving both visual fidelity and temporal coherence. Existing methods typically rely on inpainting masks to define the try-on area, enabling accurate garment transfer for simple scenes (e.g., in-shop videos). However, these mask-based approaches struggle with complex real-world scenarios, as overly large and inconsistent masks often destroy spatial-temporal information, leading to distorted results. Mask-free methods alleviate this issue but face challenges in accurately determining the try-on area, especially for videos with dynamic body movements. To address these limitations, we propose PEMF-VTO, a novel Point-Enhanced Mask-Free Video Virtual Try-On framework that leverages sparse point alignments to explicitly guide garment transfer. Our key innovation is the introduction of point-enhanced guidance, which provides flexible and reliable control over both spatial-level garment transfer and temporal-level video coherence. Specifically, we design a Point-Enhanced Transformer (PET) with two core components: Point-Enhanced Spatial Attention (PSA), which uses frame-cloth point alignments to precisely guide garment transfer, and Point-Enhanced Temporal Attention (PTA), which leverages frame-frame point correspondences to enhance temporal coherence and ensure smooth transitions across frames. Extensive experiments demonstrate that our PEMF-VTO outperforms state-of-the-art methods, generating more natural, coherent, and visually appealing try-on videos, particularly for challenging in-the-wild scenarios. The link to our paper’s homepage is https://pemf-vto.github.io/.

arxiv情報

著者 Tianyu Chang,Xiaohao Chen,Zhichao Wei,Xuanpu Zhang,Qing-Guo Chen,Weihua Luo,Peipei Song,Xun Yang
発行日 2025-03-14 10:07:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm はコメントを受け付けていません

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約

Federated Learningは、医療分野で幅広い用途を持っています。
これにより、患者のプライバシーを保護しながら、さまざまな医療機関間で知識共有を可能にします。
ただし、既存のフェデレーション学習システムは通常集中化されており、クライアントが集合のためにクライアント固有の知識を中央サーバーにアップロードする必要があります。
この集中化されたアプローチは、各クライアントの知識を集中サーバーに統合し、各クライアントに戻る前に集中統合中に知識がすでに損なわれています。
また、集中化されたアプローチは、セントラルサーバーへの依存性も生成します。これは、サーバーの誤動作または接続が不安定な場合のトレーニングの安定性に影響を与える可能性があります。
これらの問題に対処するために、DFLMOEという名前の分散化された連邦学習フレームワークを提案します。
私たちのフレームワークでは、クライアントは軽量のヘッドモデルを互いに直接交換します。
交換後、各クライアントはローカルモデルと受信したヘッドモデルの両方を個々の専門家として扱い、クライアント固有の専門家(MOE)アプローチの混合物を利用して、集合的な決定を下します。
この設計により、クライアント固有の集約による知識のダメージが軽減されるだけでなく、フレームワークの堅牢性を高めるために中央サーバーへの依存性を削除します。
複数の医療タスクに関するフレームワークを検証し、モデルの均一性と不均一性の両方の設定の下で、この方法が最先端のアプローチを明らかに上回ることを実証します。

要約(オリジナル)

Federated learning has wide applications in the medical field. It enables knowledge sharing among different healthcare institutes while protecting patients’ privacy. However, existing federated learning systems are typically centralized, requiring clients to upload client-specific knowledge to a central server for aggregation. This centralized approach would integrate the knowledge from each client into a centralized server, and the knowledge would be already undermined during the centralized integration before it reaches back to each client. Besides, the centralized approach also creates a dependency on the central server, which may affect training stability if the server malfunctions or connections are unstable. To address these issues, we propose a decentralized federated learning framework named dFLMoE. In our framework, clients directly exchange lightweight head models with each other. After exchanging, each client treats both local and received head models as individual experts, and utilizes a client-specific Mixture of Experts (MoE) approach to make collective decisions. This design not only reduces the knowledge damage with client-specific aggregations but also removes the dependency on the central server to enhance the robustness of the framework. We validate our framework on multiple medical tasks, demonstrating that our method evidently outperforms state-of-the-art approaches under both model homogeneity and heterogeneity settings.

arxiv情報

著者 Luyuan Xie,Tianyu Luan,Wenyuan Cai,Guochen Yan,Zhaoyu Chen,Nan Xi,Yuejian Fang,Qingni Shen,Zhonghai Wu,Junsong Yuan
発行日 2025-03-14 05:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約

感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピューターの相互作用体験を強化するための重要な技術として機能します。ここでは、コアチャレンジは動的相関モデリングとマルチモーダル時間信号の堅牢な融合にあります。
モーダルの相乗効果、ノイズ感度、限られた微調整されたアライメント機能の不十分な活用における既存の方法の制限に対処するために、このペーパーでは、デュアルステージクロスモーダルアライメントフレームワークを提案します。
まず、改良されたクリップアーキテクチャに基づいてビジョンテキストとオーディオテキストのコントラスト学習ネットワークを構築し、モダリティ分離前トレーニングを通じて機能空間で予備的な調整を実現します。
その後、一時的な畳み込みネットワーク(TCN)とゲートの双方向LSTMを組み合わせた一時的に認識された動的融合モジュールを設計して、それぞれ表情のマクロ進化パターンと音響特徴の局所的なダイナミクスをキャプチャします。
革新的には、輝く重みの割り当てを通じて、閉塞および騒々しいシナリオの下でモダリティ補正を可能にする品質誘導モダリティ融合戦略を導入します。
Hume-Vidmimic2データセットの実験結果は、私たちの方法が6つの感情次元にわたって0.35の平均ピアソン相関係数を達成し、最高のベースラインを40 \%上に上回ることを示しています。
アブレーション研究は、デュアルステージトレーニング戦略と動的融合メカニズムの有効性をさらに検証し、オープン環境で微調整された感情分析のための新しい技術的経路を提供します。

要約(オリジナル)

Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.

arxiv情報

著者 Jun Yu,Lingsi Zhu,Yanjun Chi,Yunxiang Zhang,Yang Zheng,Yongqi Wang,Xilong Lu
発行日 2025-03-14 09:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約

ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっすぐにします。
これにより、テスト時に通常の微分方程式を数値的に解くと、統合ステップが少なくなり、複雑でない数値ソルバーが使用できるため、計算的に要求の少ない推論につながります。
ただし、条件付き設定では、ミニバッチ最適輸送は不足しています。
これは、デフォルトの最適な輸送マッピングが条件を無視し、トレーニング中に条件付きでゆがんだ事前分布をもたらすためです。
対照的に、テスト時には、歪んだ事前に歪んだものにはアクセスできず、代わりに完全な、偏りのない事前分布からサンプリングします。
トレーニングとテストの間のこのギャップは、サブパフォーマンスにつながります。
このギャップを埋めるために、最適な輸送割り当てを計算するときにコストマトリックスに条件付き重み付け項を追加する条件付き最適輸送c^2otを提案します。
実験では、この単純な修正は、8gaussians-to moons、Cifar-10、Imagenet-32×32、およびImagenet-256×256の個別の条件と連続条件の両方で機能することを示しています。
私たちの方法は、異なる関数評価予算にわたる既存のベースラインと比較して、全体的に優れたパフォーマンスを発揮します。
コードはhttps://hkchengrex.github.io/c2otで入手できます

要約(オリジナル)

Minibatch optimal transport coupling straightens paths in unconditional flow matching. This leads to computationally less demanding inference as fewer integration steps and less complex numerical solvers can be employed when numerically solving an ordinary differential equation at test time. However, in the conditional setting, minibatch optimal transport falls short. This is because the default optimal transport mapping disregards conditions, resulting in a conditionally skewed prior distribution during training. In contrast, at test time, we have no access to the skewed prior, and instead sample from the full, unbiased prior distribution. This gap between training and testing leads to a subpar performance. To bridge this gap, we propose conditional optimal transport C^2OT that adds a conditional weighting term in the cost matrix when computing the optimal transport assignment. Experiments demonstrate that this simple fix works with both discrete and continuous conditions in 8gaussians-to-moons, CIFAR-10, ImageNet-32×32, and ImageNet-256×256. Our method performs better overall compared to the existing baselines across different function evaluation budgets. Code is available at https://hkchengrex.github.io/C2OT

arxiv情報

著者 Ho Kei Cheng,Alexander Schwing
発行日 2025-03-14 06:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles

要約

地震などの自然災害に対する迅速な対応は、民事インフラの安全性を確保し、犠牲者を最小限に抑えるための重要な要素です。
従来の手動検査は労働集約的で、時間がかかり、検査官や救助隊員にとって危険な場合があります。
このホワイトペーパーでは、自律的なナビゲーション法、ディープラーニングベースの損傷と生存者検出方法、およびオンボードセンサーを備えたカスタマイズされた低コストのマイクロ航空車両(MAV)を組み込んだ、災害後の建物の屋内シナリオにおける構造的損傷検査と生存者検出のための自律検査アプローチを提案しました。
擬似ポスト災害オフィスビルでの実験的研究では、提案された方法論が構造的損傷検査と生存者の検出において高い精度を達成できることが示されています。
全体として、提案された検査アプローチは、既存の手動で災害後の建物検査の効率を改善する大きな可能性を示しています。

要約(オリジナル)

Rapid response to natural disasters such as earthquakes is a crucial element in ensuring the safety of civil infrastructures and minimizing casualties. Traditional manual inspection is labour-intensive, time-consuming, and can be dangerous for inspectors and rescue workers. This paper proposed an autonomous inspection approach for structural damage inspection and survivor detection in the post-disaster building indoor scenario, which incorporates an autonomous navigation method, deep learning-based damage and survivor detection method, and a customized low-cost micro aerial vehicle (MAV) with onboard sensors. Experimental studies in a pseudo-post-disaster office building have shown the proposed methodology can achieve high accuracy in structural damage inspection and survivor detection. Overall, the proposed inspection approach shows great potential to improve the efficiency of existing manual post-disaster building inspection.

arxiv情報

著者 Xiao Pan,Sina Tavasoli,T. Y. Yang,Sina Poorghasem
発行日 2025-03-13 04:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles はコメントを受け付けていません

LEVA: A high-mobility logistic vehicle with legged suspension

要約

挑戦的な地形に対する材料の自律的な輸送は、大きな経済的影響を伴う挑戦であり、未解決のままです。
このペーパーでは、農業、建設、捜索救助活動に典型的なものを含む、さまざまな地形で自律的な物流のために設計された、高給の高度で高モビリティロボットであるLevaを紹介します。
Levaは、並列運動学を使用して高度な脚のサスペンションシステムをユニークに統合します。
RLコントローラーを使用して階段を通過でき、操縦可能なホイールを備えており、自律的なペイロードの荷重と、不均一な表面全体で最大85 kgの正確で信頼できる貨物輸送を可能にする特殊なボックスピックアップメカニズムが含まれています。
LEVAは、広範な実験的検証を通じて、ペイロードの負荷と輸送に関するオフロードの能力と信頼性を実証します。

要約(オリジナル)

The autonomous transportation of materials over challenging terrain is a challenge with major economic implications and remains unsolved. This paper introduces LEVA, a high-payload, high-mobility robot designed for autonomous logistics across varied terrains, including those typical in agriculture, construction, and search and rescue operations. LEVA uniquely integrates an advanced legged suspension system using parallel kinematics. It is capable of traversing stairs using a rl controller, has steerable wheels, and includes a specialized box pickup mechanism that enables autonomous payload loading as well as precise and reliable cargo transportation of up to 85 kg across uneven surfaces, steps and inclines while maintaining a cot of as low as 0.15. Through extensive experimental validation, LEVA demonstrates its off-road capabilities and reliability regarding payload loading and transport.

arxiv情報

著者 Marco Arnold,Lukas Hildebrandt,Kaspar Janssen,Efe Ongan,Pascal Bürge,Ádám Gyula Gábriel,James Kennedy,Rishi Lolla,Quanisha Oppliger,Micha Schaaf,Joseph Church,Michael Fritsche,Victor Klemm,Turcan Tuna,Giorgio Valsecchi,Cedric Weibel,Marco Hutter
発行日 2025-03-13 04:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LEVA: A high-mobility logistic vehicle with legged suspension はコメントを受け付けていません

V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality

要約

車両からすべての(v2x)コミュニケーションによって可能になった協調的認識は、自律車両の認識能力を高めるために大きな約束を抱いており、閉塞を克服し、視野を拡大することができます。
ただし、既存の研究は主にシミュレートされた環境または静的データセットに依存しており、特に実際のシナリオでは主に未開拓の中間融合のためのV2X協調的認識の実現可能性と有効性を残しています。
この作業では、統一されたパイプライン内に早期、後期、および中級の融合方法を統合し、真の実質条件下でのオンライン中間融合の実現可能性とパフォーマンスの最初の実用的なデモを提供する、実際の車両とスマートインフラストラクチャに展開されたオープンなオンライン協同組合の認識フレームワークであるV2X-Realoを紹介します。
さらに、オンライン協同組合の認識システムのパフォーマンスを評価するために特別に設計されたオープンベンチマークデータセットを提示します。
この新しいデータセットは、V2X-Realデータセットを動的で同期したROSバッグに拡張し、都市のシナリオに挑戦する6,850の注釈付きキーフレームを備えた25,028のテストフレームを提供します。
動的な条件下での知覚精度と通信の遅刻のリアルタイム評価を可能にすることにより、V2X-Realoは、実際のアプリケーションで協同知覚システムを進めて最適化するための新しいベンチマークを設定します。
コードとデータセットはリリースされ、フィールドをさらに進めます。

要約(オリジナル)

Cooperative perception enabled by Vehicle-to-Everything (V2X) communication holds significant promise for enhancing the perception capabilities of autonomous vehicles, allowing them to overcome occlusions and extend their field of view. However, existing research predominantly relies on simulated environments or static datasets, leaving the feasibility and effectiveness of V2X cooperative perception especially for intermediate fusion in real-world scenarios largely unexplored. In this work, we introduce V2X-ReaLO, an open online cooperative perception framework deployed on real vehicles and smart infrastructure that integrates early, late, and intermediate fusion methods within a unified pipeline and provides the first practical demonstration of online intermediate fusion’s feasibility and performance under genuine real-world conditions. Additionally, we present an open benchmark dataset specifically designed to assess the performance of online cooperative perception systems. This new dataset extends V2X-Real dataset to dynamic, synchronized ROS bags and provides 25,028 test frames with 6,850 annotated key frames in challenging urban scenarios. By enabling real-time assessments of perception accuracy and communication lantency under dynamic conditions, V2X-ReaLO sets a new benchmark for advancing and optimizing cooperative perception systems in real-world applications. The codes and datasets will be released to further advance the field.

arxiv情報

著者 Hao Xiang,Zhaoliang Zheng,Xin Xia,Seth Z. Zhao,Letian Gao,Zewei Zhou,Tianhui Cai,Yun Zhang,Jiaqi Ma
発行日 2025-03-13 04:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約

継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3Dスペースをナビゲートしながら、エージェントが自然言語の指示を解釈する必要があります。
既存のVLN-CEフレームワークは、2段階のアプローチ、次の2段階のアプローチに依存しています。ウェイポイントを生成するウェイポイント予測子と、動きを実行するナビゲーターです。
ただし、現在のウェイポイント予測因子は空間的認識と闘っていますが、ナビゲーターは歴史的な推論とバックトラッキング機能を欠いており、適応性を制限しています。
拡張されたウェイポイント予測子をマルチモーダル大手言語モデル(MLLM)ベースのナビゲーターと統合するゼロショットVLN-CEフレームワークを提案します。
予測因子は、より強力なビジョンエンコーダー、マスクされたクロスアテンション融合、およびウェイポイント品質の向上のために占有認識の損失を採用しています。
ナビゲーターは、バックトラッキングを備えた歴史を意識した推論と適応パス計画を組み込み、堅牢性を向上させます。
R2R-CEおよびMP3Dベンチマークでの実験は、メソッドがゼロショット設定で最先端の(SOTA)パフォーマンスを達成し、完全に監視された方法と比較して競争結果を示していることを示しています。
TurtleBot 4の実際の検証は、その適応性をさらに強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.

arxiv情報

著者 Xiangyu Shi,Zerui Li,Wenqi Lyu,Jiatong Xia,Feras Dayoub,Yanyuan Qiao,Qi Wu
発行日 2025-03-13 05:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI

要約

オープンワールド環境でのナビゲーションと操作は、具体化されたAIにおける未解決の課題のままです。
商用モバイル操作ロボットの高コストは、実際のシーンの研究を大幅に制限しています。
この問題に対処するために、ハードウェアコストがわずか1,000ドル(オプションの計算リソースを除く)の低コストで完全にオープンソースのデュアルアームモバイル操作ロボットシステムであるAharobotを提案します。これは、人気のあるモバイルロボットのコストの1/15未満です。
Aharobotシステムは、3つのコンポーネントで構成されています。(1)主に既製のコンポーネントで構成される新しい低コストのハードウェアアーキテクチャ、(2)デュアルモーターバックラッシュコントロールと静的摩擦補償を統合する動作精度を強化する最適化された制御ソリューション、および(3)単純なリモートテレオペレーション方法Lobopilot。
ハンドルを使用して、全身の動きのためにデュアルアームとペダルを制御します。
遠隔操作プロセスは、パイロットと同じように、低燃焼で操作が容易です。
RoboPilotは、具体化されたシナリオでリモートデータ収集用に設計されています。
実験結果は、ロボピロットが複雑な操作タスクのデータ収集効率を大幅に向上させ、3Dマウスおよびリーダーフォロワーシステムを使用した方法と比較して30%の増加を達成することを示しています。
また、一度に非常に長期のタスクを完了することに優れています。
さらに、アハロボットを使用してエンドツーエンドのポリシーを学習し、ペン挿入や床のクリーンアップなどの複雑な操作タスクを自律的に実行できます。
私たちは、実際のデバイスで具体化されたタスクの開発を促進し、より堅牢で信頼できる具体化されたAIを進めるための手頃な価格で強力なプラットフォームを構築することを目指しています。
すべてのハードウェアおよびソフトウェアシステムは、https://aha-robot.github.ioで入手できます。

要約(オリジナル)

Navigation and manipulation in open-world environments remain unsolved challenges in the Embodied AI. The high cost of commercial mobile manipulation robots significantly limits research in real-world scenes. To address this issue, we propose AhaRobot, a low-cost and fully open-source dual-arm mobile manipulation robot system with a hardware cost of only $1,000 (excluding optional computational resources), which is less than 1/15 of the cost of popular mobile robots. The AhaRobot system consists of three components: (1) a novel low-cost hardware architecture primarily composed of off-the-shelf components, (2) an optimized control solution to enhance operational precision integrating dual-motor backlash control and static friction compensation, and (3) a simple remote teleoperation method RoboPilot. We use handles to control the dual arms and pedals for whole-body movement. The teleoperation process is low-burden and easy to operate, much like piloting. RoboPilot is designed for remote data collection in embodied scenarios. Experimental results demonstrate that RoboPilot significantly enhances data collection efficiency in complex manipulation tasks, achieving a 30% increase compared to methods using 3D mouse and leader-follower systems. It also excels at completing extremely long-horizon tasks in one go. Furthermore, AhaRobot can be used to learn end-to-end policies and autonomously perform complex manipulation tasks, such as pen insertion and cleaning up the floor. We aim to build an affordable yet powerful platform to promote the development of embodied tasks on real devices, advancing more robust and reliable embodied AI. All hardware and software systems are available at https://aha-robot.github.io.

arxiv情報

著者 Haiqin Cui,Yifu Yuan,Yan Zheng,Jianye Hao
発行日 2025-03-13 05:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI はコメントを受け付けていません