The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約

ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっすぐにします。
これにより、テスト時に通常の微分方程式を数値的に解くと、統合ステップが少なくなり、複雑でない数値ソルバーが使用できるため、計算的に要求の少ない推論につながります。
ただし、条件付き設定では、ミニバッチ最適輸送は不足しています。
これは、デフォルトの最適な輸送マッピングが条件を無視し、トレーニング中に条件付きでゆがんだ事前分布をもたらすためです。
対照的に、テスト時には、歪んだ事前に歪んだものにはアクセスできず、代わりに完全な、偏りのない事前分布からサンプリングします。
トレーニングとテストの間のこのギャップは、サブパフォーマンスにつながります。
このギャップを埋めるために、最適な輸送割り当てを計算するときにコストマトリックスに条件付き重み付け項を追加する条件付き最適輸送c^2otを提案します。
実験では、この単純な修正は、8gaussians-to moons、Cifar-10、Imagenet-32×32、およびImagenet-256×256の個別の条件と連続条件の両方で機能することを示しています。
私たちの方法は、異なる関数評価予算にわたる既存のベースラインと比較して、全体的に優れたパフォーマンスを発揮します。
コードはhttps://hkchengrex.github.io/c2otで入手できます

要約(オリジナル)

Minibatch optimal transport coupling straightens paths in unconditional flow matching. This leads to computationally less demanding inference as fewer integration steps and less complex numerical solvers can be employed when numerically solving an ordinary differential equation at test time. However, in the conditional setting, minibatch optimal transport falls short. This is because the default optimal transport mapping disregards conditions, resulting in a conditionally skewed prior distribution during training. In contrast, at test time, we have no access to the skewed prior, and instead sample from the full, unbiased prior distribution. This gap between training and testing leads to a subpar performance. To bridge this gap, we propose conditional optimal transport C^2OT that adds a conditional weighting term in the cost matrix when computing the optimal transport assignment. Experiments demonstrate that this simple fix works with both discrete and continuous conditions in 8gaussians-to-moons, CIFAR-10, ImageNet-32×32, and ImageNet-256×256. Our method performs better overall compared to the existing baselines across different function evaluation budgets. Code is available at https://hkchengrex.github.io/C2OT

arxiv情報

著者 Ho Kei Cheng,Alexander Schwing
発行日 2025-03-14 06:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles

要約

地震などの自然災害に対する迅速な対応は、民事インフラの安全性を確保し、犠牲者を最小限に抑えるための重要な要素です。
従来の手動検査は労働集約的で、時間がかかり、検査官や救助隊員にとって危険な場合があります。
このホワイトペーパーでは、自律的なナビゲーション法、ディープラーニングベースの損傷と生存者検出方法、およびオンボードセンサーを備えたカスタマイズされた低コストのマイクロ航空車両(MAV)を組み込んだ、災害後の建物の屋内シナリオにおける構造的損傷検査と生存者検出のための自律検査アプローチを提案しました。
擬似ポスト災害オフィスビルでの実験的研究では、提案された方法論が構造的損傷検査と生存者の検出において高い精度を達成できることが示されています。
全体として、提案された検査アプローチは、既存の手動で災害後の建物検査の効率を改善する大きな可能性を示しています。

要約(オリジナル)

Rapid response to natural disasters such as earthquakes is a crucial element in ensuring the safety of civil infrastructures and minimizing casualties. Traditional manual inspection is labour-intensive, time-consuming, and can be dangerous for inspectors and rescue workers. This paper proposed an autonomous inspection approach for structural damage inspection and survivor detection in the post-disaster building indoor scenario, which incorporates an autonomous navigation method, deep learning-based damage and survivor detection method, and a customized low-cost micro aerial vehicle (MAV) with onboard sensors. Experimental studies in a pseudo-post-disaster office building have shown the proposed methodology can achieve high accuracy in structural damage inspection and survivor detection. Overall, the proposed inspection approach shows great potential to improve the efficiency of existing manual post-disaster building inspection.

arxiv情報

著者 Xiao Pan,Sina Tavasoli,T. Y. Yang,Sina Poorghasem
発行日 2025-03-13 04:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles はコメントを受け付けていません

LEVA: A high-mobility logistic vehicle with legged suspension

要約

挑戦的な地形に対する材料の自律的な輸送は、大きな経済的影響を伴う挑戦であり、未解決のままです。
このペーパーでは、農業、建設、捜索救助活動に典型的なものを含む、さまざまな地形で自律的な物流のために設計された、高給の高度で高モビリティロボットであるLevaを紹介します。
Levaは、並列運動学を使用して高度な脚のサスペンションシステムをユニークに統合します。
RLコントローラーを使用して階段を通過でき、操縦可能なホイールを備えており、自律的なペイロードの荷重と、不均一な表面全体で最大85 kgの正確で信頼できる貨物輸送を可能にする特殊なボックスピックアップメカニズムが含まれています。
LEVAは、広範な実験的検証を通じて、ペイロードの負荷と輸送に関するオフロードの能力と信頼性を実証します。

要約(オリジナル)

The autonomous transportation of materials over challenging terrain is a challenge with major economic implications and remains unsolved. This paper introduces LEVA, a high-payload, high-mobility robot designed for autonomous logistics across varied terrains, including those typical in agriculture, construction, and search and rescue operations. LEVA uniquely integrates an advanced legged suspension system using parallel kinematics. It is capable of traversing stairs using a rl controller, has steerable wheels, and includes a specialized box pickup mechanism that enables autonomous payload loading as well as precise and reliable cargo transportation of up to 85 kg across uneven surfaces, steps and inclines while maintaining a cot of as low as 0.15. Through extensive experimental validation, LEVA demonstrates its off-road capabilities and reliability regarding payload loading and transport.

arxiv情報

著者 Marco Arnold,Lukas Hildebrandt,Kaspar Janssen,Efe Ongan,Pascal Bürge,Ádám Gyula Gábriel,James Kennedy,Rishi Lolla,Quanisha Oppliger,Micha Schaaf,Joseph Church,Michael Fritsche,Victor Klemm,Turcan Tuna,Giorgio Valsecchi,Cedric Weibel,Marco Hutter
発行日 2025-03-13 04:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LEVA: A high-mobility logistic vehicle with legged suspension はコメントを受け付けていません

V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality

要約

車両からすべての(v2x)コミュニケーションによって可能になった協調的認識は、自律車両の認識能力を高めるために大きな約束を抱いており、閉塞を克服し、視野を拡大することができます。
ただし、既存の研究は主にシミュレートされた環境または静的データセットに依存しており、特に実際のシナリオでは主に未開拓の中間融合のためのV2X協調的認識の実現可能性と有効性を残しています。
この作業では、統一されたパイプライン内に早期、後期、および中級の融合方法を統合し、真の実質条件下でのオンライン中間融合の実現可能性とパフォーマンスの最初の実用的なデモを提供する、実際の車両とスマートインフラストラクチャに展開されたオープンなオンライン協同組合の認識フレームワークであるV2X-Realoを紹介します。
さらに、オンライン協同組合の認識システムのパフォーマンスを評価するために特別に設計されたオープンベンチマークデータセットを提示します。
この新しいデータセットは、V2X-Realデータセットを動的で同期したROSバッグに拡張し、都市のシナリオに挑戦する6,850の注釈付きキーフレームを備えた25,028のテストフレームを提供します。
動的な条件下での知覚精度と通信の遅刻のリアルタイム評価を可能にすることにより、V2X-Realoは、実際のアプリケーションで協同知覚システムを進めて最適化するための新しいベンチマークを設定します。
コードとデータセットはリリースされ、フィールドをさらに進めます。

要約(オリジナル)

Cooperative perception enabled by Vehicle-to-Everything (V2X) communication holds significant promise for enhancing the perception capabilities of autonomous vehicles, allowing them to overcome occlusions and extend their field of view. However, existing research predominantly relies on simulated environments or static datasets, leaving the feasibility and effectiveness of V2X cooperative perception especially for intermediate fusion in real-world scenarios largely unexplored. In this work, we introduce V2X-ReaLO, an open online cooperative perception framework deployed on real vehicles and smart infrastructure that integrates early, late, and intermediate fusion methods within a unified pipeline and provides the first practical demonstration of online intermediate fusion’s feasibility and performance under genuine real-world conditions. Additionally, we present an open benchmark dataset specifically designed to assess the performance of online cooperative perception systems. This new dataset extends V2X-Real dataset to dynamic, synchronized ROS bags and provides 25,028 test frames with 6,850 annotated key frames in challenging urban scenarios. By enabling real-time assessments of perception accuracy and communication lantency under dynamic conditions, V2X-ReaLO sets a new benchmark for advancing and optimizing cooperative perception systems in real-world applications. The codes and datasets will be released to further advance the field.

arxiv情報

著者 Hao Xiang,Zhaoliang Zheng,Xin Xia,Seth Z. Zhao,Letian Gao,Zewei Zhou,Tianhui Cai,Yun Zhang,Jiaqi Ma
発行日 2025-03-13 04:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約

継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3Dスペースをナビゲートしながら、エージェントが自然言語の指示を解釈する必要があります。
既存のVLN-CEフレームワークは、2段階のアプローチ、次の2段階のアプローチに依存しています。ウェイポイントを生成するウェイポイント予測子と、動きを実行するナビゲーターです。
ただし、現在のウェイポイント予測因子は空間的認識と闘っていますが、ナビゲーターは歴史的な推論とバックトラッキング機能を欠いており、適応性を制限しています。
拡張されたウェイポイント予測子をマルチモーダル大手言語モデル(MLLM)ベースのナビゲーターと統合するゼロショットVLN-CEフレームワークを提案します。
予測因子は、より強力なビジョンエンコーダー、マスクされたクロスアテンション融合、およびウェイポイント品質の向上のために占有認識の損失を採用しています。
ナビゲーターは、バックトラッキングを備えた歴史を意識した推論と適応パス計画を組み込み、堅牢性を向上させます。
R2R-CEおよびMP3Dベンチマークでの実験は、メソッドがゼロショット設定で最先端の(SOTA)パフォーマンスを達成し、完全に監視された方法と比較して競争結果を示していることを示しています。
TurtleBot 4の実際の検証は、その適応性をさらに強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.

arxiv情報

著者 Xiangyu Shi,Zerui Li,Wenqi Lyu,Jiatong Xia,Feras Dayoub,Yanyuan Qiao,Qi Wu
発行日 2025-03-13 05:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI

要約

オープンワールド環境でのナビゲーションと操作は、具体化されたAIにおける未解決の課題のままです。
商用モバイル操作ロボットの高コストは、実際のシーンの研究を大幅に制限しています。
この問題に対処するために、ハードウェアコストがわずか1,000ドル(オプションの計算リソースを除く)の低コストで完全にオープンソースのデュアルアームモバイル操作ロボットシステムであるAharobotを提案します。これは、人気のあるモバイルロボットのコストの1/15未満です。
Aharobotシステムは、3つのコンポーネントで構成されています。(1)主に既製のコンポーネントで構成される新しい低コストのハードウェアアーキテクチャ、(2)デュアルモーターバックラッシュコントロールと静的摩擦補償を統合する動作精度を強化する最適化された制御ソリューション、および(3)単純なリモートテレオペレーション方法Lobopilot。
ハンドルを使用して、全身の動きのためにデュアルアームとペダルを制御します。
遠隔操作プロセスは、パイロットと同じように、低燃焼で操作が容易です。
RoboPilotは、具体化されたシナリオでリモートデータ収集用に設計されています。
実験結果は、ロボピロットが複雑な操作タスクのデータ収集効率を大幅に向上させ、3Dマウスおよびリーダーフォロワーシステムを使用した方法と比較して30%の増加を達成することを示しています。
また、一度に非常に長期のタスクを完了することに優れています。
さらに、アハロボットを使用してエンドツーエンドのポリシーを学習し、ペン挿入や床のクリーンアップなどの複雑な操作タスクを自律的に実行できます。
私たちは、実際のデバイスで具体化されたタスクの開発を促進し、より堅牢で信頼できる具体化されたAIを進めるための手頃な価格で強力なプラットフォームを構築することを目指しています。
すべてのハードウェアおよびソフトウェアシステムは、https://aha-robot.github.ioで入手できます。

要約(オリジナル)

Navigation and manipulation in open-world environments remain unsolved challenges in the Embodied AI. The high cost of commercial mobile manipulation robots significantly limits research in real-world scenes. To address this issue, we propose AhaRobot, a low-cost and fully open-source dual-arm mobile manipulation robot system with a hardware cost of only $1,000 (excluding optional computational resources), which is less than 1/15 of the cost of popular mobile robots. The AhaRobot system consists of three components: (1) a novel low-cost hardware architecture primarily composed of off-the-shelf components, (2) an optimized control solution to enhance operational precision integrating dual-motor backlash control and static friction compensation, and (3) a simple remote teleoperation method RoboPilot. We use handles to control the dual arms and pedals for whole-body movement. The teleoperation process is low-burden and easy to operate, much like piloting. RoboPilot is designed for remote data collection in embodied scenarios. Experimental results demonstrate that RoboPilot significantly enhances data collection efficiency in complex manipulation tasks, achieving a 30% increase compared to methods using 3D mouse and leader-follower systems. It also excels at completing extremely long-horizon tasks in one go. Furthermore, AhaRobot can be used to learn end-to-end policies and autonomously perform complex manipulation tasks, such as pen insertion and cleaning up the floor. We aim to build an affordable yet powerful platform to promote the development of embodied tasks on real devices, advancing more robust and reliable embodied AI. All hardware and software systems are available at https://aha-robot.github.io.

arxiv情報

著者 Haiqin Cui,Yifu Yuan,Yan Zheng,Jianye Hao
発行日 2025-03-13 05:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI はコメントを受け付けていません

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

要約

言語モデル(LMS)は、自然言語を理解するための強力な能力を備えており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的です。
それにもかかわらず、特に協同組合の異種ロボットチームのサブタスクの識別と割り当てにおいて、長老様式のタスクを処理することは重要な課題です。
この問題に対処するために、言語モデル駆動型のマルチエージェントPDDLプランナー(LAMMA-P)を提案します。これは、長距離タスクで最先端のパフォーマンスを達成する新しいマルチエージェントタスク計画フレームワークです。
LAMMA-Pは、LMSの推論能力と従来のヒューリスティック検索プランナーの強みを統合して、タスク全体で強力な一般化を実証しながら、高い成功率と効率を達成します。
さらに、AI2-THOR環境に基づいて2つの異なるレベルの複雑さを持つ家庭用タスクを備えた包括的なベンチマークであるMat-Thorを作成します。
実験結果は、LAMMA-Pが既存のLMベースのマルチエージェントプランナーよりも105%高い成功率と36%高い効率を達成することを示しています。
各モジュールで使用される実験ビデオ、コード、データセット、および詳細なプロンプトは、プロジェクトWebサイトhttps://lamma-p.github.ioで見つけることができます。

要約(オリジナル)

Language models (LMs) possess a strong capability to comprehend natural language, making them effective in translating human instructions into detailed plans for simple robot tasks. Nevertheless, it remains a significant challenge to handle long-horizon tasks, especially in subtask identification and allocation for cooperative heterogeneous robot teams. To address this issue, we propose a Language Model-Driven Multi-Agent PDDL Planner (LaMMA-P), a novel multi-agent task planning framework that achieves state-of-the-art performance on long-horizon tasks. LaMMA-P integrates the strengths of the LMs’ reasoning capability and the traditional heuristic search planner to achieve a high success rate and efficiency while demonstrating strong generalization across tasks. Additionally, we create MAT-THOR, a comprehensive benchmark that features household tasks with two different levels of complexity based on the AI2-THOR environment. The experimental results demonstrate that LaMMA-P achieves a 105% higher success rate and 36% higher efficiency than existing LM-based multiagent planners. The experimental videos, code, datasets, and detailed prompts used in each module can be found on the project website: https://lamma-p.github.io.

arxiv情報

著者 Xiaopan Zhang,Hao Qin,Fuquan Wang,Yue Dong,Jiachen Li
発行日 2025-03-13 06:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner はコメントを受け付けていません

ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation

要約

現実的な手操作は、没入型仮想現実(VR)の重要なコンポーネントですが、既存の方法は、接触力や指のトルクなどの重要な物理的属性を省略する運動学的アプローチまたはモーションキャプチャデータセットに依存することがよくあります。
その結果、これらのアプローチは、ユーザーの意図した力レベルを反映するのではなく、タイトでワンサイズに適合するグリップを優先します。
私たちは、ユーザーのグリップ力の意図を忠実に反映して、現実的な手操作の動きを統合する深い学習エージェントであるForceGripを提示します。
事前定義されたモーションデータセットを模倣する代わりに、ForceGripは、生成されたトレーニングシナリオを使用して、オブジェクトの形状、手首の動き、および入力フローをトリガーして、幅広い物理的相互作用でエージェントに挑戦します。
これらの複雑なタスクから効果的に学ぶために、指の位置付け、意図適応、および動的安定化を含む3フェーズカリキュラム学習フレームワークを採用しています。
このプログレッシブ戦略により、安定した手観オブジェクトの接触、ユーザー入力に基づいた適応力制御、動的条件下での堅牢な処理が保証されます。
さらに、近接報酬関数は自然な指の動きを強化し、トレーニングの収束を加速します。
定量的および定性的評価により、最先端の方法と比較して、forcegripの優れた力の制御性と妥当性が明らかになります。
私たちの論文のビデオプレゼンテーションには、https://youtu.be/lr-yafninjwにアクセスできます。

要約(オリジナル)

Realistic hand manipulation is a key component of immersive virtual reality (VR), yet existing methods often rely on a kinematic approach or motion-capture datasets that omit crucial physical attributes such as contact forces and finger torques. Consequently, these approaches prioritize tight, one-size-fits-all grips rather than reflecting users’ intended force levels. We present ForceGrip, a deep learning agent that synthesizes realistic hand manipulation motions, faithfully reflecting the user’s grip force intention. Instead of mimicking predefined motion datasets, ForceGrip uses generated training scenarios-randomizing object shapes, wrist movements, and trigger input flows-to challenge the agent with a broad spectrum of physical interactions. To effectively learn from these complex tasks, we employ a three-phase curriculum learning framework comprising Finger Positioning, Intention Adaptation, and Dynamic Stabilization. This progressive strategy ensures stable hand-object contact, adaptive force control based on user inputs, and robust handling under dynamic conditions. Additionally, a proximity reward function enhances natural finger motions and accelerates training convergence. Quantitative and qualitative evaluations reveal ForceGrip’s superior force controllability and plausibility compared to state-of-the-art methods. The video presentation of our paper is accessible at https://youtu.be/lR-YAfninJw.

arxiv情報

著者 DongHeun Han,Byungmin Kim,RoUn Lee,KyeongMin Kim,Hyoseok Hwang,HyeongYeop Kang
発行日 2025-03-13 06:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.HC, cs.LG, cs.RO | ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation はコメントを受け付けていません

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

要約

一般化されたロボット操作のためのスケーラブルなロボットデータが実際の課題にどのように対処できるかを調査します。
5つの展開シナリオで217のタスクにわたって100万を超える軌道を含む大規模なプラットフォームであるAgibot Worldを導入すると、既存のデータセットと比較してデータスケールの順序上の増加が得られます。
Agibot Worldは、人間のループ検証を備えた標準化されたコレクションパイプラインによって加速され、高品質で多様なデータ分布を保証します。
グリッパーから器用な手および視覚触覚センサーまで拡張可能です。
データに加えて、潜在的なアクション表現を活用してデータ利用を最大化する新しいジェネラリストポリシーであるGenie Operator-1(GO-1)を紹介し、データボリュームの増加に伴う予測可能なパフォーマンススケーリングを実証します。
データセットで事前に訓練されたポリシーは、ドメイン内および分散式シナリオの両方で、オープンXエンボジメントでトレーニングされたものよりも30%の平均パフォーマンス改善を達成します。
GO-1は、現実世界の器用なタスクおよび長期タスクで例外的な能力を示し、複雑なタスクで60%以上の成功率を達成し、以前のRDTアプローチを32%上回ることができます。
データセット、ツール、およびモデルをオープンソーシングすることにより、大規模で高品質のロボットデータへのアクセスを民主化し、スケーラブルで汎用性のあるインテリジェンスの追求を促進することを目指しています。

要約(オリジナル)

We explore how scalable robot data can address real-world challenges for generalized robotic manipulation. Introducing AgiBot World, a large-scale platform comprising over 1 million trajectories across 217 tasks in five deployment scenarios, we achieve an order-of-magnitude increase in data scale compared to existing datasets. Accelerated by a standardized collection pipeline with human-in-the-loop verification, AgiBot World guarantees high-quality and diverse data distribution. It is extensible from grippers to dexterous hands and visuo-tactile sensors for fine-grained skill acquisition. Building on top of data, we introduce Genie Operator-1 (GO-1), a novel generalist policy that leverages latent action representations to maximize data utilization, demonstrating predictable performance scaling with increased data volume. Policies pre-trained on our dataset achieve an average performance improvement of 30% over those trained on Open X-Embodiment, both in in-domain and out-of-distribution scenarios. GO-1 exhibits exceptional capability in real-world dexterous and long-horizon tasks, achieving over 60% success rate on complex tasks and outperforming prior RDT approach by 32%. By open-sourcing the dataset, tools, and models, we aim to democratize access to large-scale, high-quality robot data, advancing the pursuit of scalable and general-purpose intelligence.

arxiv情報

著者 AgiBot-World-Contributors,Qingwen Bu,Jisong Cai,Li Chen,Xiuqi Cui,Yan Ding,Siyuan Feng,Shenyuan Gao,Xindong He,Xu Huang,Shu Jiang,Yuxin Jiang,Cheng Jing,Hongyang Li,Jialu Li,Chiming Liu,Yi Liu,Yuxiang Lu,Jianlan Luo,Ping Luo,Yao Mu,Yuehan Niu,Yixuan Pan,Jiangmiao Pang,Yu Qiao,Guanghui Ren,Cheng Ruan,Jiaqi Shan,Yongjian Shen,Chengshi Shi,Mingkang Shi,Modi Shi,Chonghao Sima,Jianheng Song,Huijie Wang,Wenhao Wang,Dafeng Wei,Chengen Xie,Guo Xu,Junchi Yan,Cunbiao Yang,Lei Yang,Shukai Yang,Maoqing Yao,Jia Zeng,Chi Zhang,Qinglin Zhang,Bin Zhao,Chengyue Zhao,Jiaqi Zhao,Jianchao Zhu
発行日 2025-03-13 06:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems はコメントを受け付けていません

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

要約

モーション計画では、ロボット構成のシーケンスを決定して、動きと安全の制約を条件として、望ましいポーズに到達します。
従来のモーションプランニングは衝突のないパスを見つけますが、これは乱雑さでは過度に制限されており、ロボットが連絡なしでタスクを達成することは不可能です。
さらに、コンタクトは比較的良性(たとえば、柔らかい枕のブラッシング)からより危険なもの(たとえば、ガラスの花瓶を倒す)にまで及びます。
この多様性のため、どの接触が受け入れられるか、受け入れられないかを特徴付けることは困難です。
この論文では、Vision-Language Models(VLM)を使用して環境セマンティクスを推測する新しいモーション計画フレームワークであるImpactを提案し、環境のどの部分がオブジェクトのプロパティと場所に基づいて接触を最もよく許容できるかを特定します。
私たちのアプローチでは、VLMの出力を使用して、コンタクトトレランスをコードし、標準のモーションプランナーとシームレスに統合する密な3D「コストマップ」を作成します。
20のシミュレーションと10の実際のシーンを使用して実験を行い、タスクの成功率、オブジェクト変位、および人間の評価者からのフィードバックを使用して評価します。
3620を超えるシミュレーションと200の実世界の試行を超える我々の結果は、インパクトが散らかった設定で効率的な接触豊富なモーション計画を可能にしながら、代替方法とアブレーションを上回ることを示唆しています。
補足資料はhttps://impact-planning.github.io/で入手できます。

要約(オリジナル)

Motion planning involves determining a sequence of robot configurations to reach a desired pose, subject to movement and safety constraints. Traditional motion planning finds collision-free paths, but this is overly restrictive in clutter, where it may not be possible for a robot to accomplish a task without contact. In addition, contacts range from relatively benign (e.g., brushing a soft pillow) to more dangerous (e.g., toppling a glass vase). Due to this diversity, it is difficult to characterize which contacts may be acceptable or unacceptable. In this paper, we propose IMPACT, a novel motion planning framework that uses Vision-Language Models (VLMs) to infer environment semantics, identifying which parts of the environment can best tolerate contact based on object properties and locations. Our approach uses the VLM’s outputs to produce a dense 3D ‘cost map’ that encodes contact tolerances and seamlessly integrates with standard motion planners. We perform experiments using 20 simulation and 10 real-world scenes and assess using task success rate, object displacements, and feedback from human evaluators. Our results over 3620 simulation and 200 real-world trials suggest that IMPACT enables efficient contact-rich motion planning in cluttered settings while outperforming alternative methods and ablations. Supplementary material is available at https://impact-planning.github.io/.

arxiv情報

著者 Yiyang Ling,Karan Owalekar,Oluwatobiloba Adesanya,Erdem Bıyık,Daniel Seita
発行日 2025-03-13 07:09:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models はコメントを受け付けていません