S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

要約

スキル学習の最近の進歩により、ロボット操作は、実際の数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、新たな高みへの操作を推進しています。
ただし、これらのスキルは、トレーニングデータに表示されている特定のアクション、オブジェクト、および環境\ TextIT {インスタンス}に限定され、同じカテゴリの他のインスタンスへの移行に問題があることがよくあります。
この作業では、インスタンスレベルのトレーニングデータからカテゴリレベルのインスタンスレベルへの一般化を可能にするオープンボキャブラリー空間セマンティック拡散ポリシー(S $^2 $ -diffusion)を提示します。
スキルの機能的側面は、空間表現と組み合わせた迅速なセマンティックモジュールを介してキャプチャできることを示します。
さらに、深度推定ネットワークを活用して、単一のRGBカメラのみを使用できるようにすることを提案します。
私たちのアプローチは、シミュレーションと現実世界の両方で、さまざまな数のロボット操作タスクで評価され、比較されます。
我々の結果は、S $^2 $ -diffusionが、カテゴリに照明された要因の変化に不変であり、特定の例で訓練されていなくても、同じカテゴリ内の他のインスタンスでパフォーマンスを満たすことができることを示しています。
すべての現実世界の実験の完全なビデオは、補足資料で入手できます。

要約(オリジナル)

Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.

arxiv情報

著者 Quantao Yang,Michael C. Welle,Danica Kragic,Olov Andersson
発行日 2025-02-17 08:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation はコメントを受け付けていません

AffinityFlow: Guided Flows for Antibody Affinity Maturation

要約

抗体は治療薬として広く使用されていますが、その発達には、結合親和性を高めるための反復変異を含むコストのかかる親和性成熟が必要です。この論文では、抗体と抗原配列を使用して、アフィニティ成熟のシーケンスのみのシナリオを探ります。
最近、アルファフローはフローマッチング内でアルファフォルドをラップして、多様なタンパク質構造を生成し、構造のシーケンス条件付き生成モデルを可能にします。
これに基づいて、(1)構造ベースのアフィニティ予測子を使用して、(1)構造生成を高結合親和性に向けてガイドするシーケンスを修正する交互の最適化フレームワークを提案します。
ポスト選択のためのアフィニティ予測因子に基づいています。
重要な課題は、両方の予測因子をトレーニングするためのラベル付きデータがないことです。
これに対処するために、騒々しい生物物理学的エネルギーから予測因子の洗練に貴重な情報を組み込んだ共同科学モジュールを開発します。
シーケンスベースの予測子は、構造ベースの予測因子を教えるためにコンセンサスサンプルを選択し、その逆も同様です。
私たちの方法であるAffinityFlowは、アフィニティ成熟実験で最先端のパフォーマンスを実現します。
受け入れた後、コードをオープンソースする予定です。

要約(オリジナル)

Antibodies are widely used as therapeutics, but their development requires costly affinity maturation, involving iterative mutations to enhance binding affinity.This paper explores a sequence-only scenario for affinity maturation, using solely antibody and antigen sequences. Recently AlphaFlow wraps AlphaFold within flow matching to generate diverse protein structures, enabling a sequence-conditioned generative model of structure. Building on this, we propose an alternating optimization framework that (1) fixes the sequence to guide structure generation toward high binding affinity using a structure-based affinity predictor, then (2) applies inverse folding to create sequence mutations, refined by a sequence-based affinity predictor for post selection. A key challenge is the lack of labeled data for training both predictors. To address this, we develop a co-teaching module that incorporates valuable information from noisy biophysical energies into predictor refinement. The sequence-based predictor selects consensus samples to teach the structure-based predictor, and vice versa. Our method, AffinityFlow, achieves state-of-the-art performance in affinity maturation experiments. We plan to open-source our code after acceptance.

arxiv情報

著者 Can Chen,Karla-Luise Herpoldt,Chenchao Zhao,Zichen Wang,Marcus Collins,Shang Shang,Ron Benson
発行日 2025-02-17 11:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AffinityFlow: Guided Flows for Antibody Affinity Maturation はコメントを受け付けていません

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

要約

30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備えた最先端のテキストからビデオへの最先端の訓練モデルであるStep-Video-T2Vを提示します。
ディープ圧縮変動自動エンコーダーであるVideo-Vaeは、ビデオ生成タスク向けに設計されており、16×16の空間と8倍の時間的圧縮比を達成し、例外的なビデオ再構成品質を維持します。
ユーザープロンプトは、2つのバイリンガルテキストエンコーダーを使用してエンコードされ、英語と中国語の両方を処理します。
3Dの完全な注意を払ったDITは、フローマッチングを使用してトレーニングされ、潜在フレームへの入力ノイズを除去するために使用されます。
ビデオベースのDPOアプローチであるVideo-DPOが適用され、アーティファクトを削減し、生成されたビデオの視覚品質を向上させます。
また、トレーニング戦略について詳しく説明し、重要な観察と洞察を共有します。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、オープンソースと商業エンジンの両方と比較した場合、最先端のテキストからビデオへの品質を実証します。
さらに、現在の拡散ベースのモデルパラダイムの制限について説明し、ビデオファンデーションモデルの将来の方向性を概説します。
https://github.com/stepfun-ai/step-video-t2vでStep-Video-T2VとStep-Video-T2V-Evalの両方を入手できます。
オンラインバージョンには、https://yuewen.cn/videosからもアクセスできます。
私たちの目標は、Video Foundationモデルの革新を加速し、ビデオコンテンツの作成者に力を与えることです。

要約(オリジナル)

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16×16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V’s performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arxiv情報

著者 Guoqing Ma,Haoyang Huang,Kun Yan,Liangyu Chen,Nan Duan,Shengming Yin,Changyi Wan,Ranchen Ming,Xiaoniu Song,Xing Chen,Yu Zhou,Deshan Sun,Deyu Zhou,Jian Zhou,Kaijun Tan,Kang An,Mei Chen,Wei Ji,Qiling Wu,Wen Sun,Xin Han,Yanan Wei,Zheng Ge,Aojie Li,Bin Wang,Bizhu Huang,Bo Wang,Brian Li,Changxing Miao,Chen Xu,Chenfei Wu,Chenguang Yu,Dapeng Shi,Dingyuan Hu,Enle Liu,Gang Yu,Ge Yang,Guanzhe Huang,Gulin Yan,Haiyang Feng,Hao Nie,Haonan Jia,Hanpeng Hu,Hanqi Chen,Haolong Yan,Heng Wang,Hongcheng Guo,Huilin Xiong,Huixin Xiong,Jiahao Gong,Jianchang Wu,Jiaoren Wu,Jie Wu,Jie Yang,Jiashuai Liu,Jiashuo Li,Jingyang Zhang,Junjing Guo,Junzhe Lin,Kaixiang Li,Lei Liu,Lei Xia,Liang Zhao,Liguo Tan,Liwen Huang,Liying Shi,Ming Li,Mingliang Li,Muhua Cheng,Na Wang,Qiaohui Chen,Qinglin He,Qiuyan Liang,Quan Sun,Ran Sun,Rui Wang,Shaoliang Pang,Shiliang Yang,Sitong Liu,Siqi Liu,Shuli Gao,Tiancheng Cao,Tianyu Wang,Weipeng Ming,Wenqing He,Xu Zhao,Xuelin Zhang,Xianfang Zeng,Xiaojia Liu,Xuan Yang,Yaqi Dai,Yanbo Yu,Yang Li,Yineng Deng,Yingming Wang,Yilei Wang,Yuanwei Lu,Yu Chen,Yu Luo,Yuchu Luo,Yuhe Yin,Yuheng Feng,Yuxiang Yang,Zecheng Tang,Zekai Zhang,Zidong Yang,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Xinhao Zhang,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang
発行日 2025-02-17 08:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model はコメントを受け付けていません

Graph Foundation Models for Recommendation: A Comprehensive Survey

要約

推奨システム(RS)は、オンライン情報の広大な広がりをナビゲートするための基本的なツールとして機能し、ランキングの精度を向上させる上でますます重要な役割を果たしている深い学習の進歩を果たします。
これらの中で、グラフニューラルネットワーク(GNN)は高次の構造情報の抽出に優れていますが、大規模な言語モデル(LLM)は自然言語を処理して理解するように設計されており、両方のアプローチが非常に効果的で広く採用されています。
最近の研究では、GNNとLLMの強度を統合して、テキストの理解とともにユーザーとアイテムの関係のグラフベースの構造を活用することにより、複雑なRSの問題をより効率的にモデル化するグラフ基礎モデル(GFM)に焦点を当てています。
この調査では、現在のアプローチの明確な分類法を導入し、方法論の詳細に飛び込み、重要な課題と将来の方向性を強調することにより、GFMベースのRSテクノロジーの包括的な概要を提供します。
最近の進歩を統合することにより、GFMベースの推奨システムの進化する景観に関する貴重な洞察を提供することを目指しています。

要約(オリジナル)

Recommender systems (RS) serve as a fundamental tool for navigating the vast expanse of online information, with deep learning advancements playing an increasingly important role in improving ranking accuracy. Among these, graph neural networks (GNNs) excel at extracting higher-order structural information, while large language models (LLMs) are designed to process and comprehend natural language, making both approaches highly effective and widely adopted. Recent research has focused on graph foundation models (GFMs), which integrate the strengths of GNNs and LLMs to model complex RS problems more efficiently by leveraging the graph-based structure of user-item relationships alongside textual understanding. In this survey, we provide a comprehensive overview of GFM-based RS technologies by introducing a clear taxonomy of current approaches, diving into methodological details, and highlighting key challenges and future directions. By synthesizing recent advancements, we aim to offer valuable insights into the evolving landscape of GFM-based recommender systems.

arxiv情報

著者 Bin Wu,Yihang Wang,Yuanhao Zeng,Jiawei Liu,Jiashu Zhao,Cheng Yang,Yawen Li,Long Xia,Dawei Yin,Chuan Shi
発行日 2025-02-17 02:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Graph Foundation Models for Recommendation: A Comprehensive Survey はコメントを受け付けていません

Compress image to patches for Vision Transformer

要約

ビジョントランス(VIT)は、コンピュータービジョンの分野で大きな進歩を遂げました。
ただし、モデルの深さと入力画像の解像度が増加するにつれて、トレーニングとランニングVITモデルに関連する計算コストは​​劇的に急増しています。
このペーパーでは、CI2P-Vitという名前のCNNとVision Transformerに基づくハイブリッドモデルを提案しています。
このモデルには、CI2Pと呼ばれるモジュールが組み込まれています。CI2Pは、Compressaiエンコーダーを使用して画像を圧縮し、その後、一連の畳み込みを介して一連のパッチを生成します。
CI2Pは、VITモデルにパッチ埋め込みコンポーネントを置き換えることができ、既存のVITモデルへのシームレスな統合を可能にします。
VIT-B/16と比較して、CI2P-vitには、自己触媒層に入力されたパッチの数がオリジナルの4分の1に縮小されています。
この設計は、VITモデルの計算コストを大幅に削減するだけでなく、CNNの誘導バイアス特性を導入することにより、モデルの精度を効果的に向上させます。
VITモデルの精度は著しく強化されています。
Animals-10データセットでゼロから訓練された場合、CI2P-vitは92.37%の精度率を達成し、VIT-B/16ベースラインで3.3%の改善を表します。
さらに、1秒あたりの浮動小数点操作(FLOPS)で測定されたモデルの計算操作は63.35%減少し、同一のハードウェア構成でトレーニング速度が2倍増加しました。

要約(オリジナル)

The Vision Transformer (ViT) has made significant strides in the field of computer vision. However, as the depth of the model and the resolution of the input images increase, the computational cost associated with training and running ViT models has surged dramatically. This paper proposes a hybrid model based on CNN and Vision Transformer, named CI2P-ViT. The model incorporates a module called CI2P, which utilizes the CompressAI encoder to compress images and subsequently generates a sequence of patches through a series of convolutions. CI2P can replace the Patch Embedding component in the ViT model, enabling seamless integration into existing ViT models. Compared to ViT-B/16, CI2P-ViT has the number of patches input to the self-attention layer reduced to a quarter of the original. This design not only significantly reduces the computational cost of the ViT model but also effectively enhances the model’s accuracy by introducing the inductive bias properties of CNN. The ViT model’s precision is markedly enhanced. When trained from the ground up on the Animals-10 dataset, CI2P-ViT achieved an accuracy rate of 92.37%, representing a 3.3% improvement over the ViT-B/16 baseline. Additionally, the model’s computational operations, measured in floating-point operations per second (FLOPs), were diminished by 63.35%, and it exhibited a 2-fold increase in training velocity on identical hardware configurations.

arxiv情報

著者 Xinfeng Zhao,Yaoru Sun
発行日 2025-02-17 07:35:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Compress image to patches for Vision Transformer はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約

このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的なビデオ生成モデルであるMagic 1-for-1(MAGIC141)を紹介します。
重要なアイデアは単純です。テキストからビデオへの生成タスクを、拡散ステップ蒸留のための2つの別々の簡単なタスク、つまりテキストからイメージの生成と画像間生成に因数分解します。
同じ最適化アルゴリズムを使用して、画像からビデオへのタスクが実際にテキストからビデオへのタスク上で収束しやすいことを確認します。
また、最適化のトリックのバッグを探索して、3つの側面から画像間(I2V)モデルをトレーニングする計算コストを削減します。1)モデルの収束速度速度マルチモーダル事前条件注入を使用して。
2)敵対的なステップ蒸留を適用することにより、推論の遅延速度を上げ、3)パラメーターのスパース化による推論メモリコストの最適化。
これらのテクニックを使用すると、3秒以内に5秒のビデオクリップを生成できます。
テスト時間スライドウィンドウを適用することにより、視覚品質とモーションダイナミクスが大幅に向上し、1分以内に1分以内に1分間のビデオを生成することができ、平均で1秒のビデオクリップを生成するために1秒未満を費やすことができます。
一連の予備調査を実施して、拡散ステップ蒸留中に計算コストとビデオの品質との最適なトレードオフを調べ、これがオープンソース探索の良い基盤モデルになることを願っています。
コードとモデルの重みは、https://github.com/da-group-pku/magic-1-for-1で入手できます。

要約(オリジナル)

In this technical report, we present Magic 1-For-1 (Magic141), an efficient video generation model with optimized memory consumption and inference latency. The key idea is simple: factorize the text-to-video generation task into two separate easier tasks for diffusion step distillation, namely text-to-image generation and image-to-video generation. We verify that with the same optimization algorithm, the image-to-video task is indeed easier to converge over the text-to-video task. We also explore a bag of optimization tricks to reduce the computational cost of training the image-to-video (I2V) models from three aspects: 1) model convergence speedup by using a multi-modal prior condition injection; 2) inference latency speed up by applying an adversarial step distillation, and 3) inference memory cost optimization with parameter sparsification. With those techniques, we are able to generate 5-second video clips within 3 seconds. By applying a test time sliding window, we are able to generate a minute-long video within one minute with significantly improved visual quality and motion dynamics, spending less than 1 second for generating 1 second video clips on average. We conduct a series of preliminary explorations to find out the optimal tradeoff between computational cost and video quality during diffusion step distillation and hope this could be a good foundation model for open-source explorations. The code and the model weights are available at https://github.com/DA-Group-PKU/Magic-1-For-1.

arxiv情報

著者 Hongwei Yi,Shitong Shao,Tian Ye,Jiantong Zhao,Qingyu Yin,Michael Lingelbach,Li Yuan,Yonghong Tian,Enze Xie,Daquan Zhou
発行日 2025-02-17 02:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

Perch like a bird: bio-inspired optimal maneuvers and nonlinear control for Flapping-Wing Unmanned Aerial Vehicles

要約

この研究は、Ornithopterロボットでの止まる操作と制御を設計するために努力しています。
ロボットのフライトダイナミクス、フィードバックループ、環境制約の間の動的な相互作用を分析することにより、腰掛ける操作の理解を促進し、生物学的システムに類似点を引き出すことを目指しています。
鳥類の飛行で観察されたエレガントな制御戦略に触発されて、安定した止まり木を実現するために、最適な操作と対応するコントローラーを開発します。
操作は、キネマティックおよびダイナミックな制約を条件として、止まりの最小速度の最適化問題を分析的に解決することから生じる減速と急速なピッチアップ(垂直方向のターン)で構成されています。
羽ばたき周波数と尾の対称的な偏向のコントローラーは非線形で適応的であり、堅牢に安定した止まることを保証します。
実際、このような適応行動には、サイバネティックスの恒常性原理が制御システムに組み込まれているため、予期せぬ乱れに適応し、腰掛け操作中に安定した姿勢を維持する能力が向上します。
結果として生じる自律的な止まり木の操縦 – 閉ループの降下とターン – は、検証および検証されており、文献で報告されている本物の鳥の止まりの軌跡との優れた一致を示しています。
これらの発見は、鳥の熟練した止まる操縦をよりよく模倣する将来のプロトタイプの開発のための理論的基礎を築きます。

要約(オリジナル)

This research endeavors to design the perching maneuver and control in ornithopter robots. By analyzing the dynamic interplay between the robot’s flight dynamics, feedback loops, and the environmental constraints, we aim to advance our understanding of the perching maneuver, drawing parallels to biological systems. Inspired by the elegant control strategies observed in avian flight, we develop an optimal maneuver and a corresponding controller to achieve stable perching. The maneuver consists of a deceleration and a rapid pitch-up (vertical turn), which arises from analytically solving the optimization problem of minimal velocity at perch, subject to kinematic and dynamic constraints. The controller for the flapping frequency and tail symmetric deflection is nonlinear and adaptive, ensuring robustly stable perching. Indeed, such adaptive behavior in a sense incorporates homeostatic principles of cybernetics into the control system, enhancing the robot’s ability to adapt to unexpected disturbances and maintain a stable posture during the perching maneuver. The resulting autonomous perching maneuvers — closed-loop descent and turn — , have been verified and validated, demonstrating excellent agreement with real bird perching trajectories reported in the literature. These findings lay the theoretical groundwork for the development of future prototypes that better imitate the skillful perching maneuvers of birds.

arxiv情報

著者 C. Ruiz,J. Á. Acosta
発行日 2025-02-13 19:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 93C10, 93C85, 93D21, cs.RO, cs.SY, eess.SY, math.OC | Perch like a bird: bio-inspired optimal maneuvers and nonlinear control for Flapping-Wing Unmanned Aerial Vehicles はコメントを受け付けていません

Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting

要約

大規模な言語モデル(LLMS)を閉ループロボットタスク計画に統合することは、具体化された人工知能内でますます人気が高まっています。
以前の取り組みは、主にLLMSの強力な推論能力を活用してタスク計画のパフォーマンスを強化することに焦点を当てており、LLMSへの繰り返しクエリのためにタスク計画の効率と実行可能性を見落とすことがよくありました。
このペーパーでは、LLMSとタスク計画システム間の相乗効果に対処し、計画の有効性を高めながら冗長性を最小限に抑えることを目指しています。
具体的には、Prog-PromptとTree-Plannerの高レベルの概念に基づいて、投票Tree-Plannerを提案します。
このサンプリング戦略は、投票を利用して、意思決定プロセス中に計画のトラバーサルを導きます。
私たちのアプローチは、単純な観察によって動機付けられています。意思決定中にエージェントに重みを割り当てることで、実行前に重要なパスの評価が可能になります。
この単純な投票ツリー構造により、この方法は成功率をさらに改善し、LLMSのクエリの数を減らします。
実験結果は、投票ツリープランナーがより大きな安定性を示し、以前のベースライン方法と比較して目に見えないデータセットでの平均成功率と目標条件のリコールを示していることを強調しています。
これらの調査結果は、LLMベースの計画システムの計画の正確性、信頼性、効率性を高めるための投票ツリープランナーの可能性を強調しています。

要約(オリジナル)

Integrating large language models (LLMs) into closed-loop robotic task planning has become increasingly popular within embodied artificial intelligence. Previous efforts mainly focused on leveraging the strong reasoning abilities of LLMs to enhance task planning performance while often overlooking task planning efficiency and executability due to repetitive queries to LLMs. This paper addresses the synergy between LLMs and task planning systems, aiming to minimize redundancy while enhancing planning effectiveness. Specifically, building upon Prog-Prompt and the high-level concept of Tree-Planner, we propose Vote-Tree-Planner. This sampling strategy utilizes votes to guide plan traversal during the decision-making process. Our approach is motivated by a straightforward observation: assigning weights to agents during decision-making enables the evaluation of critical paths before execution. With this simple vote-tree construction, our method further improves the success rate and reduces the number of queries to LLMs. The experimental results highlight that our Vote-Tree-Planner demonstrates greater stability and shows a higher average success rate and goal condition recall on the unseen dataset compared with previous baseline methods. These findings underscore the potential of the Vote-Tree-Planner to enhance planning accuracy, reliability, and efficiency in LLM-based planning systems.

arxiv情報

著者 Chaoyuan Zhang,Zhaowei Li,Wentao Yuan
発行日 2025-02-13 20:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Vote-Tree-Planner: Optimizing Execution Order in LLM-based Task Planning Pipeline via Voting はコメントを受け付けていません

FRTree Planner: Robot Navigation in Cluttered and Unknown Environments with Tree of Free Regions

要約

この作業では、狭い通路を持つ散らかった未知の環境でナビゲーション用に設計された自由領域のツリー構造を活用する新しいロボットナビゲーションフレームワークであるFrtree Plannerを提示します。
このフレームワークは、リアルタイムの知覚情報を継続的に組み込んで、異なるナビゲーションオプションを識別し、ツリーを探索可能で横断可能な方向に動的に拡張します。
この動的に構築されたツリーは、衝突のない空間の幾何学的およびトポロジ情報を徐々にエンコードし、中間目標の効率的な選択を可能にし、行き止まりの状況をナビゲートし、以前のマップなしで動的障害を回避します。
重要なことに、私たちの方法は、オンライン再生中に自由領域とロボット間の幾何学的関係の包括的な分析を実行します。
特に、プランナーは、ロボットのジオメトリに基づいて候補パッセージのアクセシビリティを評価し、アクセス可能な狭いパッセージを通じて最も実行可能な中間目標の効果的な選択を促進し、不要な迂回を最小限に抑えます。
自由な地域情報を特定の幾何学を備えたロボットに合わせたバイレベルの軌道最適化と組み合わせることにより、閉じ込められたスペースで堅牢で適応性のある障害物回避戦略を生成します。
広範なシミュレーションと現実世界の実験を通じて、Frtreeは、狭いギャップを備えた高度に乱雑で未知の地形を通じて、安全で効率的なモーションプランを生成する際のベンチマーク方法よりも優位性を示しています。

要約(オリジナル)

In this work, we present FRTree planner, a novel robot navigation framework that leverages a tree structure of free regions, specifically designed for navigation in cluttered and unknown environments with narrow passages. The framework continuously incorporates real-time perceptive information to identify distinct navigation options and dynamically expands the tree toward explorable and traversable directions. This dynamically constructed tree incrementally encodes the geometric and topological information of the collision-free space, enabling efficient selection of the intermediate goals, navigating around dead-end situations, and avoidance of dynamic obstacles without a prior map. Crucially, our method performs a comprehensive analysis of the geometric relationship between free regions and the robot during online replanning. In particular, the planner assesses the accessibility of candidate passages based on the robot’s geometries, facilitating the effective selection of the most viable intermediate goals through accessible narrow passages while minimizing unnecessary detours. By combining the free region information with a bi-level trajectory optimization tailored for robots with specific geometries, our approach generates robust and adaptable obstacle avoidance strategies in confined spaces. Through extensive simulations and real-world experiments, FRTree demonstrates its superiority over benchmark methods in generating safe, efficient motion plans through highly cluttered and unknown terrains with narrow gaps.

arxiv情報

著者 Yulin Li,Zhicheng Song,Chunxin Zheng,Zhihai Bi,Kai Chen,Michael Yu Wang,Jun Ma
発行日 2025-02-13 20:42:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | FRTree Planner: Robot Navigation in Cluttered and Unknown Environments with Tree of Free Regions はコメントを受け付けていません

Adaptive Teaming in Multi-Drone Pursuit: Simulation, Training, and Deployment

要約

適応的なチームは、事前の調整なしに目に見えないチームメイトと協力する能力であり、マルチロボットコラボレーションにおける露出不足の課題のままです。
このペーパーでは、マルチドローン協同組合の適応チーム化に焦点を当てています。これは、国境監視、捜索救助、テロ対策などの現実世界のアプリケーションを伴う重要なタスクです。
最初に\ textbf {a}ダプティブチームを\ textbf {m} ulti- \ textbf {d} rone \ textbf {p} ursuit(at-mdp)問題で定義し、形式化し、AT-MDPフレームワークを紹介します。
シミュレーション、アルゴリズムトレーニング、実世界の展開を統合します。
AT-MDPフレームワークは、シミュレーション用の柔軟な実験構成とインターフェイス、広範なアルゴリズム動物園(2つの新たに提案されたベースラインメソッドを含む)を備えた分散トレーニングフレームワーク、および適応型チームを評価するための目に見えないドローン動物園を提供し、実際の展開システムと同様に、目に見えないドローン動物園を提供します。
エッジコンピューティングとクレイジーフリードローンを利用します。
私たちの知る限り、AT-MDPフレームワークは、複雑な実世界のドローンタスクにおける継続的なアクションの意思決定のための最初の適応フレームワークであり、複数のドローンが目に見えないチームメイトと効果的に調整できるようにします。
増加する困難の4つのマルチドローン追跡環境での広範な実験は、AT-MDPフレームワークの有効性を確認しますが、実際の展開は物理システムでの実現可能性をさらに検証します。
ビデオとコードはhttps://sites.google.com/view/at-mdpで入手できます。

要約(オリジナル)

Adaptive teaming, the ability to collaborate with unseen teammates without prior coordination, remains an underexplored challenge in multi-robot collaboration. This paper focuses on adaptive teaming in multi-drone cooperative pursuit, a critical task with real-world applications such as border surveillance, search-and-rescue, and counter-terrorism. We first define and formalize the \textbf{A}daptive Teaming in \textbf{M}ulti-\textbf{D}rone \textbf{P}ursuit (AT-MDP) problem and introduce AT-MDP framework, a comprehensive framework that integrates simulation, algorithm training and real-world deployment. AT-MDP framework provides a flexible experiment configurator and interface for simulation, a distributed training framework with an extensive algorithm zoo (including two newly proposed baseline methods) and an unseen drone zoo for evaluating adaptive teaming, as well as a real-world deployment system that utilizes edge computing and Crazyflie drones. To the best of our knowledge, AT-MDP framework is the first adaptive framework for continuous-action decision-making in complex real-world drone tasks, enabling multiple drones to coordinate effectively with unseen teammates. Extensive experiments in four multi-drone pursuit environments of increasing difficulty confirm the effectiveness of AT-MDP framework, while real-world deployments further validate its feasibility in physical systems. Videos and code are available at https://sites.google.com/view/at-mdp.

arxiv情報

著者 Yang Li,Junfan Chen,Feng Xue,Jiabin Qiu,Wenbin Li,Qingrui Zhang,Ying Wen,Wei Pan
発行日 2025-02-13 20:45:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Adaptive Teaming in Multi-Drone Pursuit: Simulation, Training, and Deployment はコメントを受け付けていません