Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces

要約

Lidar odometryは、3Dマッピング、ナビゲーション、同時ローカリゼーションとマッピングなど、多くのロボットアプリケーションに不可欠です。
Lidar odometryシステムは通常、モバイルロボットのエゴモーションを計算するための何らかの形のポイントクラウド登録に基づいています。
しかし、ポイントクラウドのアラインメント中に、今日のLidar odometryシステムのほとんどは、ドメイン固有の知識またはモバイルプラットフォームの運動モデルを考慮しています。
このホワイトペーパーでは、3Dライダーを装備し、平面表面を装備した車輪付きモバイルロボットに焦点を当てたLidar odometryシステムである運動学ICPを紹介します。これは、倉庫、オフィス、病院などの一般的な仮定です。
従来のポイントツーポイント反復的な最も近いポイントスキームの最適化内の制約。
このようにして、結果として生じる動きは、プラットフォームの運動学的制約に従い、ロボットのホイール臭気と3Dライダー観測を効果的に活用します。
最適化スキームにおけるLidar測定とホイール臭トメリトリーの影響を動的に調整し、システムが機能型の廊下などの縮退シナリオを処理できるようにします。
大規模な倉庫環境で動作するロボットに関するアプローチを評価しますが、屋外でも評価します。
この実験は、私たちのアプローチがトップパフォーマンスを達成し、ホイール臭トメトリーや一般的なLidar臭気システムよりも正確であることを示しています。
Kinematic-ICPは、最近、顧客のサイトで世界中の倉庫で動作するロボットのデキソリー艦隊に展開されており、完全なナビゲーションスタックとともにこの方法が現実の世界で実行できることを示しています。

要約(オリジナル)

LiDAR odometry is essential for many robotics applications, including 3D mapping, navigation, and simultaneous localization and mapping. LiDAR odometry systems are usually based on some form of point cloud registration to compute the ego-motion of a mobile robot. Yet, few of today’s LiDAR odometry systems consider domain-specific knowledge or the kinematic model of the mobile platform during the point cloud alignment. In this paper, we present Kinematic-ICP, a LiDAR odometry system that focuses on wheeled mobile robots equipped with a 3D LiDAR and moving on a planar surface, which is a common assumption for warehouses, offices, hospitals, etc. Our approach introduces kinematic constraints within the optimization of a traditional point-to-point iterative closest point scheme. In this way, the resulting motion follows the kinematic constraints of the platform, effectively exploiting the robot’s wheel odometry and the 3D LiDAR observations. We dynamically adjust the influence of LiDAR measurements and wheel odometry in our optimization scheme, allowing the system to handle degenerate scenarios such as feature-poor corridors. We evaluate our approach on robots operating in large-scale warehouse environments, but also outdoors. The experiments show that our approach achieves top performances and is more accurate than wheel odometry and common LiDAR odometry systems. Kinematic-ICP has been recently deployed in the Dexory fleet of robots operating in warehouses worldwide at their customers’ sites, showing that our method can run in the real world alongside a complete navigation stack.

arxiv情報

著者 Tiziano Guadagnino,Benedikt Mersch,Ignacio Vizzo,Saurabh Gupta,Meher V. R. Malladi,Luca Lobefaro,Guillaume Doisy,Cyrill Stachniss
発行日 2025-02-10 16:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Kinematic-ICP: Enhancing LiDAR Odometry with Kinematic Constraints for Wheeled Mobile Robots Moving on Planar Surfaces はコメントを受け付けていません

Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images

要約

拡散モデル(DMS)やビジョン自動回帰モデル(VAR)などの最先端の視覚生成モデルは、非常に現実的な画像を生成します。
以前の作業は、視覚ドメインの仕事に安全ではない(NSFW)コンテンツを緩和しましたが、新しい脅威を特定します。画像に組み込まれたNSFWテキストの生成です。
これには、in辱、人種的中傷、性的に明示的な用語などの攻撃的な言語が含まれ、ユーザーに重大なリスクをもたらします。
すべての最先端のDMS(例:SD3、Flux、Deepfloyd IF)とVAR(例えば、無限)がこの問題に対して脆弱であることを示します。
広範な実験を通じて、視覚コンテンツに効果的な既存の緩和手法は、有害なテキスト生成を防ぎながら、良性のテキスト生成を実質的に分解しないことを実証します。
この脅威に対処するための最初のステップとして、カスタマイズされたデータセットを使用して、主要なDMアーキテクチャの基礎となるテキストエンコーダーの安全性微調整を検討します。
これにより、全体的な画像とテキスト生成の品質を維持しながら、NSFWの生成を抑制します。
最後に、この分野での研究を進めるために、画像のNSFWテキスト生成を評価するためのオープンソースベンチマークであるToxicBenchを紹介します。
ToxicBenchは、有害なプロンプト、新しいメトリック、およびNSFW性と生成品質の両方を評価する評価パイプラインのキュレーションされたデータセットを提供します。
私たちのベンチマークは、テキストから画像モデルのNSFWテキスト生成を緩和する際の将来の努力を導くことを目的としています。

要約(オリジナル)

State-of-the-art visual generation models, such as Diffusion Models (DMs) and Vision Auto-Regressive Models (VARs), produce highly realistic images. While prior work has successfully mitigated Not Safe For Work (NSFW) content in the visual domain, we identify a novel threat: the generation of NSFW text embedded within images. This includes offensive language, such as insults, racial slurs, and sexually explicit terms, posing significant risks to users. We show that all state-of-the-art DMs (e.g., SD3, Flux, DeepFloyd IF) and VARs (e.g., Infinity) are vulnerable to this issue. Through extensive experiments, we demonstrate that existing mitigation techniques, effective for visual content, fail to prevent harmful text generation while substantially degrading benign text generation. As an initial step toward addressing this threat, we explore safety fine-tuning of the text encoder underlying major DM architectures using a customized dataset. Thereby, we suppress NSFW generation while preserving overall image and text generation quality. Finally, to advance research in this area, we introduce ToxicBench, an open-source benchmark for evaluating NSFW text generation in images. ToxicBench provides a curated dataset of harmful prompts, new metrics, and an evaluation pipeline assessing both NSFW-ness and generation quality. Our benchmark aims to guide future efforts in mitigating NSFW text generation in text-to-image models.

arxiv情報

著者 Aditya Kumar,Tom Blanchard,Adam Dziedzic,Franziska Boenisch
発行日 2025-02-10 14:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Beautiful Images, Toxic Words: Understanding and Addressing Offensive Text in Generated Images はコメントを受け付けていません

STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion

要約

ヒューマノイドロボットは、人工知能に大きな課題を提示し、高度の高度化システムの正確な調整と制御を必要とします。
このドメインにおける深い強化学習(DRL)の効果的な報酬機能の設計は、依然として重要なボトルネックであり、広範な手動の努力、ドメインの専門知識、反復改良を要求しています。
これらの課題を克服するために、Humanoid Robot Mocomotionタスクの報酬設計、DRLトレーニング、フィードバックの最適化を自動化するために、エージェントエンジニアリングに基づいた新しいフレームワークであるStrideを紹介します。
エージェントエンジニアリングの構造化された原理を、コードライティング、ゼロショット生成、およびコンテキスト内最適化のための大規模な言語モデル(LLMS)と組み合わせることにより、ストライドは、タスク固有のプロンプトやテンプレートに頼らずに報酬機能を生成、評価、および繰り返し洗練します。

ヒューマノイドロボットの形態を特徴とする多様な環境にわたって、Strideは最先端の報酬設計フレームワークEurekaを上回り、効率とタスクのパフォーマンスの大幅な改善を達成します。
ストライド生成の報酬を使用して、シミュレートされたヒューマノイドロボットは、複雑な地形でスプリントレベルの移動を実現し、DRLワークフローとヒューマノイドロボット研究を進める能力を強調します。

要約(オリジナル)

Humanoid robotics presents significant challenges in artificial intelligence, requiring precise coordination and control of high-degree-of-freedom systems. Designing effective reward functions for deep reinforcement learning (DRL) in this domain remains a critical bottleneck, demanding extensive manual effort, domain expertise, and iterative refinement. To overcome these challenges, we introduce STRIDE, a novel framework built on agentic engineering to automate reward design, DRL training, and feedback optimization for humanoid robot locomotion tasks. By combining the structured principles of agentic engineering with large language models (LLMs) for code-writing, zero-shot generation, and in-context optimization, STRIDE generates, evaluates, and iteratively refines reward functions without relying on task-specific prompts or templates. Across diverse environments featuring humanoid robot morphologies, STRIDE outperforms the state-of-the-art reward design framework EUREKA, achieving significant improvements in efficiency and task performance. Using STRIDE-generated rewards, simulated humanoid robots achieve sprint-level locomotion across complex terrains, highlighting its ability to advance DRL workflows and humanoid robotics research.

arxiv情報

著者 Zhenwei Wu,Jinxiong Lu,Yuxiao Chen,Yunxin Liu,Yueting Zhuang,Luhui Hu
発行日 2025-02-10 13:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | STRIDE: Automating Reward Design, Deep Reinforcement Learning Training and Feedback Optimization in Humanoid Robotics Locomotion はコメントを受け付けていません

Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems

要約

この研究では、大規模な言語モデル(LLM)を使用してタスク指向のダイアログシステムを開発するための構造化されたプロンプトエンジニアリングフレームワークである会話ルーチン(CR)を紹介します。
LLMは顕著な自然言語理解能力を示していますが、複雑なビジネスワークフローを確実に実行するためにそれらを設計することは依然として困難です。
提案されたCRフレームワークにより、自然言語仕様を通じて会話エージェントシステム(CAS)の開発が可能になり、LLMプロンプトにタスク指向のロジックを埋め込みます。
このアプローチは、行動の一貫性を維持しながら、複雑な会話ワークフローを設計および実装するための体系的な方法論を提供します。
2つの概念実装の実装を通じてフレームワークの有効性を実証します:列車のチケット予約システムとインタラクティブなトラブルシューティングカピロー。
これらのケーススタディは、自然な会話の柔軟性を維持しながら、洗練された行動パターンと決定論理をエンコードするCRの能力を検証します。
結果は、CRがソフトウェアエンジニアによって開発されたカスタム関数(ツール)を活用しながら、ドメインの専門家が自然言語で会話のワークフローを設計できることを示しており、開発者がコアAPI実装に焦点を当て、ドメインの専門家が会話のデザインを処理する効率的な責任の分割を作成します。
フレームワークはアクセシビリティと適応性の有望を示していますが、計算オーバーヘッド、非決定論的行動、ドメイン固有のロジック最適化などの重要な課題を特定します。
将来の研究の方向性には、目標指向のグレーディング基準によって駆動される迅速なエンジニアリングフレームワークに基づくCR評価方法、複雑なマルチエージェント相互作用のスケーラビリティの向上、および多様なビジネスアプリケーション全体の特定された制限に対処するためのシステムの堅牢性の向上が含まれます。

要約(オリジナル)

This study introduces Conversation Routines (CR), a structured prompt engineering framework for developing task-oriented dialog systems using Large Language Models (LLMs). While LLMs demonstrate remarkable natural language understanding capabilities, engineering them to reliably execute complex business workflows remains challenging. The proposed CR framework enables the development of Conversation Agentic Systems (CAS) through natural language specifications, embedding task-oriented logic within LLM prompts. This approach provides a systematic methodology for designing and implementing complex conversational workflows while maintaining behavioral consistency. We demonstrate the framework’s effectiveness through two proof-of-concept implementations: a Train Ticket Booking System and an Interactive Troubleshooting Copilot. These case studies validate CR’s capability to encode sophisticated behavioral patterns and decision logic while preserving natural conversational flexibility. Results show that CR enables domain experts to design conversational workflows in natural language while leveraging custom functions (tools) developed by software engineers, creating an efficient division of responsibilities where developers focus on core API implementation and domain experts handle conversation design. While the framework shows promise in accessibility and adaptability, we identify key challenges including computational overhead, non-deterministic behavior, and domain-specific logic optimization. Future research directions include CR evaluation methods based on prompt engineering frameworks driven by goal-oriented grading criteria, improving scalability for complex multi-agent interactions, and enhancing system robustness to address the identified limitations across diverse business applications.

arxiv情報

著者 Giorgio Robino
発行日 2025-02-10 12:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET, cs.HC, cs.PL | Conversation Routines: A Prompt Engineering Framework for Task-Oriented Dialog Systems はコメントを受け付けていません

ELITE: Enhanced Language-Image Toxicity Evaluation for Safety

要約

現在のビジョン言語モデル(VLM)は、有害な出力を誘導する悪意のあるプロンプトに対して脆弱なままです。
VLMの既存の安全ベンチマークは主に自動化された評価方法に依存していますが、これらの方法は暗黙の有害なコンテンツを検出したり、不正確な評価を生成するのに苦労しています。
したがって、既存のベンチマークには、有害レベルが低く、あいまいなデータ、および画像テキストペアの組み合わせにおける多様性が限られていることがわかりました。
これらの問題に対処するために、VLMSの高品質の安全評価ベンチマークであるElite Benchmarkを提案します。
エリート評価者は、マルチモーダルのコンテキストでの有害性を正確に評価するために毒性スコアを明示的に組み込みます。ここでは、VLMは多くの場合、特定の説得力のある、しかし無駄のない画像の説明を提供します。
エリート評価者を使用して、既存のベンチマークから曖昧で低品質の画像テキストペアを除外し、安全で安全でない画像テキストペアの多様な組み合わせを生成します。
私たちの実験は、エリート評価者が以前の自動化された方法と比較して人間の評価と優れた整合性を達成することを示しており、エリートベンチマークはベンチマークの品質と多様性の向上を提供することを示しています。
エリートを紹介することで、より安全で堅牢なVLMSへの道を開き、実際のアプリケーションで安全リスクを評価および緩和するための重要なツールを提供します。

要約(オリジナル)

Current Vision Language Models (VLMs) remain vulnerable to malicious prompts that induce harmful outputs. Existing safety benchmarks for VLMs primarily rely on automated evaluation methods, but these methods struggle to detect implicit harmful content or produce inaccurate evaluations. Therefore, we found that existing benchmarks have low levels of harmfulness, ambiguous data, and limited diversity in image-text pair combinations. To address these issues, we propose the ELITE benchmark, a high-quality safety evaluation benchmark for VLMs, underpinned by our enhanced evaluation method, the ELITE evaluator. The ELITE evaluator explicitly incorporates a toxicity score to accurately assess harmfulness in multimodal contexts, where VLMs often provide specific, convincing, but unharmful descriptions of images. We filter out ambiguous and low-quality image-text pairs from existing benchmarks using the ELITE evaluator and generate diverse combinations of safe and unsafe image-text pairs. Our experiments demonstrate that the ELITE evaluator achieves superior alignment with human evaluations compared to prior automated methods, and the ELITE benchmark offers enhanced benchmark quality and diversity. By introducing ELITE, we pave the way for safer, more robust VLMs, contributing essential tools for evaluating and mitigating safety risks in real-world applications.

arxiv情報

著者 Wonjun Lee,Doehyeon Lee,Eugene Choi,Sangyoon Yu,Ashkan Yousefpour,Haon Park,Bumsub Ham,Suhyun Kim
発行日 2025-02-10 04:39:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | ELITE: Enhanced Language-Image Toxicity Evaluation for Safety はコメントを受け付けていません

LemmaHead: RAG Assisted Proof Generation Using Large Language Models

要約

数学的な問題を解決したり数学的証拠を書いたりするために必要なロジックを開発することは、大規模な言語モデル(LLM)にとってより困難な目的の1つです。
現在、文献で最も人気のある方法は、モデルが数学的執筆のスタイルをエミュレートすることを学ぶことができるように、アカデミック出版物や教科書などの書面による数学的コンテンツのモデルを微調整することで構成されています。
このプロジェクトでは、LLMSの数学的推論のギャップに対処するために検索拡張生成(RAG)を使用することの有効性を調査します。
公開された教科書のコンテキストに特に焦点を当てて、関連する数学的コンテキストでモデルに質問を補足するぼろきれの知識ベースであるLemmaheadを開発します。
数学的推論におけるモデルのパフォーマンスを測定するために、テストパラダイムは、無駄のない正式な言語での特定の数学的主張への証明を生成することで証明する自動定理のタスクに焦点を当てています。

要約(オリジナル)

Developing the logic necessary to solve mathematical problems or write mathematical proofs is one of the more difficult objectives for large language models (LLMS). Currently, the most popular methods in literature consists of fine-tuning the model on written mathematical content such as academic publications and textbooks, so that the model can learn to emulate the style of mathematical writing. In this project, we explore the effectiveness of using retrieval augmented generation (RAG) to address gaps in the mathematical reasoning of LLMs. We develop LemmaHead, a RAG knowledge base that supplements queries to the model with relevant mathematical context, with particular focus on context from published textbooks. To measure our model’s performance in mathematical reasoning, our testing paradigm focuses on the task of automated theorem proving via generating proofs to a given mathematical claim in the Lean formal language.

arxiv情報

著者 Tianbo Yang,Mingqi Yan,Hongyi Zhao,Tianshuo Yang
発行日 2025-02-10 05:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | LemmaHead: RAG Assisted Proof Generation Using Large Language Models はコメントを受け付けていません

Kronecker Mask and Interpretive Prompts are Language-Action Video Learners

要約

対照的な言語イメージの事前削除(CLIP)には、画像ベースのビジョン学習が大幅に進歩しています。
その後、プレストピックが発生します。クリップをビデオドメインに効果的に適応させるにはどうすればよいですか?
最近の研究では、アクション認識のためにクリップのテキストまたは視覚的ブランチのいずれかを調整することに焦点を当てています。
ただし、両方のブランチの適応が非常に重要であると主張しています。
この論文では、\ textbf {claver}:a \ textbf {c} ontrastive \ textbf {l} anguage- \ textbf {a} ction \ textbfを提案します。
静的視覚オブジェクトとコンクリート名詞のアライメントから、動的アクション動作と抽象動詞のアライメントまで。
具体的には、時間モデリングのために新しいKroneckerマスクの注意を紹介します。
私たちのテーラードクロネッカーマスクは3つの利点を提供します1)各トークンの時間的受容フィールドを拡張します。
モデル。
テキストブランチに関しては、大規模な言語モデルを活用して、多様な文レベルで意味的に豊富なアクションプロンプトを生成し、モデルの焦点を動詞理解にシフトします。
さまざまなベンチマークや学習シナリオでの広範な実験は、アプローチの優位性と一般性を示しています。

要約(オリジナル)

Contrastive language-image pretraining (CLIP) has significantly advanced image-based vision learning. A pressing topic subsequently arises: how can we effectively adapt CLIP to the video domain? Recent studies have focused on adjusting either the textual or visual branch of CLIP for action recognition. However, we argue that adaptations of both branches are crucial. In this paper, we propose \textbf{CLAVER}: a \textbf{C}ontrastive \textbf{L}anguage-\textbf{A}ction \textbf{V}ideo Learn\textbf{er}, designed to shift CLIP’s focus from the alignment of static visual objects and concrete nouns to the alignment of dynamic action behaviors and abstract verbs. Specifically, we introduce a novel Kronecker mask attention for temporal modeling. Our tailored Kronecker mask offers three benefits 1) it expands the temporal receptive field for each token, 2) it serves as an effective spatiotemporal heterogeneity inductive bias, mitigating the issue of spatiotemporal homogenization, and 3) it can be seamlessly plugged into transformer-based models. Regarding the textual branch, we leverage large language models to generate diverse, sentence-level and semantically rich interpretive prompts of actions, which shift the model’s focus towards the verb comprehension. Extensive experiments on various benchmarks and learning scenarios demonstrate the superiority and generality of our approach.

arxiv情報

著者 Jingyi Yang,Zitong Yu,Xiuming Ni,Jia He,Hui Li
発行日 2025-02-10 03:28:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Kronecker Mask and Interpretive Prompts are Language-Action Video Learners はコメントを受け付けていません

Multi-Robot Scan-n-Print for Wire Arc Additive Manufacturing

要約

ロボットワイヤーアーク添加剤造形(WAAM)は金属添加剤の製造技術であり、高品質のネットシェイプファイナルパーツを確保しながら、柔軟な3Dプリントを提供します。
ただし、WAAMは、特にアルミニウム合金などの低融点金属の場合、幾何学的な不正確さもあります。
この論文では、WAAMプロセスの監視と制御のためのマルチロボットフレームワークを紹介します。
3ロボットのセットアップを検討します。6-DOF溶接ロボット、2ドーフトラニオンプラットフォーム、および印刷された部品の高さプロファイルを測定する手首に取り付けられたレーザーラインスキャナーを備えた6ドフセンシングロボットです。
ワイヤフィードレートを含む溶接パラメーターは、使用される材料に基づいて一定に保持されるため、制御入力はロボットパス速度です。
測定された出力は、部品高さプロファイルです。
計画フェーズは、ターゲット形状を均一な高さのスライスに分解します。
ランタイム中、センシングロボットは各印刷レイヤーをスキャンし、次のレイヤーのロボットパス速度は、目的のプロファイルからの偏差に基づいて調整されます。
調整は、パス速度を高さの変化に相関させる識別されたモデルに基づいています。
コントロールアーキテクチャは、すべてのロボットとセンサー間の同期モーションとデータ収集を調整します。
3ロボットWAAMテストベッドを使用して、平らな壁とより複雑なタービンブレード形状の両方で、現在のオープンループ結果にわたって閉ループスキャン-N-Printアプローチの大幅な改善を示します。

要約(オリジナル)

Robotic Wire Arc Additive Manufacturing (WAAM) is a metal additive manufacturing technology, offering flexible 3D printing while ensuring high quality near-net-shape final parts. However, WAAM also suffers from geometric imprecision, especially for low-melting-point metal such as aluminum alloys. In this paper, we present a multi-robot framework for WAAM process monitoring and control. We consider a three-robot setup: a 6-dof welding robot, a 2-dof trunnion platform, and a 6-dof sensing robot with a wrist-mounted laser line scanner measuring the printed part height profile. The welding parameters, including the wire feed rate, are held constant based on the materials used, so the control input is the robot path speed. The measured output is the part height profile. The planning phase decomposes the target shape into slices of uniform height. During runtime, the sensing robot scans each printed layer, and the robot path speed for the next layer is adjusted based on the deviation from the desired profile. The adjustment is based on an identified model correlating the path speed to change in height. The control architecture coordinates the synchronous motion and data acquisition between all robots and sensors. Using a three-robot WAAM testbed, we demonstrate significant improvements of the closed loop scan-n-print approach over the current open loop result on both a flat wall and a more complex turbine blade shape.

arxiv情報

著者 Chen-Lung Lu,Honglu He,Jinhan Ren,Joni Dhar,Glenn Saunders,Agung Julius,Johnson Samuel,John T. Wen
発行日 2025-02-06 19:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Multi-Robot Scan-n-Print for Wire Arc Additive Manufacturing はコメントを受け付けていません

Efficient variable-length hanging tether parameterization for marsupial robot planning in 3D environments

要約

この論文では、有袋類の構成でUAVに結び付けられたUGVの軌跡計画のためのぶら下げテザーの状態を効率的にパラメーター化および推定するための新しいアプローチを提示します。
最先端のほとんどの実装は、緊張したテザーを想定しているか、カテナリー曲線を使用して吊り下げテザーの形状をモデル化します。
カテナリーモデルは計算するのが複雑であり、計画プロセス中に何千回もインスタンス化する必要があり、時間のかかるタスクになり、緊張したテザーの仮定は問題を簡素化しますが、プラットフォームの動きを過度に制限する可能性があります。
計画プロセスを加速するために、このホワイトペーパーでは、吊り下げテザー状態を効率的に計算するための分析モデルを定義することと、衝突のないテザー状態のパラメーター化を取得する方法を提案します。
テザー状態の分析的表現を導き出すために、カテナリーと放物線の曲線の既存の類似性を活用します。

要約(オリジナル)

This paper presents a novel approach to efficiently parameterize and estimate the state of a hanging tether for path and trajectory planning of a UGV tied to a UAV in a marsupial configuration. Most implementations in the state of the art assume a taut tether or make use of the catenary curve to model the shape of the hanging tether. The catenary model is complex to compute and must be instantiated thousands of times during the planning process, becoming a time-consuming task, while the taut tether assumption simplifies the problem, but might overly restrict the movement of the platforms. In order to accelerate the planning process, this paper proposes defining an analytical model to efficiently compute the hanging tether state, and a method to get a tether state parameterization free of collisions. We exploit the existing similarity between the catenary and parabola curves to derive analytical expressions of the tether state.

arxiv情報

著者 S. Martínez-Rozas,D. Alejo,F. Caballero,L. Merino,M. A. Pérez-Cutiño,F. Rodriguez,V. Sánchez-Canales,I. Ventura,J. M. Díaz-Bañez
発行日 2025-02-06 19:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Efficient variable-length hanging tether parameterization for marsupial robot planning in 3D environments はコメントを受け付けていません

AnyPlace: Learning Generalized Object Placement for Robot Manipulation

要約

ロボットタスクのオブジェクト配置は、オブジェクトの形状と配置構成の多様性のために、本質的に困難です。
これに対処するために、私たちは、実際のタスクのための幅広い実行可能な配置ポーズを予測できる合成データで完全に訓練された2段階の方法である任意の場所を提案します。
私たちの重要な洞察は、ビジョン言語モデル(VLM)を活用して大まかな配置場所を特定することにより、ローカル配置の関連領域のみに焦点を当て、低レベルの配置ポーズ予測モデルをトレーニングして多様なものをキャプチャできることです。
効率的に配置。
トレーニングのために、さまざまな配置構成(挿入、スタッキング、ハンギング)でランダムに生成されたオブジェクトの完全な合成データセットを生成し、ローカル配置予測モデルをトレーニングします。
私たちは、シミュレーションで広範な評価を実施し、私たちの方法が成功率、可能な配置モードのカバレッジ、および精度の観点からベースラインよりも優れていることを示しています。
現実世界の実験では、私たちのアプローチが純粋に合成データで訓練されたモデルを現実世界に直接転送する方法を示します。他のモデルが苦労しているシナリオの配置を成功裏に実行します。
細かい配置のための高精度。
詳細:https://any-place.github.io。

要約(オリジナル)

Object placement in robotic tasks is inherently challenging due to the diversity of object geometries and placement configurations. To address this, we propose AnyPlace, a two-stage method trained entirely on synthetic data, capable of predicting a wide range of feasible placement poses for real-world tasks. Our key insight is that by leveraging a Vision-Language Model (VLM) to identify rough placement locations, we focus only on the relevant regions for local placement, which enables us to train the low-level placement-pose-prediction model to capture diverse placements efficiently. For training, we generate a fully synthetic dataset of randomly generated objects in different placement configurations (insertion, stacking, hanging) and train local placement-prediction models. We conduct extensive evaluations in simulation, demonstrating that our method outperforms baselines in terms of success rate, coverage of possible placement modes, and precision. In real-world experiments, we show how our approach directly transfers models trained purely on synthetic data to the real world, where it successfully performs placements in scenarios where other models struggle — such as with varying object geometries, diverse placement modes, and achieving high precision for fine placement. More at: https://any-place.github.io.

arxiv情報

著者 Yuchi Zhao,Miroslav Bogdanovic,Chengyuan Luo,Steven Tohme,Kourosh Darvish,Alán Aspuru-Guzik,Florian Shkurti,Animesh Garg
発行日 2025-02-06 22:04:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | AnyPlace: Learning Generalized Object Placement for Robot Manipulation はコメントを受け付けていません