KV-Edit: Training-Free Image Editing for Precise Background Preservation

要約

背景の一貫性は、画像編集タスクにおける重要な課題のままです。
広範な開発にもかかわらず、既存の作品は、元の画像との類似性を維持することと、ターゲットと一致するコンテンツを生成することとのトレードオフに直面しています。
ここでは、KV-Editを提案します。KV-Editは、KVキャッシュをDITで使用してバックグラウンドの一貫性を維持するトレーニングなしのアプローチを提案します。バックグラウンドトークンが再生されるのではなく保存され、複雑なメカニズムや高価なトレーニングの必要性を排除し、最終的にシームレスに統合する新しいコンテンツを生成することを提案します。
バックグラウンドがユーザーが提供する領域内。
さらに、編集中のKVキャッシュのメモリ消費を調査し、逆転のない方法を使用してスペースの複雑さを$ O(1)$に最適化します。
私たちのアプローチは、追加のトレーニングなしで、DITベースの生成モデルと互換性があります。
実験は、KV-EDITが、背景と画質の両方の点で既存のアプローチを大幅に上回ることを示しています。
プロジェクトWebページは、https://xilluill.github.io/projectpages/kv-editで入手できます

要約(オリジナル)

Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to $O(1)$ using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

arxiv情報

著者 Tianrui Zhu,Shiyi Zhang,Jiawei Shao,Yansong Tang
発行日 2025-02-25 09:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KV-Edit: Training-Free Image Editing for Precise Background Preservation はコメントを受け付けていません

KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

要約

KVキャッシュの量子化は、LLMSの有効性を維持しながら、長いコンテキストと大規模なバッチサイズのシナリオで、大規模な言語モデル(LLMS)推論のスループットとレイテンシを改善できます。
ただし、現在の方法には、KVキャッシュの量子化に対するレイヤーごとの感受性、オンラインの微調整された意思決定の高いオーバーヘッド、さまざまなLLMSおよび制約に対する柔軟性が低いという3つの未解決の問題があります。
したがって、KVキャッシュ量子化エラーに対するレイヤーワイズトランスの注意パターンの固有の相関を徹底的に分析し、量子化エラー削減のための値キャッシュよりも重要なキャッシュが重要である理由を研究します。
さらに、単純なハードウェアにやさしいレイヤーワイズKV量子量化精度ペアを適応的に検索するためのシンプルでありながら効果的なフレームワークKVTunerを提案します。
オフラインキャリブレーションの計算コストを削減するために、レイヤー内KV精度ペアの剪定と層間クラスタリングを利用して、検索スペースを削減します。
実験結果は、LLAMA-3.1-8B-InstructなどのLLMのQWEN2.5-7B-intructのような高感度モデルの場合のLLMのほぼ損失のない3.25ビットの混合精度KVキャッシュ量子化を達成できることを示しています。
最大推論スループットは、さまざまなコンテキスト長にわたるKV8量子化と比較して38.3%改善できます。
コードと検索された構成は、https://github.com/cmd2001/kvtunerで入手できます。

要約(オリジナル)

KV cache quantization can improve Large Language Models (LLMs) inference throughput and latency in long contexts and large batch-size scenarios while preserving LLMs effectiveness. However, current methods have three unsolved issues: overlooking layer-wise sensitivity to KV cache quantization, high overhead of online fine-grained decision-making, and low flexibility to different LLMs and constraints. Therefore, we thoroughly analyze the inherent correlation of layer-wise transformer attention patterns to KV cache quantization errors and study why key cache is more important than value cache for quantization error reduction. We further propose a simple yet effective framework KVTuner to adaptively search for the optimal hardware-friendly layer-wise KV quantization precision pairs for coarse-grained KV cache with multi-objective optimization and directly utilize the offline searched configurations during online inference. To reduce the computational cost of offline calibration, we utilize the intra-layer KV precision pair pruning and inter-layer clustering to reduce the search space. Experimental results show that we can achieve nearly lossless 3.25-bit mixed precision KV cache quantization for LLMs like Llama-3.1-8B-Instruct and 4.0-bit for sensitive models like Qwen2.5-7B-Instruct on mathematical reasoning tasks. The maximum inference throughput can be improved by 38.3% compared with KV8 quantization over various context lengths. Our code and searched configurations are available at https://github.com/cmd2001/KVTuner.

arxiv情報

著者 Xing Li,Zeyu Xing,Yiming Li,Linping Qu,Hui-Ling Zhen,Wulong Liu,Yiwu Yao,Sinno Jialin Pan,Mingxuan Yuan
発行日 2025-02-25 03:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference はコメントを受け付けていません

Human2Robot: Learning Robot Actions from Paired Human-Robot Videos

要約

人間のデモから知識を蒸留することは、ロボットが学び、行動するための有望な方法です。
既存の作業はしばしば人間とロボットの違いを見落とし、不十分な結果を生み出します。
この論文では、人間とロボットのペアがロボット学習に完全に整合することを調べます。
VRベースのテレポーテーションを活用して、2,600エピソードを持つサードパーソンデータセットであるH \&Rを紹介します。
拡散モデルの最近の成功に触発されて、Human2robotを紹介します。これは、ヒトからの学習を生成タスクとして定式化するエンドツーエンドの拡散フレームワークです。
Human2robotは、ヒューマンビデオの時間的ダイナミクスを完全に調査して、ロボットビデオを生成し、同時にアクションを予測します。
現実世界の設定で見られ、変更された、目に見えない8つのタスクの包括的な評価を通じて、Human2robotは高品質のロボットビデオを生成できるだけでなく、見られたタスクで優れており、目に見えないオブジェクト、背景、さらには新しいタスクにも優れていることを実証します。

要約(オリジナル)

Distilling knowledge from human demonstrations is a promising way for robots to learn and act. Existing work often overlooks the differences between humans and robots, producing unsatisfactory results. In this paper, we study how perfectly aligned human-robot pairs benefit robot learning. Capitalizing on VR-based teleportation, we introduce H\&R, a third-person dataset with 2,600 episodes, each of which captures the fine-grained correspondence between human hands and robot gripper. Inspired by the recent success of diffusion models, we introduce Human2Robot, an end-to-end diffusion framework that formulates learning from human demonstrates as a generative task. Human2Robot fully explores temporal dynamics in human videos to generate robot videos and predict actions at the same time. Through comprehensive evaluations of 8 seen, changed and unseen tasks in real-world settings, we demonstrate that Human2Robot can not only generate high-quality robot videos but also excel in seen tasks and generalize to unseen objects, backgrounds and even new tasks effortlessly.

arxiv情報

著者 Sicheng Xie,Haidong Cao,Zejia Weng,Zhen Xing,Shiwei Shen,Jiaqi Leng,Xipeng Qiu,Yanwei Fu,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-02-23 14:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human2Robot: Learning Robot Actions from Paired Human-Robot Videos はコメントを受け付けていません

Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving

要約

車両からすべての技術(V2X)は、知覚範囲を拡張し、閉塞を通して見るための理想的なパラダイムになりました。
退場する努力は、単一フレームの協同組合の認識に焦点を当てていますが、計画タスクが依然として未定であっても予測タスクを容易にするために、V2Xを使用してフレーム間の時間的キューをキャプチャする方法です。
このホワイトペーパーでは、Co-MTPを紹介します。これは、自律運転の多重融合を備えた一般的な協同軌道予測フレームワークであり、V2Xシステムを活用して、歴史と将来のドメインの両方のエージェント間の相互作用を完全にキャプチャして計画に利益をもたらします。
歴史の領域では、V2Xは単一車両知覚における不完全な履歴軌道を補完することができ、複数のエージェントから歴史の特徴の融合を学び、歴史の相互作用を捉えるために、不均一なグラフ変圧器を設計します。
さらに、予測の目標は、将来の計画をサポートすることです。
したがって、将来のドメインでは、V2Xは周囲のオブジェクトの予測結果を提供でき、さらにグラフ変圧器を拡張して、エゴ計画と他の車両の意図間の将来の相互作用をキャプチャし、特定の計画の下で最終的な将来のシナリオ状態を取得します
アクション。
現実世界のデータセットV2X-SEQのCO-MTPフレームワークを評価し、結果はCO-MTPが最先端のパフォーマンスを達成し、歴史と将来の融合の両方が予測に大きな利益をもたらすことを示しています。

要約(オリジナル)

Vehicle-to-everything technologies (V2X) have become an ideal paradigm to extend the perception range and see through the occlusion. Exiting efforts focus on single-frame cooperative perception, however, how to capture the temporal cue between frames with V2X to facilitate the prediction task even the planning task is still underexplored. In this paper, we introduce the Co-MTP, a general cooperative trajectory prediction framework with multi-temporal fusion for autonomous driving, which leverages the V2X system to fully capture the interaction among agents in both history and future domains to benefit the planning. In the history domain, V2X can complement the incomplete history trajectory in single-vehicle perception, and we design a heterogeneous graph transformer to learn the fusion of the history feature from multiple agents and capture the history interaction. Moreover, the goal of prediction is to support future planning. Thus, in the future domain, V2X can provide the prediction results of surrounding objects, and we further extend the graph transformer to capture the future interaction among the ego planning and the other vehicles’ intentions and obtain the final future scenario state under a certain planning action. We evaluate the Co-MTP framework on the real-world dataset V2X-Seq, and the results show that Co-MTP achieves state-of-the-art performance and that both history and future fusion can greatly benefit prediction.

arxiv情報

著者 Xinyu Zhang,Zewei Zhou,Zhaoyi Wang,Yangjie Ji,Yanjun Huang,Hong Chen
発行日 2025-02-23 14:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, cs.RO, I.2.6 | Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving はコメントを受け付けていません

Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment

要約

単眼の視覚慣性臭気(VIO)は、センサースイートのサイズが小さいと低消費電力のおかげで、幅広いリアルタイムモーショントラッキングアプリケーションを促進しました。
Vioアルゴリズムをブートストラップするために、初期化モジュールは非常に重要です。
ほとんどの初期化方法は、3D視覚ポイント雲の再構築に依存しています。
状態ベクトルには運動状態と3D機能ポイントの両方が含まれるため、これらの方法は高い計算コストに悩まされています。
この問題に対処するために、一部の研究者は最近、3D構造を回復せずに初期状態を解決できる構造のない初期化方法を提案しました。
ただし、この方法は、回転と翻訳の推定が分離されているため、線形制約のためにパフォーマンスを潜在的に損なう可能性があります。
その精度を向上させるために、以前の構造のないソリューションをさらに改善するために、新しい構造のない視覚的介入バンドル調整を提案します。
現実世界のデータセットでの広範な実験は、リアルタイムのパフォーマンスを維持しながら、Vioの初期化の精度を大幅に改善することを示しています。

要約(オリジナル)

Monocular visual inertial odometry (VIO) has facilitated a wide range of real-time motion tracking applications, thanks to the small size of the sensor suite and low power consumption. To successfully bootstrap VIO algorithms, the initialization module is extremely important. Most initialization methods rely on the reconstruction of 3D visual point clouds. These methods suffer from high computational cost as state vector contains both motion states and 3D feature points. To address this issue, some researchers recently proposed a structureless initialization method, which can solve the initial state without recovering 3D structure. However, this method potentially compromises performance due to the decoupled estimation of rotation and translation, as well as linear constraints. To improve its accuracy, we propose novel structureless visual-inertial bundle adjustment to further refine previous structureless solution. Extensive experiments on real-world datasets show our method significantly improves the VIO initialization accuracy, while maintaining real-time performance.

arxiv情報

著者 Junlin Song,Antoine Richard,Miguel Olivares-Mendez
発行日 2025-02-23 14:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment はコメントを受け付けていません

MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence

要約

スケーラブルで一般化可能な物理学を対象としたディープラーニングは、ロボット工学から分子動力学に至るまで、さまざまなドメインを越えたさまざまなアプリケーションで重要な課題と考えられてきました。
ほとんどすべての物理システムの中心は、エネルギーや運動量などの基本的な不変剤を支える幾何学的なバックボーンであるシンプレクティック形式です。
この作業では、新しいディープラーニングアーキテクチャであるMetasymを紹介します。
特に、Metasymは、シンプレクティックエンコーダーから得られた強力なシンプレクティック誘導バイアスと、メタアテナントを備えた自己回帰デコーダーを組み合わせています。
この原則的な設計により、コアの物理的不変剤はそのままのままでありながら、システムの不均一性への柔軟でデータ効率の高い適応を可能にします。
高次元のスプリングメッシュシステム(Otness et al。、2021)、散逸と測定のバックアクセスを備えたオープン量子システム、ロボット工学にインスパイアされた象限ダイナミクスなど、高次元のスプリングメッシュシステム(Otness et al。、2021)など、高度に多様なデータセットにベンチマークします。
私たちの結果は、少数のショット適応の下でのモデリングダイナミクスの優れたパフォーマンスを示しており、はるかに大きなモデルを備えた最先端のベースラインを上回ります。

要約(オリジナル)

Scalable and generalizable physics-aware deep learning has long been considered a significant challenge with various applications across diverse domains ranging from robotics to molecular dynamics. Central to almost all physical systems are symplectic forms, the geometric backbone that underpins fundamental invariants like energy and momentum. In this work, we introduce a novel deep learning architecture, MetaSym. In particular, MetaSym combines a strong symplectic inductive bias obtained from a symplectic encoder and an autoregressive decoder with meta-attention. This principled design ensures that core physical invariants remain intact while allowing flexible, data-efficient adaptation to system heterogeneities. We benchmark MetaSym on highly varied datasets such as a high-dimensional spring mesh system (Otness et al., 2021), an open quantum system with dissipation and measurement backaction, and robotics-inspired quadrotor dynamics. Our results demonstrate superior performance in modeling dynamics under few-shot adaptation, outperforming state-of-the-art baselines with far larger models.

arxiv情報

著者 Pranav Vaidhyanathan,Aristotelis Papatheodorou,Mark T. Mitchison,Natalia Ares,Ioannis Havoutis
発行日 2025-02-23 17:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, physics.comp-ph, quant-ph | MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence はコメントを受け付けていません

Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning

要約

動的運動プリミティブ(DMP)は、参照モーションに基づいて適応を必要とするロボットタスクをエンコードするための確立された効率的な方法です。
通常、名目上の軌道は、デモンストレーション(PBD)によるプログラミングを通じて取得されます。ここでは、ロボットは運動感覚のガイダンスを介してタスクを学習し、幾何学的経路とタイミング法の両方の観点からそれを再現します。
標準のDMPでの実行期間を変更することは、モデルの時定数を調整することにより達成されます。
このペーパーでは、Spatial Samplingと呼ばれるアルゴリズムを使用して、その時間情報からタスクの幾何学的情報を完全に分離するための新しいアプローチを紹介します。
これは、幾何学DMP(GDMP)の定義につながります。
提案された空間サンプリングアルゴリズムは、実証された曲線の規則性を保証し、ループ内のシナリオでタスク全体に人間の力の一貫した投影を保証します。
GDMPは位相の独立性を示します。その位相変数は、デモンストレーションのタイミング法に制約されなくなり、位相最適化問題やループインザループアプリケーションなど、幅広いアプリケーションを可能にします。
第一に、速度と加速制約の対象となる最小タスク期間最適化問題が策定されます。
GDMPのパスと速度のデカップリングにより、制約に違反することなく最適な時間期間を達成できます。
第二に、GDMPは人間のループアプリケーションで検証されており、共操作タスクにおける理論的受動性分析と実験的安定性評価を提供します。
最後に、GDMPは、フェーズ最適化問題と実験的に挿入タスクを参照して、文献で利用可能な他のDMPアーキテクチャと比較され、他のソリューションに関するGDMPのパフォーマンスの強化を紹介します。

要約(オリジナル)

Dynamic Movement Primitives (DMP) are an established and efficient method for encoding robotic tasks that require adaptation based on reference motions. Typically, the nominal trajectory is obtained through Programming by Demonstration (PbD), where the robot learns a task via kinesthetic guidance and reproduces it in terms of both geometric path and timing law. Modifying the duration of the execution in standard DMPs is achieved by adjusting a time constant in the model. This paper introduces a novel approach to fully decouple the geometric information of a task from its temporal information using an algorithm called spatial sampling, which allows parameterizing the demonstrated curve by its arc-length. This leads to the definition of the Geometric DMP (GDMP). The proposed spatial sampling algorithm guarantees the regularity of the demonstrated curve and ensures a consistent projection of the human force throughout the task in a human-in-the-loop scenario. GDMP exhibits phase independence, as its phase variable is no longer constrained to the demonstration’s timing law, enabling a wide range of applications, including phase optimization problems and human-in-the-loop applications. Firstly, a minimum task duration optimization problem subject to velocity and acceleration constraints is formulated. The decoupling of path and speed in GDMP allows to achieve optimal time duration without violating the constraints. Secondly, GDMP is validated in a human-in-the-loop application, providing a theoretical passivity analysis and an experimental stability evaluation in co-manipulation tasks. Finally, GDMP is compared with other DMP architectures available in the literature, both for the phase optimization problem and experimentally with reference to an insertion task, showcasing the enhanced performance of GDMP with respect to other solutions.

arxiv情報

著者 Giovanni Braglia,Davide Tebaldi,Luigi Biagiotti
発行日 2025-02-23 18:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning はコメントを受け付けていません

Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation

要約

複雑な長老のロボット操作の問題を解決するには、洗練された高レベルの計画能力、物理的世界について推論する能力、および適切な運動能力を反応的に選択する能力が必要です。
インターネットデータで前処理されたビジョン言語モデル(VLM)は、原則として、このような問題に取り組むためのフレームワークを提供する可能性があります。
ただし、現在の形式では、VLMはロボット操作に必要な複雑な物理学の微妙な理解と、エラーの複合問題に対処するために長い視野を超えて推論する能力の両方に欠けています。
この論文では、マルチステージ操作タスクのVLMSの物理的推論機能を強化する新しいテスト時間計算フレームワークを紹介します。
そのアプローチでは、私たちのアプローチは、「反射」メカニズムを備えた前提条件のVLMを繰り返し改善します。生成モデルを使用して、将来の世界状態を想像し、これらの予測を活用してアクション選択を導き、潜在的な亜極性を批判的に反映して推論を改善します。
実験結果は、私たちの方法が、いくつかの最先端の商用VLMと、モンテカルロツリー検索(MCTS)などの他のトレーニング後のアプローチを大幅に上回ることを示しています。
ビデオはhttps://reflect-vlm.github.ioで入手できます。

要約(オリジナル)

Solving complex long-horizon robotic manipulation problems requires sophisticated high-level planning capabilities, the ability to reason about the physical world, and reactively choose appropriate motor skills. Vision-language models (VLMs) pretrained on Internet data could in principle offer a framework for tackling such problems. However, in their current form, VLMs lack both the nuanced understanding of intricate physics required for robotic manipulation and the ability to reason over long horizons to address error compounding issues. In this paper, we introduce a novel test-time computation framework that enhances VLMs’ physical reasoning capabilities for multi-stage manipulation tasks. At its core, our approach iteratively improves a pretrained VLM with a ‘reflection’ mechanism – it uses a generative model to imagine future world states, leverages these predictions to guide action selection, and critically reflects on potential suboptimalities to refine its reasoning. Experimental results demonstrate that our method significantly outperforms several state-of-the-art commercial VLMs as well as other post-training approaches such as Monte Carlo Tree Search (MCTS). Videos are available at https://reflect-vlm.github.io.

arxiv情報

著者 Yunhai Feng,Jiaming Han,Zhuoran Yang,Xiangyu Yue,Sergey Levine,Jianlan Luo
発行日 2025-02-23 20:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation はコメントを受け付けていません

NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction

要約

マルチモーダルヒューマンロボット相互作用(HRI)データセットの最近の進歩は、音声とジェスチャーの統合を強調し、ロボットが明示的な知識と暗黙の理解を吸収できるようにします。
ただし、既存のデータセットは、主にオブジェクトの指してプッシュするなどの基本タスクに焦点を当てており、複雑なドメインへの適用性を制限しています。
彼らはより単純な人間のコマンドデータに優先順位を付けますが、ロボットのトレーニングにあまり重点を置いて、タスクを正しく解釈し、適切に対応します。
これらのギャップに対処するために、NATSGLDデータセットを提示します。NATSGLDデータセットは、Wizard of OZ(WOZ)メソッドを使用して収集され、参加者は自律的であると考えられていたロボットと対話しました。
Natsgldは、それぞれが指揮されたタスクの根本的な解釈を提供するデモンストレーション軌跡と線形時間論的論理(LTL)式とペアになった人間のマルチモーダルコマンド(音声とジェスチャー)を記録します。
このデータセットは、HRIと機械学習の交差点での研究の基礎リソースとして機能します。
マルチモーダル入力と詳細な注釈を提供することにより、NATSGLDは、デモンストレーションからのマルチモーダル指導、計画認識、人間に恵まれた強化学習などの分野での探索を可能にします。
https://www.snehesh.com/natsgld/のMITライセンスの下でデータセットとコードをリリースして、将来のHRI研究をサポートします。

要約(オリジナル)

Recent advances in multimodal Human-Robot Interaction (HRI) datasets emphasize the integration of speech and gestures, allowing robots to absorb explicit knowledge and tacit understanding. However, existing datasets primarily focus on elementary tasks like object pointing and pushing, limiting their applicability to complex domains. They prioritize simpler human command data but place less emphasis on training robots to correctly interpret tasks and respond appropriately. To address these gaps, we present the NatSGLD dataset, which was collected using a Wizard of Oz (WoZ) method, where participants interacted with a robot they believed to be autonomous. NatSGLD records humans’ multimodal commands (speech and gestures), each paired with a demonstration trajectory and a Linear Temporal Logic (LTL) formula that provides a ground-truth interpretation of the commanded tasks. This dataset serves as a foundational resource for research at the intersection of HRI and machine learning. By providing multimodal inputs and detailed annotations, NatSGLD enables exploration in areas such as multimodal instruction following, plan recognition, and human-advisable reinforcement learning from demonstrations. We release the dataset and code under the MIT License at https://www.snehesh.com/natsgld/ to support future HRI research.

arxiv情報

著者 Snehesh Shrestha,Yantian Zha,Saketh Banagiri,Ge Gao,Yiannis Aloimonos,Cornelia Fermüller
発行日 2025-02-23 21:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | NatSGLD: A Dataset with Speech, Gesture, Logic, and Demonstration for Robot Learning in Natural Human-Robot Interaction はコメントを受け付けていません

Online Friction Coefficient Identification for Legged Robots on Slippery Terrain Using Smoothed Contact Gradients

要約

このペーパーでは、滑りやすい地形上の脚のあるロボットのオンライン摩擦係数識別フレームワークを提案します。
このアプローチでは、最適化問題を定式化して、剛体接触ダイナミクスの摩擦係数によってパラメーター化された実際の状態と予測状態の間の残差の合計を最小化します。
特に、提案されたフレームワークは、クーロン摩擦の相補性条件を滑らかにすることで得られる接触衝動の分析的平滑化勾配を活用して、非微細な接触ダイナミクスから誘導される非情報勾配の問題を解決します。
さらに、脚のロボットの摩擦係数識別中に接触係数を開始した後、高い正常接触速度でデータを除外する拒絶方法を導入します。
提案されたフレームワークを検証するために、滑りやすい地形で四角いロボットプラットフォームであるKaist Houndを使用して実験を実施します。
私たちのフレームワークは、さまざまな初期条件内で迅速かつ一貫した摩擦係数の識別を実現することを観察します。

要約(オリジナル)

This paper proposes an online friction coefficient identification framework for legged robots on slippery terrain. The approach formulates the optimization problem to minimize the sum of residuals between actual and predicted states parameterized by the friction coefficient in rigid body contact dynamics. Notably, the proposed framework leverages the analytic smoothed gradient of contact impulses, obtained by smoothing the complementarity condition of Coulomb friction, to solve the issue of non-informative gradients induced from the nonsmooth contact dynamics. Moreover, we introduce the rejection method to filter out data with high normal contact velocity following contact initiations during friction coefficient identification for legged robots. To validate the proposed framework, we conduct the experiments using a quadrupedal robot platform, KAIST HOUND, on slippery and nonslippery terrain. We observe that our framework achieves fast and consistent friction coefficient identification within various initial conditions.

arxiv情報

著者 Hajun Kim,Dongyun Kang,Min-Gyu Kim,Gijeong Kim,Hae-Won Park
発行日 2025-02-24 05:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Online Friction Coefficient Identification for Legged Robots on Slippery Terrain Using Smoothed Contact Gradients はコメントを受け付けていません