Fractal Generative Models

要約

モジュール化は、コンピューターサイエンスの基礎であり、複雑な機能を原子ビルディングブロックに抽象化します。
この論文では、生成モデルを原子生成モジュールに抽象化することにより、新しいレベルのモジュール化を紹介します。
数学のフラクタルと同様に、私たちの方法は、原子生成モジュールを再帰的に呼び出すことにより、新しいタイプの生成モデルを構築し、フラクタル生成モデルと呼ばれる自己類似のフラクタルアーキテクチャをもたらします。
実行中の例として、AutoreGressionモデルをアトミック生成モジュールとして使用してフラクタルフレームワークをインスタンス化し、ピクセルごとの画像生成の挑戦的なタスクでそれを調べ、尤度の推定と生成の質の両方で強力なパフォーマンスを示します。
この作業が生成モデリングに新しいパラダイムを開き、将来の研究の肥沃な地位を提供できることを願っています。
コードはhttps://github.com/lth14/fractalgenで入手できます。

要約(オリジナル)

Modularization is a cornerstone of computer science, abstracting complex functions into atomic building blocks. In this paper, we introduce a new level of modularization by abstracting generative models into atomic generative modules. Analogous to fractals in mathematics, our method constructs a new type of generative model by recursively invoking atomic generative modules, resulting in self-similar fractal architectures that we call fractal generative models. As a running example, we instantiate our fractal framework using autoregressive models as the atomic generative modules and examine it on the challenging task of pixel-by-pixel image generation, demonstrating strong performance in both likelihood estimation and generation quality. We hope this work could open a new paradigm in generative modeling and provide a fertile ground for future research. Code is available at https://github.com/LTH14/fractalgen.

arxiv情報

著者 Tianhong Li,Qinyi Sun,Lijie Fan,Kaiming He
発行日 2025-02-25 14:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Fractal Generative Models はコメントを受け付けていません

GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow

要約

占有率の推定は、3Dコンピュータービジョン、特に自律運転コミュニティ内で顕著な課題となっています。
この論文では、GaussianFlowoccと呼ばれる占有推定への新しいアプローチを紹介します。これは、ガウスのスプラッティングに触発され、従来の濃いボクセルグリッドをまばらな3Dガウス表現に置き換えます。
ガウス変圧器に基づく当社の効率的なモデルアーキテクチャは、主に空の3Dスペースを主に表現する非効率的なボクセルベースの表現で使用される高価な3D畳み込みの必要性を排除することにより、計算およびメモリの要件を大幅に削減します。
Gaussianflowoccは、ネットワークトレーニングプロセス全体で各ガウスの時間的流れを推定することにより、シーンのダイナミクスを効果的にキャプチャし、既存の方法でしばしば無視される複雑な問題に対する簡単な解決策を提供します。
さらに、GaussianFlowoccは、監督が弱く、追加データ(LIDARなど)に基づいて費用のかかる密度の高い3Dボクセル注釈を必要としないため、スケーラビリティのために設計されています。
広範な実験を通じて、Gaussianflowoccは、ヌスセンデータセットのnused延した占有率の推定のための以前のすべての方法を大幅に上回ると同時に、現在のソタの50倍高速な推論速度を特徴とすることを実証します。

要約(オリジナル)

Occupancy estimation has become a prominent task in 3D computer vision, particularly within the autonomous driving community. In this paper, we present a novel approach to occupancy estimation, termed GaussianFlowOcc, which is inspired by Gaussian Splatting and replaces traditional dense voxel grids with a sparse 3D Gaussian representation. Our efficient model architecture based on a Gaussian Transformer significantly reduces computational and memory requirements by eliminating the need for expensive 3D convolutions used with inefficient voxel-based representations that predominantly represent empty 3D spaces. GaussianFlowOcc effectively captures scene dynamics by estimating temporal flow for each Gaussian during the overall network training process, offering a straightforward solution to a complex problem that is often neglected by existing methods. Moreover, GaussianFlowOcc is designed for scalability, as it employs weak supervision and does not require costly dense 3D voxel annotations based on additional data (e.g., LiDAR). Through extensive experimentation, we demonstrate that GaussianFlowOcc significantly outperforms all previous methods for weakly supervised occupancy estimation on the nuScenes dataset while featuring an inference speed that is 50 times faster than current SOTA.

arxiv情報

著者 Simon Boeder,Fabian Gigengack,Benjamin Risse
発行日 2025-02-25 08:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow はコメントを受け付けていません

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約

トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツを使用して大規模なビジョン言語モデル(VLM)をトレーニングするために使用されたかどうかを確認するにはどうすればよいですか?
VLMがトレーニングコーパスの画像を認識できるという仮説に動機付けられているため、モデルの開発中に著作権で保護されたコンテンツを含めることを推測するための新しいアプローチであるDIS-COを提案します。
ターゲットを絞った著作権で保護された素材から特定のフレームを使用してVLMを繰り返しクエリすることにより、DIS-COはフリーフォームテキストの完成を通じてコン​​テンツのIDを抽出します。
その有効性を評価するために、モデルのトレーニングカットオフの前後でリリースされたフィルムから描かれた詳細なキャプションとペアになった14,000フレームを含むベンチマークであるMovietectionを紹介します。
我々の結果は、DIS-COが検出パフォーマンスを大幅に改善し、ロジットを使用してモデルで最良の最適な方法の平均AUCをほぼ2倍にすることを示しています。
私たちの調査結果は、より広範な懸念も強調しています。すべてのテストされたモデルは、著作権で保護されたコンテンツにある程度さらされているようです。
私たちのコードとデータは、https://github.com/avduarte333/dis-coで入手できます

要約(オリジナル)

How can we verify whether copyrighted content was used to train a large vision-language model (VLM) without direct access to its training data? Motivated by the hypothesis that a VLM is able to recognize images from its training corpus, we propose DIS-CO, a novel approach to infer the inclusion of copyrighted content during the model’s development. By repeatedly querying a VLM with specific frames from targeted copyrighted material, DIS-CO extracts the content’s identity through free-form text completions. To assess its effectiveness, we introduce MovieTection, a benchmark comprising 14,000 frames paired with detailed captions, drawn from films released both before and after a model’s training cutoff. Our results show that DIS-CO significantly improves detection performance, nearly doubling the average AUC of the best prior method on models with logits available. Our findings also highlight a broader concern: all tested models appear to have been exposed to some extent to copyrighted content. Our code and data are available at https://github.com/avduarte333/DIS-CO

arxiv情報

著者 André V. Duarte,Xuandong Zhao,Arlindo L. Oliveira,Lei Li
発行日 2025-02-25 10:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | DIS-CO: Discovering Copyrighted Content in VLMs Training Data はコメントを受け付けていません

KV-Edit: Training-Free Image Editing for Precise Background Preservation

要約

背景の一貫性は、画像編集タスクにおける重要な課題のままです。
広範な開発にもかかわらず、既存の作品は、元の画像との類似性を維持することと、ターゲットと一致するコンテンツを生成することとのトレードオフに直面しています。
ここでは、KV-Editを提案します。KV-Editは、KVキャッシュをDITで使用してバックグラウンドの一貫性を維持するトレーニングなしのアプローチを提案します。バックグラウンドトークンが再生されるのではなく保存され、複雑なメカニズムや高価なトレーニングの必要性を排除し、最終的にシームレスに統合する新しいコンテンツを生成することを提案します。
バックグラウンドがユーザーが提供する領域内。
さらに、編集中のKVキャッシュのメモリ消費を調査し、逆転のない方法を使用してスペースの複雑さを$ O(1)$に最適化します。
私たちのアプローチは、追加のトレーニングなしで、DITベースの生成モデルと互換性があります。
実験は、KV-EDITが、背景と画質の両方の点で既存のアプローチを大幅に上回ることを示しています。
プロジェクトWebページは、https://xilluill.github.io/projectpages/kv-editで入手できます

要約(オリジナル)

Background consistency remains a significant challenge in image editing tasks. Despite extensive developments, existing works still face a trade-off between maintaining similarity to the original image and generating content that aligns with the target. Here, we propose KV-Edit, a training-free approach that uses KV cache in DiTs to maintain background consistency, where background tokens are preserved rather than regenerated, eliminating the need for complex mechanisms or expensive training, ultimately generating new content that seamlessly integrates with the background within user-provided regions. We further explore the memory consumption of the KV cache during editing and optimize the space complexity to $O(1)$ using an inversion-free method. Our approach is compatible with any DiT-based generative model without additional training. Experiments demonstrate that KV-Edit significantly outperforms existing approaches in terms of both background and image quality, even surpassing training-based methods. Project webpage is available at https://xilluill.github.io/projectpages/KV-Edit

arxiv情報

著者 Tianrui Zhu,Shiyi Zhang,Jiawei Shao,Yansong Tang
発行日 2025-02-25 09:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | KV-Edit: Training-Free Image Editing for Precise Background Preservation はコメントを受け付けていません

KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference

要約

KVキャッシュの量子化は、LLMSの有効性を維持しながら、長いコンテキストと大規模なバッチサイズのシナリオで、大規模な言語モデル(LLMS)推論のスループットとレイテンシを改善できます。
ただし、現在の方法には、KVキャッシュの量子化に対するレイヤーごとの感受性、オンラインの微調整された意思決定の高いオーバーヘッド、さまざまなLLMSおよび制約に対する柔軟性が低いという3つの未解決の問題があります。
したがって、KVキャッシュ量子化エラーに対するレイヤーワイズトランスの注意パターンの固有の相関を徹底的に分析し、量子化エラー削減のための値キャッシュよりも重要なキャッシュが重要である理由を研究します。
さらに、単純なハードウェアにやさしいレイヤーワイズKV量子量化精度ペアを適応的に検索するためのシンプルでありながら効果的なフレームワークKVTunerを提案します。
オフラインキャリブレーションの計算コストを削減するために、レイヤー内KV精度ペアの剪定と層間クラスタリングを利用して、検索スペースを削減します。
実験結果は、LLAMA-3.1-8B-InstructなどのLLMのQWEN2.5-7B-intructのような高感度モデルの場合のLLMのほぼ損失のない3.25ビットの混合精度KVキャッシュ量子化を達成できることを示しています。
最大推論スループットは、さまざまなコンテキスト長にわたるKV8量子化と比較して38.3%改善できます。
コードと検索された構成は、https://github.com/cmd2001/kvtunerで入手できます。

要約(オリジナル)

KV cache quantization can improve Large Language Models (LLMs) inference throughput and latency in long contexts and large batch-size scenarios while preserving LLMs effectiveness. However, current methods have three unsolved issues: overlooking layer-wise sensitivity to KV cache quantization, high overhead of online fine-grained decision-making, and low flexibility to different LLMs and constraints. Therefore, we thoroughly analyze the inherent correlation of layer-wise transformer attention patterns to KV cache quantization errors and study why key cache is more important than value cache for quantization error reduction. We further propose a simple yet effective framework KVTuner to adaptively search for the optimal hardware-friendly layer-wise KV quantization precision pairs for coarse-grained KV cache with multi-objective optimization and directly utilize the offline searched configurations during online inference. To reduce the computational cost of offline calibration, we utilize the intra-layer KV precision pair pruning and inter-layer clustering to reduce the search space. Experimental results show that we can achieve nearly lossless 3.25-bit mixed precision KV cache quantization for LLMs like Llama-3.1-8B-Instruct and 4.0-bit for sensitive models like Qwen2.5-7B-Instruct on mathematical reasoning tasks. The maximum inference throughput can be improved by 38.3% compared with KV8 quantization over various context lengths. Our code and searched configurations are available at https://github.com/cmd2001/KVTuner.

arxiv情報

著者 Xing Li,Zeyu Xing,Yiming Li,Linping Qu,Hui-Ling Zhen,Wulong Liu,Yiwu Yao,Sinno Jialin Pan,Mingxuan Yuan
発行日 2025-02-25 03:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | KVTuner: Sensitivity-Aware Layer-wise Mixed Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference はコメントを受け付けていません

Human2Robot: Learning Robot Actions from Paired Human-Robot Videos

要約

人間のデモから知識を蒸留することは、ロボットが学び、行動するための有望な方法です。
既存の作業はしばしば人間とロボットの違いを見落とし、不十分な結果を生み出します。
この論文では、人間とロボットのペアがロボット学習に完全に整合することを調べます。
VRベースのテレポーテーションを活用して、2,600エピソードを持つサードパーソンデータセットであるH \&Rを紹介します。
拡散モデルの最近の成功に触発されて、Human2robotを紹介します。これは、ヒトからの学習を生成タスクとして定式化するエンドツーエンドの拡散フレームワークです。
Human2robotは、ヒューマンビデオの時間的ダイナミクスを完全に調査して、ロボットビデオを生成し、同時にアクションを予測します。
現実世界の設定で見られ、変更された、目に見えない8つのタスクの包括的な評価を通じて、Human2robotは高品質のロボットビデオを生成できるだけでなく、見られたタスクで優れており、目に見えないオブジェクト、背景、さらには新しいタスクにも優れていることを実証します。

要約(オリジナル)

Distilling knowledge from human demonstrations is a promising way for robots to learn and act. Existing work often overlooks the differences between humans and robots, producing unsatisfactory results. In this paper, we study how perfectly aligned human-robot pairs benefit robot learning. Capitalizing on VR-based teleportation, we introduce H\&R, a third-person dataset with 2,600 episodes, each of which captures the fine-grained correspondence between human hands and robot gripper. Inspired by the recent success of diffusion models, we introduce Human2Robot, an end-to-end diffusion framework that formulates learning from human demonstrates as a generative task. Human2Robot fully explores temporal dynamics in human videos to generate robot videos and predict actions at the same time. Through comprehensive evaluations of 8 seen, changed and unseen tasks in real-world settings, we demonstrate that Human2Robot can not only generate high-quality robot videos but also excel in seen tasks and generalize to unseen objects, backgrounds and even new tasks effortlessly.

arxiv情報

著者 Sicheng Xie,Haidong Cao,Zejia Weng,Zhen Xing,Shiwei Shen,Jiaqi Leng,Xipeng Qiu,Yanwei Fu,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-02-23 14:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Human2Robot: Learning Robot Actions from Paired Human-Robot Videos はコメントを受け付けていません

Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving

要約

車両からすべての技術(V2X)は、知覚範囲を拡張し、閉塞を通して見るための理想的なパラダイムになりました。
退場する努力は、単一フレームの協同組合の認識に焦点を当てていますが、計画タスクが依然として未定であっても予測タスクを容易にするために、V2Xを使用してフレーム間の時間的キューをキャプチャする方法です。
このホワイトペーパーでは、Co-MTPを紹介します。これは、自律運転の多重融合を備えた一般的な協同軌道予測フレームワークであり、V2Xシステムを活用して、歴史と将来のドメインの両方のエージェント間の相互作用を完全にキャプチャして計画に利益をもたらします。
歴史の領域では、V2Xは単一車両知覚における不完全な履歴軌道を補完することができ、複数のエージェントから歴史の特徴の融合を学び、歴史の相互作用を捉えるために、不均一なグラフ変圧器を設計します。
さらに、予測の目標は、将来の計画をサポートすることです。
したがって、将来のドメインでは、V2Xは周囲のオブジェクトの予測結果を提供でき、さらにグラフ変圧器を拡張して、エゴ計画と他の車両の意図間の将来の相互作用をキャプチャし、特定の計画の下で最終的な将来のシナリオ状態を取得します
アクション。
現実世界のデータセットV2X-SEQのCO-MTPフレームワークを評価し、結果はCO-MTPが最先端のパフォーマンスを達成し、歴史と将来の融合の両方が予測に大きな利益をもたらすことを示しています。

要約(オリジナル)

Vehicle-to-everything technologies (V2X) have become an ideal paradigm to extend the perception range and see through the occlusion. Exiting efforts focus on single-frame cooperative perception, however, how to capture the temporal cue between frames with V2X to facilitate the prediction task even the planning task is still underexplored. In this paper, we introduce the Co-MTP, a general cooperative trajectory prediction framework with multi-temporal fusion for autonomous driving, which leverages the V2X system to fully capture the interaction among agents in both history and future domains to benefit the planning. In the history domain, V2X can complement the incomplete history trajectory in single-vehicle perception, and we design a heterogeneous graph transformer to learn the fusion of the history feature from multiple agents and capture the history interaction. Moreover, the goal of prediction is to support future planning. Thus, in the future domain, V2X can provide the prediction results of surrounding objects, and we further extend the graph transformer to capture the future interaction among the ego planning and the other vehicles’ intentions and obtain the final future scenario state under a certain planning action. We evaluate the Co-MTP framework on the real-world dataset V2X-Seq, and the results show that Co-MTP achieves state-of-the-art performance and that both history and future fusion can greatly benefit prediction.

arxiv情報

著者 Xinyu Zhang,Zewei Zhou,Zhaoyi Wang,Yangjie Ji,Yanjun Huang,Hong Chen
発行日 2025-02-23 14:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.CV, cs.LG, cs.RO, I.2.6 | Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving はコメントを受け付けていません

Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment

要約

単眼の視覚慣性臭気(VIO)は、センサースイートのサイズが小さいと低消費電力のおかげで、幅広いリアルタイムモーショントラッキングアプリケーションを促進しました。
Vioアルゴリズムをブートストラップするために、初期化モジュールは非常に重要です。
ほとんどの初期化方法は、3D視覚ポイント雲の再構築に依存しています。
状態ベクトルには運動状態と3D機能ポイントの両方が含まれるため、これらの方法は高い計算コストに悩まされています。
この問題に対処するために、一部の研究者は最近、3D構造を回復せずに初期状態を解決できる構造のない初期化方法を提案しました。
ただし、この方法は、回転と翻訳の推定が分離されているため、線形制約のためにパフォーマンスを潜在的に損なう可能性があります。
その精度を向上させるために、以前の構造のないソリューションをさらに改善するために、新しい構造のない視覚的介入バンドル調整を提案します。
現実世界のデータセットでの広範な実験は、リアルタイムのパフォーマンスを維持しながら、Vioの初期化の精度を大幅に改善することを示しています。

要約(オリジナル)

Monocular visual inertial odometry (VIO) has facilitated a wide range of real-time motion tracking applications, thanks to the small size of the sensor suite and low power consumption. To successfully bootstrap VIO algorithms, the initialization module is extremely important. Most initialization methods rely on the reconstruction of 3D visual point clouds. These methods suffer from high computational cost as state vector contains both motion states and 3D feature points. To address this issue, some researchers recently proposed a structureless initialization method, which can solve the initial state without recovering 3D structure. However, this method potentially compromises performance due to the decoupled estimation of rotation and translation, as well as linear constraints. To improve its accuracy, we propose novel structureless visual-inertial bundle adjustment to further refine previous structureless solution. Extensive experiments on real-world datasets show our method significantly improves the VIO initialization accuracy, while maintaining real-time performance.

arxiv情報

著者 Junlin Song,Antoine Richard,Miguel Olivares-Mendez
発行日 2025-02-23 14:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment はコメントを受け付けていません

MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence

要約

スケーラブルで一般化可能な物理学を対象としたディープラーニングは、ロボット工学から分子動力学に至るまで、さまざまなドメインを越えたさまざまなアプリケーションで重要な課題と考えられてきました。
ほとんどすべての物理システムの中心は、エネルギーや運動量などの基本的な不変剤を支える幾何学的なバックボーンであるシンプレクティック形式です。
この作業では、新しいディープラーニングアーキテクチャであるMetasymを紹介します。
特に、Metasymは、シンプレクティックエンコーダーから得られた強力なシンプレクティック誘導バイアスと、メタアテナントを備えた自己回帰デコーダーを組み合わせています。
この原則的な設計により、コアの物理的不変剤はそのままのままでありながら、システムの不均一性への柔軟でデータ効率の高い適応を可能にします。
高次元のスプリングメッシュシステム(Otness et al。、2021)、散逸と測定のバックアクセスを備えたオープン量子システム、ロボット工学にインスパイアされた象限ダイナミクスなど、高次元のスプリングメッシュシステム(Otness et al。、2021)など、高度に多様なデータセットにベンチマークします。
私たちの結果は、少数のショット適応の下でのモデリングダイナミクスの優れたパフォーマンスを示しており、はるかに大きなモデルを備えた最先端のベースラインを上回ります。

要約(オリジナル)

Scalable and generalizable physics-aware deep learning has long been considered a significant challenge with various applications across diverse domains ranging from robotics to molecular dynamics. Central to almost all physical systems are symplectic forms, the geometric backbone that underpins fundamental invariants like energy and momentum. In this work, we introduce a novel deep learning architecture, MetaSym. In particular, MetaSym combines a strong symplectic inductive bias obtained from a symplectic encoder and an autoregressive decoder with meta-attention. This principled design ensures that core physical invariants remain intact while allowing flexible, data-efficient adaptation to system heterogeneities. We benchmark MetaSym on highly varied datasets such as a high-dimensional spring mesh system (Otness et al., 2021), an open quantum system with dissipation and measurement backaction, and robotics-inspired quadrotor dynamics. Our results demonstrate superior performance in modeling dynamics under few-shot adaptation, outperforming state-of-the-art baselines with far larger models.

arxiv情報

著者 Pranav Vaidhyanathan,Aristotelis Papatheodorou,Mark T. Mitchison,Natalia Ares,Ioannis Havoutis
発行日 2025-02-23 17:52:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, physics.comp-ph, quant-ph | MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence はコメントを受け付けていません

Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning

要約

動的運動プリミティブ(DMP)は、参照モーションに基づいて適応を必要とするロボットタスクをエンコードするための確立された効率的な方法です。
通常、名目上の軌道は、デモンストレーション(PBD)によるプログラミングを通じて取得されます。ここでは、ロボットは運動感覚のガイダンスを介してタスクを学習し、幾何学的経路とタイミング法の両方の観点からそれを再現します。
標準のDMPでの実行期間を変更することは、モデルの時定数を調整することにより達成されます。
このペーパーでは、Spatial Samplingと呼ばれるアルゴリズムを使用して、その時間情報からタスクの幾何学的情報を完全に分離するための新しいアプローチを紹介します。
これは、幾何学DMP(GDMP)の定義につながります。
提案された空間サンプリングアルゴリズムは、実証された曲線の規則性を保証し、ループ内のシナリオでタスク全体に人間の力の一貫した投影を保証します。
GDMPは位相の独立性を示します。その位相変数は、デモンストレーションのタイミング法に制約されなくなり、位相最適化問題やループインザループアプリケーションなど、幅広いアプリケーションを可能にします。
第一に、速度と加速制約の対象となる最小タスク期間最適化問題が策定されます。
GDMPのパスと速度のデカップリングにより、制約に違反することなく最適な時間期間を達成できます。
第二に、GDMPは人間のループアプリケーションで検証されており、共操作タスクにおける理論的受動性分析と実験的安定性評価を提供します。
最後に、GDMPは、フェーズ最適化問題と実験的に挿入タスクを参照して、文献で利用可能な他のDMPアーキテクチャと比較され、他のソリューションに関するGDMPのパフォーマンスの強化を紹介します。

要約(オリジナル)

Dynamic Movement Primitives (DMP) are an established and efficient method for encoding robotic tasks that require adaptation based on reference motions. Typically, the nominal trajectory is obtained through Programming by Demonstration (PbD), where the robot learns a task via kinesthetic guidance and reproduces it in terms of both geometric path and timing law. Modifying the duration of the execution in standard DMPs is achieved by adjusting a time constant in the model. This paper introduces a novel approach to fully decouple the geometric information of a task from its temporal information using an algorithm called spatial sampling, which allows parameterizing the demonstrated curve by its arc-length. This leads to the definition of the Geometric DMP (GDMP). The proposed spatial sampling algorithm guarantees the regularity of the demonstrated curve and ensures a consistent projection of the human force throughout the task in a human-in-the-loop scenario. GDMP exhibits phase independence, as its phase variable is no longer constrained to the demonstration’s timing law, enabling a wide range of applications, including phase optimization problems and human-in-the-loop applications. Firstly, a minimum task duration optimization problem subject to velocity and acceleration constraints is formulated. The decoupling of path and speed in GDMP allows to achieve optimal time duration without violating the constraints. Secondly, GDMP is validated in a human-in-the-loop application, providing a theoretical passivity analysis and an experimental stability evaluation in co-manipulation tasks. Finally, GDMP is compared with other DMP architectures available in the literature, both for the phase optimization problem and experimentally with reference to an insertion task, showcasing the enhanced performance of GDMP with respect to other solutions.

arxiv情報

著者 Giovanni Braglia,Davide Tebaldi,Luigi Biagiotti
発行日 2025-02-23 18:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning はコメントを受け付けていません