CarbonFish — A Bistable Underactuated Compliant Fish Robot capable of High Frequency Undulation

要約

ヘア クリップ メカニズム HCM は、これまでの研究で説明したように、ソフト ロボット工学の優れた機能を強化するために考案された、革新的な面内プレストレス双安定メカニズムを表しています。
従来のソフトで従順なロボット システムと並べると、HCM は顕著な剛性、可動性の向上、再現可能な再現性、および効果的な設計および製造パラダイムを示します。
この研究では、炭素繊維強化プラスチック CFRP を HCM ベースの魚ロボット (以下、CarbonFish と呼ぶ) の基礎材料として利用する可能性を調査します。
私たちの目標は、高周波の波状運動を実現することに重点を置き、それによって後続のモデルで水中移動を加速するための基礎を築きます。
当社は、数学的原理に裏付けられた徹底的な設計および製造スキームを提供します。
当社の単一作動 CarbonFish の予備評価では、10 Hz に近い波動周波数が証明されており、生物学的にインスピレーションを得た他の水生生物や本物の魚を上回る可能性があることが示唆されています。

要約(オリジナル)

The Hair Clip Mechanism HCM represents an innovative in plane prestressed bistable mechanism, as delineated in our preceding studies, devised to augment the functional prowess of soft robotics. When juxtaposed with conventional soft and compliant robotic systems, HCMs exhibit pronounced rigidity, augmented mobility, reproducible repeatability, and an effective design and fabrication paradigm. In this research, we investigate the feasibility of utilizing carbon fiber reinforced plastic CFRP as the foundational material for an HCM based fish robot, herein referred to as CarbonFish. Our objective centers on realizing high frequency undulatory motion, thereby laying the groundwork for accelerated aquatic locomotion in subsequent models. We proffer an exhaustive design and fabrication schema underpinned by mathematical principles. Preliminary evaluations of our single actuated CarbonFish have evidenced an undulation frequency approaching 10 Hz, suggesting its potential to outperform other biologically inspired aquatic entities as well as real fish.

arxiv情報

著者 Zechen Xiong,Zihan Guo,Mark Liu,Jialong Ning,Hod Lipson
発行日 2024-10-13 18:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations

要約

共有ダイナミクス モデルは、ヒューマン ロボット インタラクション (HRI) に固有の複雑さと変動性を把握するために重要です。
したがって、このような共有ダイナミクス モデルを学習すると、協調性と適応性が強化され、人間のパートナーとの反応的な相互作用を成功させることができます。
この研究では、人間の観察からロボットの動作を反応的に生成するために、専門家混合の方法でデモンストレーションから HRI の共有潜在空間表現を学習するための新しいアプローチを提案します。
混合密度ネットワーク (MDN) を介して人間の観察のマルチモダリティを捕捉する情報潜在空間事前を使用して正規化されたロボットの動きを学習するために、変分オートエンコーダー (VAE) をトレーニングします。
私たちの定式化が、人間とロボットの動作にわたる同時分布を学習するための HMM/GMM の使用など、デモンストレーションから HRI を学習するために通常使用されるアプローチである混合ガウス回帰定式化からどのように導出されるかを示します。
さらに、VAE で潜在空間混合モデルを使用する場合に一般的な現象である「モード崩壊」を防ぐために、追加の正則化を組み込みます。
VAE に対して人間の観察から事前に有益な MDN を使用するアプローチは、共有潜在表現を学習する以前の HMM ベースのアプローチや反復的なアプローチと比較して、より正確なロボットの動作を生成することがわかりました。これは、ハンドシェイクなどのインタラクションを含むさまざまな HRI データセットで検証されています。
ガッツポーズ、手を振り、そして引き継ぎ。
現実世界の人間からロボットへの引き継ぎシナリオでのさらなる実験では、4 つの異なる人間の対話パートナーとの対話を成功させるための私たちのアプローチの有効性が示されています。

要約(オリジナル)

Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent ‘mode collapse’, a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners.

arxiv情報

著者 Vignesh Prasad,Alap Kshirsagar,Dorothea Koert,Ruth Stock-Homburg,Jan Peters,Georgia Chalvatzaki
発行日 2024-10-13 18:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | コメントする

Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions

要約

モデルベース強化学習 (MBRL) の最近の進歩により、MBRL は視覚的な制御タスクのための強力なツールになりました。
データ効率が向上したにもかかわらず、一般化可能な認識を備えた MBRL エージェントをトレーニングすることは依然として困難です。
視覚的な気を散らすものが存在する場合のトレーニングは、視覚的なものが表現学習に大きな変動をもたらすため、特に困難です。
人気のある MBRL 手法である DREAMER に基づいて、気が散る環境での表現学習を促進するためのシンプルかつ効果的な補助タスクを提案します。
画像観察のタスク関連コンポーネントは、特定のタスクの事前知識によって簡単に識別できるという仮定の下、画像観察にセグメンテーション マスクを使用して、タスク関連コンポーネントのみを再構成します。
そうすることで、タスクに関係のないオブジェクトを潜在表現でエンコードする必要がなくなり、表現学習の複雑さが大幅に軽減されます。
私たちの手法であるセグメンテーション ドリーマー (SD) は、シミュレーションで簡単にアクセスできるグラウンドトゥルース マスクとともに使用することも、不完全な可能性があるセグメンテーション基礎モデルを活用することによっても使用できます。
後者は、マスク予測誤差による誤解を招く学習信号の提供を避けるために、再構成損失を選択的に適用することによってさらに改善されます。
修正された DeepMind Control Suite (DMC) および視覚的な注意をそらすメタワールド タスクでは、SD は以前の作業よりも大幅に優れたサンプル効率と優れた最終パフォーマンスを達成しました。
SD は、以前の研究では解決できなかった、報酬がまばらなタスクに特に役立ち、広範な報酬エンジニアリングを必要とせずに視覚的に堅牢なエージェントのトレーニングを可能にすることがわかりました。

要約(オリジナル)

Recent advancements in Model-Based Reinforcement Learning (MBRL) have made it a powerful tool for visual control tasks. Despite improved data efficiency, it remains challenging to train MBRL agents with generalizable perception. Training in the presence of visual distractions is particularly difficult due to the high variation they introduce to representation learning. Building on DREAMER, a popular MBRL method, we propose a simple yet effective auxiliary task to facilitate representation learning in distracting environments. Under the assumption that task-relevant components of image observations are straightforward to identify with prior knowledge in a given task, we use a segmentation mask on image observations to only reconstruct task-relevant components. In doing so, we greatly reduce the complexity of representation learning by removing the need to encode task-irrelevant objects in the latent representation. Our method, Segmentation Dreamer (SD), can be used either with ground-truth masks easily accessible in simulation or by leveraging potentially imperfect segmentation foundation models. The latter is further improved by selectively applying the reconstruction loss to avoid providing misleading learning signals due to mask prediction errors. In modified DeepMind Control suite (DMC) and Meta-World tasks with added visual distractions, SD achieves significantly better sample efficiency and greater final performance than prior work. We find that SD is especially helpful in sparse reward tasks otherwise unsolvable by prior work, enabling the training of visually robust agents without the need for extensive reward engineering.

arxiv情報

著者 Kyungmin Kim,JB Lanier,Pierre Baldi,Charless Fowlkes,Roy Fox
発行日 2024-10-13 19:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding

要約

この論文では、ロボット支援による柔らかい食品の給餌における咬合獲得を強化するために設計された Real2Sim2Real フレームワークである REPeat について紹介します。
押す、切る、ひっくり返すなどの「事前獲得アクション」を使用して、串刺し、すくい、回すなどのバイト獲得アクションの成功率を向上させます。
データ駆動型モデルが直接咬合獲得の成功率が低いと予測した場合、システムは Real2Sim フェーズを開始し、シミュレーションで餌の形状を再構築します。
ロボットはシミュレーションでさまざまな事前取得アクションを調査し、その後、Sim2Real ステップでフォトリアリスティックな画像をレンダリングして成功率を再評価します。
成功率が向上すると、ロボットはそのアクションを現実に適用します。
ソフト食用の 10 種類の食品を含む 15 枚の多様なプレートでシステムを評価したところ、すべてのプレートで平均 27% の咬合獲得成功率の向上が示されました。
プロジェクト Web サイト (https://emprise.cs.cornell.edu/repeat) をご覧ください。

要約(オリジナル)

The paper presents REPeat, a Real2Sim2Real framework designed to enhance bite acquisition in robot-assisted feeding for soft foods. It uses `pre-acquisition actions’ such as pushing, cutting, and flipping to improve the success rate of bite acquisition actions such as skewering, scooping, and twirling. If the data-driven model predicts low success for direct bite acquisition, the system initiates a Real2Sim phase, reconstructing the food’s geometry in a simulation. The robot explores various pre-acquisition actions in the simulation, then a Sim2Real step renders a photorealistic image to reassess success rates. If the success improves, the robot applies the action in reality. We evaluate the system on 15 diverse plates with 10 types of food items for a soft food diet, showing improvement in bite acquisition success rates by 27\% on average across all plates. See our project website at https://emprise.cs.cornell.edu/repeat.

arxiv情報

著者 Nayoung Ha,Ruolin Ye,Ziang Liu,Shubhangi Sinha,Tapomayukh Bhattacharjee
発行日 2024-10-13 21:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | コメントする

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

要約

文献ではさまざまな方法が提案されていますが、物理システムの効率的かつ効果的な潜在空間制御 (つまり、学習された低次元空間での制御) は依然として未解決の課題です。
私たちは、有望な手段は、制御理論の文献から得られる強力でよく理解されている閉じた形式の戦略を、位置エネルギー形成などの学習されたダイナミクスと組み合わせて活用することであると主張します。
我々は、これまでのところこの強力な組み合わせを妨げている既存の潜在空間モデルの 3 つの根本的な欠点を特定します。(i) モデルには物理システムの数学的構造が欠如している、(ii) 現実のシステムの安定性特性が本質的に保存されていない、(
iii) これらのメソッドには、入力と潜在空間強制の間の可逆マッピングがありません。
この研究では、これらすべての問題に同時に取り組む新しい結合発振器ネットワーク (CON) モデルを提案します。
より具体的には、(i) CON がラグランジュ系であること、つまり、明確に定義された位置エネルギー項と運動エネルギー項を持っていることを分析的に示します。
次に、(ii) Lyapunov 引数を使用して、グローバルな入力から状態への安定性の正式な証明を提供します。
実験側に移り、機械システムの複雑な非線形ダイナミクスを画像から直接学習する場合、CON が SoA パフォーマンスに達することを実証します。
この 3 番目の目標の達成に貢献する追加の方法論的革新は、ネットワーク ダイナミクスを効率的に統合するための近似閉形式ソリューションであり、これにより効率的なトレーニングが容易になります。
(iii) には、エンコードされた潜在空間力に基づいて入力を再構成するように訓練されたデコーダを使用して、強制と入力のマッピングを近似することで取り組みます。
最後に、これらのプロパティによって潜在空間制御がどのように可能になるかを示します。
潜在的な力の補償を備えた積分飽和 PID を使用し、生のピクセルを唯一のフィードバック情報として使用してソフト ロボット上で高品質のパフォーマンスを実証します。

要約(オリジナル)

Even though a variety of methods have been proposed in the literature, efficient and effective latent-space control (i.e., control in a learned low-dimensional space) of physical systems remains an open challenge. We argue that a promising avenue is to leverage powerful and well-understood closed-form strategies from control theory literature in combination with learned dynamics, such as potential-energy shaping. We identify three fundamental shortcomings in existing latent-space models that have so far prevented this powerful combination: (i) they lack the mathematical structure of a physical system, (ii) they do not inherently conserve the stability properties of the real systems, (iii) these methods do not have an invertible mapping between input and latent-space forcing. This work proposes a novel Coupled Oscillator Network (CON) model that simultaneously tackles all these issues. More specifically, (i) we show analytically that CON is a Lagrangian system – i.e., it possesses well-defined potential and kinetic energy terms. Then, (ii) we provide formal proof of global Input-to-State stability using Lyapunov arguments. Moving to the experimental side, we demonstrate that CON reaches SoA performance when learning complex nonlinear dynamics of mechanical systems directly from images. An additional methodological innovation contributing to achieving this third goal is an approximated closed-form solution for efficient integration of network dynamics, which eases efficient training. We tackle (iii) by approximating the forcing-to-input mapping with a decoder that is trained to reconstruct the input based on the encoded latent space force. Finally, we show how these properties enable latent-space control. We use an integral-saturated PID with potential force compensation and demonstrate high-quality performance on a soft robot using raw pixels as the only feedback information.

arxiv情報

著者 Maximilian Stölzle,Cosimo Della Santina
発行日 2024-10-13 22:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | コメントする

VQ-CNMP: Neuro-Symbolic Skill Learning for Bi-Level Planning

要約

この論文では、ラベルのないデモンストレーション データから高レベルのスキル表現を発見できる新しいニューラル ネットワーク モデルを提案します。
また、勾配ベースの計画アプローチを使用してモデルを利用する 2 レベルの計画パイプラインも提案します。
このモデルは高レベルの表現を抽出する一方で、低レベルのアクション計画に使用できる低レベルの情報も保存します。
実験では、さまざまな条件下でモデルのスキル発見パフォーマンスをテストし、マルチモーダル LLM を利用して学習された高レベルのスキル表現にラベルを付けることができるかどうかをテストし、最後にモデルの高レベルおよび低レベルの計画パフォーマンスをテストしました。
私たちのパイプライン。

要約(オリジナル)

This paper proposes a novel neural network model capable of discovering high-level skill representations from unlabeled demonstration data. We also propose a bi-level planning pipeline that utilizes our model using a gradient-based planning approach. While extracting high-level representations, our model also preserves the low-level information, which can be used for low-level action planning. In the experiments, we tested the skill discovery performance of our model under different conditions, tested whether Multi-Modal LLMs can be utilized to label the learned high-level skill representations, and finally tested the high-level and low-level planning performance of our pipeline.

arxiv情報

著者 Hakan Aktas,Emre Ugur
発行日 2024-10-13 23:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

E2H: A Two-Stage Non-Invasive Neural Signal Driven Humanoid Robotic Whole-Body Control Framework

要約

階層型強化学習ベースの制御の統合や LLM 計画の利用など、ヒューマノイド ロボット工学の最近の進歩により、複雑なタスクを実行するロボットの能力が大幅に向上しました。
高度に発達した人型ロボットとは対照的に、関与する人間的要素は比較的未解明なままです。
人型ロボットを脳で直接制御するという手法は、『パシフィック・リム』や『ガンダム』など、すでに多くのSF小説に登場しています。
この研究では、高周波の非侵襲性神経信号を使用したヒューマノイド ロボットの制御の先駆けとなる革新的なフレームワークである E2H (EEG-to-Humanoid) を紹介します。
正確な空間軌跡をデコードする際の非侵襲的な信号品質は依然として低いため、E2H フレームワークを革新的な 2 段階構成に分解します。1) 神経信号 (EEG) を意味論的なモーション キーワードにデコードし、2) LLM を利用して、モーション生成を促進します。
人型ロボット制御を実現するための精密な動作模倣制御ポリシー。
脳波コマンドでロボットを直接駆動する方法は、特に言語障害、宇宙探査、水中探査など、口頭によるコマンドが現実的ではない状況において、人間と機械のコラボレーションに対する新しいアプローチを提供し、大きな可能性を解き放ちます。
E2H は、人間とコンピューターの相互作用に計り知れない可能性を秘めた、刺激的な未来を垣間見ることができます。

要約(オリジナル)

Recent advancements in humanoid robotics, including the integration of hierarchical reinforcement learning-based control and the utilization of LLM planning, have significantly enhanced the ability of robots to perform complex tasks. In contrast to the highly developed humanoid robots, the human factors involved remain relatively unexplored. Directly controlling humanoid robots with the brain has already appeared in many science fiction novels, such as Pacific Rim and Gundam. In this work, we present E2H (EEG-to-Humanoid), an innovative framework that pioneers the control of humanoid robots using high-frequency non-invasive neural signals. As the none-invasive signal quality remains low in decoding precise spatial trajectory, we decompose the E2H framework in an innovative two-stage formation: 1) decoding neural signals (EEG) into semantic motion keywords, 2) utilizing LLM facilitated motion generation with a precise motion imitation control policy to realize humanoid robotics control. The method of directly driving robots with brainwave commands offers a novel approach to human-machine collaboration, especially in situations where verbal commands are impractical, such as in cases of speech impairments, space exploration, or underwater exploration, unlocking significant potential. E2H offers an exciting glimpse into the future, holding immense potential for human-computer interaction.

arxiv情報

著者 Yiqun Duan,Qiang Zhang,Jinzhao Zhou,Jingkai Sun,Xiaowei Jiang,Jiahang Cao,Jiaxu Wang,Yiqian Yang,Wen Zhao,Gang Han,Yijie Guo,Chin-Teng Lin
発行日 2024-10-14 00:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | コメントする

Dreaming to Assist: Learning to Align with Human Objectives for Shared Control in High-Speed Racing

要約

マルチカーレースなど、素早いダイナミクスと戦術的決定を伴う領域で効果的な人間とロボットのチームを組むには、緊密な調整が必要です。
このような設定では、ロボットのチームメイトは、人間のチームメイトの戦術目標の合図に反応して、目標と一致する方法で支援する必要があります(障害物の周囲を左右にナビゲートするなど)。
この課題に対処するために、人間の目的と価値関数を推測できるリッチワールド モデルと、特定の人間のチームメイトに適切な専門家の支援を提供する支援エージェントを組み合わせたフレームワークである Dream2Assist を紹介します。
私たちのアプローチは、人間の意図を明示的に推測するリカレント状態空間モデルに基づいて構築されており、支援エージェントが人間に合わせたアクションを選択できるようにし、流動的なチームインタラクションを可能にします。
私たちは、「後ろに留まる」や「追い抜く」などの相互に排他的な目標を追求する合成人間のドライバー集団を使用して、高速レース領域でのアプローチを実証します。
人間とロボットを組み合わせたチームは、その行動と人間の行動を融合すると、合成人間単独やいくつかのベースライン支援戦略よりも優れたパフォーマンスを示し、インテントコンディショニングによりタスク実行中に人間の好みに従うことが可能になり、パフォーマンスの向上につながることを示します。
人間の目的を満たしながらパフォーマンスを発揮すること。

要約(オリジナル)

Tight coordination is required for effective human-robot teams in domains involving fast dynamics and tactical decisions, such as multi-car racing. In such settings, robot teammates must react to cues of a human teammate’s tactical objective to assist in a way that is consistent with the objective (e.g., navigating left or right around an obstacle). To address this challenge, we present Dream2Assist, a framework that combines a rich world model able to infer human objectives and value functions, and an assistive agent that provides appropriate expert assistance to a given human teammate. Our approach builds on a recurrent state space model to explicitly infer human intents, enabling the assistive agent to select actions that align with the human and enabling a fluid teaming interaction. We demonstrate our approach in a high-speed racing domain with a population of synthetic human drivers pursuing mutually exclusive objectives, such as ‘stay-behind’ and ‘overtake’. We show that the combined human-robot team, when blending its actions with those of the human, outperforms the synthetic humans alone as well as several baseline assistance strategies, and that intent-conditioning enables adherence to human preferences during task execution, leading to improved performance while satisfying the human’s objective.

arxiv情報

著者 Jonathan DeCastro,Andrew Silva,Deepak Gopinath,Emily Sumner,Thomas M. Balch,Laporsha Dees,Guy Rosman
発行日 2024-10-14 01:00:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | コメントする

NeRF-enabled Analysis-Through-Synthesis for ISAR Imaging of Small Everyday Objects with Sparse and Noisy UWB Radar Data

要約

逆合成開口レーダー (ISAR) イメージングは​​、限られたレーダー断面積 (RCS) とレーダー システム固有の解像度の制約により、日常の小さな物体に関しては大きな課題を抱えています。
逆投影 (BP) を含む既存の ISAR 再構成手法は、多くの場合、複雑なセットアップと制御された環境を必要とするため、現実世界の多くのノイズの多いシナリオでは実用的ではありません。
この論文では、低コストでまばらでノイズの多い超広帯域 (UWB) レーダー データを使用して、小さな物体の高解像度コヒーレント ISAR イメージングを実現する、Neural Radiance Fields (NeRF) によって可能になる新しい Analysis-through-Synthesis (ATS) フレームワークを提案します。
そしてポータブルセットアップ。
当社のエンドツーエンドのフレームワークは、超広帯域レーダー波の伝播、反射特性、およびシーン事前分布を統合し、高価な電波暗室や複雑な測定テストベッドを必要とせずに、効率的な 2D シーンの再構築を可能にします。
定性的および定量的な比較により、提案された方法が従来の技術よりも優れており、特に限られたビュー数とノイズの多いシナリオで、複数のターゲットと複雑な構造を持つ複雑なシーンの ISAR 画像を生成することを実証します。
まばらな UWB レーダー スキャン。
この研究は、日常の小さな物体の実用的でコスト効率の高いISARイメージングに向けた重要な一歩を表しており、ロボット工学やモバイルセンシングアプリケーションに広範な影響を及ぼします。

要約(オリジナル)

Inverse Synthetic Aperture Radar (ISAR) imaging presents a formidable challenge when it comes to small everyday objects due to their limited Radar Cross-Section (RCS) and the inherent resolution constraints of radar systems. Existing ISAR reconstruction methods including backprojection (BP) often require complex setups and controlled environments, rendering them impractical for many real-world noisy scenarios. In this paper, we propose a novel Analysis-through-Synthesis (ATS) framework enabled by Neural Radiance Fields (NeRF) for high-resolution coherent ISAR imaging of small objects using sparse and noisy Ultra-Wideband (UWB) radar data with an inexpensive and portable setup. Our end-to-end framework integrates ultra-wideband radar wave propagation, reflection characteristics, and scene priors, enabling efficient 2D scene reconstruction without the need for costly anechoic chambers or complex measurement test beds. With qualitative and quantitative comparisons, we demonstrate that the proposed method outperforms traditional techniques and generates ISAR images of complex scenes with multiple targets and complex structures in Non-Line-of-Sight (NLOS) and noisy scenarios, particularly with limited number of views and sparse UWB radar scans. This work represents a significant step towards practical, cost-effective ISAR imaging of small everyday objects, with broad implications for robotics and mobile sensing applications.

arxiv情報

著者 Md Farhan Tasnim Oshim,Albert Reed,Suren Jayasuriya,Tauhidur Rahman
発行日 2024-10-14 01:57:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | コメントする

The Ingredients for Robotic Diffusion Transformers

要約

近年、ロボット工学者は、大容量の Transformer ネットワーク アーキテクチャと生成拡散モデルを活用して、器用なロボット ハードウェアでますます一般的なタスクを解決するという点で目覚ましい進歩を遂げています。
残念ながら、重要な設計選択を行うための明確でよく理解されたプロセスがないため、これら 2 つの直交する改善を組み合わせるのは驚くほど難しいことが判明しています。
このペーパーでは、大容量拡散変圧器ポリシーに関する主要なアーキテクチャ設計上の決定事項を特定、研究、改善します。
結果として得られるモデルは、セットアップごとのハイパーパラメータ調整という耐え難い苦痛を伴うことなく、複数のロボットの実施形態上で多様なタスクを効率的に解決することができる。
私たちの調査結果と改良されたモデル コンポーネントを組み合わせることで、\method という名前の新しいアーキテクチャを提示することができます。これは、長期 ($1500+$ タイムステップ) の器用なタスクを解決する際に最先端のパフォーマンスを大幅に上回ります。
両手操作のALOHAロボット。
さらに、高度にマルチモーダルで言語注釈が付けられた 10 時間の ALOHA デモ データでトレーニングした場合、私たちのポリシーはスケーリング パフォーマンスの向上を示していることがわかりました。
私たちは、この研究が、大規模変圧器アーキテクチャの拡張性を備えた生成拡散モデリングの効率を活用する将来のロボット学習技術への扉を開くことを願っています。
コード、ロボット データセット、ビデオは https://dit-policy.github.io から入手できます。

要約(オリジナル)

In recent years roboticists have achieved remarkable progress in solving increasingly general tasks on dexterous robotic hardware by leveraging high capacity Transformer network architectures and generative diffusion models. Unfortunately, combining these two orthogonal improvements has proven surprisingly difficult, since there is no clear and well-understood process for making important design choices. In this paper, we identify, study and improve key architectural design decisions for high-capacity diffusion transformer policies. The resulting models can efficiently solve diverse tasks on multiple robot embodiments, without the excruciating pain of per-setup hyper-parameter tuning. By combining the results of our investigation with our improved model components, we are able to present a novel architecture, named \method, that significantly outperforms the state of the art in solving long-horizon ($1500+$ time-steps) dexterous tasks on a bi-manual ALOHA robot. In addition, we find that our policies show improved scaling performance when trained on 10 hours of highly multi-modal, language annotated ALOHA demonstration data. We hope this work will open the door for future robot learning techniques that leverage the efficiency of generative diffusion modeling with the scalability of large scale transformer architectures. Code, robot dataset, and videos are available at: https://dit-policy.github.io

arxiv情報

著者 Sudeep Dasari,Oier Mees,Sebastian Zhao,Mohan Kumar Srirama,Sergey Levine
発行日 2024-10-14 02:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする