4-LEGS: 4D Language Embedded Gaussian Splatting

要約

ニューラル表現の出現は、幅広い 3D シーンをデジタルで表示する手段に革命をもたらし、新しいビューからレンダリングされたフォトリアリスティックな画像の合成を可能にしました。
最近、これらの低レベル表現をシーン内に具体化された高レベルの意味論的理解と接続するためのいくつかの技術が提案されています。
これらの方法は、2D 画像から 3D 表現への豊かな意味の理解を高め、高次元の空間特徴を 3D 空間に抽出します。
私たちの仕事では、言語を世界の動的なモデリングと結び付けることに興味があります。
3D ガウス スプラッティングに基づいて時空間特徴を 4D 表現に引き上げる方法を示します。
これにより、ユーザーがテキスト プロンプトからビデオ内のイベントを時空間的に特定できる対話型インターフェイスが可能になります。
私たちは、さまざまなアクションを実行する人々や動物の公開 3D ビデオ データセット上でシステムをデモンストレーションします。

要約(オリジナル)

The emergence of neural representations has revolutionized our means for digitally viewing a wide range of 3D scenes, enabling the synthesis of photorealistic images rendered from novel views. Recently, several techniques have been proposed for connecting these low-level representations with the high-level semantics understanding embodied within the scene. These methods elevate the rich semantic understanding from 2D imagery to 3D representations, distilling high-dimensional spatial features onto 3D space. In our work, we are interested in connecting language with a dynamic modeling of the world. We show how to lift spatio-temporal features to a 4D representation based on 3D Gaussian Splatting. This enables an interactive interface where the user can spatiotemporally localize events in the video from text prompts. We demonstrate our system on public 3D video datasets of people and animals performing various actions.

arxiv情報

著者 Gal Fiebelman,Tamir Cohen,Ayellet Morgenstern,Peter Hedman,Hadar Averbuch-Elor
発行日 2024-10-15 09:34:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | 4-LEGS: 4D Language Embedded Gaussian Splatting はコメントを受け付けていません

LiveXiv — A Multi-Modal Live Benchmark Based on Arxiv Papers Content

要約

Web から収集したデータに関するマルチモーダル モデルの大規模トレーニングは、複数の下流タスクを効果的に実行するために必要な世界の知識をこれらのモデルに注入する際に優れた有用性を示しています。
ただし、Web からデータをスクレイピングすることの欠点の 1 つは、これらのモデルの能力が評価されるベンチマークが犠牲になる可能性があることです。
テストデータの汚染を防ぎ、これらの基礎モデルの能力を真にテストするために、私たちは LiveXiv を提案します。これは、ArXiv の科学論文に基づいた、スケーラブルに進化するライブ ベンチマークです。
LiveXiv は、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な質問と回答のペア (VQA) を自動的に生成することを提案します。
これは、原稿内のグラフ、チャート、表などのマルチモーダル コンテンツを使用して、人間の関与なしで行われます。
さらに、モデルのサブセットのみの評価を使用して、進化するベンチマーク上のすべてのモデルのパフォーマンスを推定する効率的な評価アプローチを導入します。
これにより、全体の評価コストが大幅に削減されます。
複数のオープンかつ独自の大規模マルチモーダル モデル (LMM) をベンチマークの最初のバージョンでベンチマークし、その困難な性質を示し、モデルの真の能力を明らかにして汚染を回避します。
最後に、高品質への取り組みとして、手動で検証されたサブセットを収集して評価しました。
全体的な結果を自動アノテーションと比較すると、パフォーマンスの差異は実際に最小限 (<2.5%) であることがわかりました。 私たちのデータセットはオンラインの HuggingFace で入手でき、コードはここから入手できます。

要約(オリジナル)

The large-scale training of multi-modal models on data scraped from the web has shown outstanding utility in infusing these models with the required world knowledge to perform effectively on multiple downstream tasks. However, one downside of scraping data from the web can be the potential sacrifice of the benchmarks on which the abilities of these models are often evaluated. To safeguard against test data contamination and to truly test the abilities of these foundation models we propose LiveXiv: A scalable evolving live benchmark based on scientific ArXiv papers. LiveXiv accesses domain-specific manuscripts at any given timestamp and proposes to automatically generate visual question-answer pairs (VQA). This is done without any human-in-the-loop, using the multi-modal content in the manuscripts, like graphs, charts, and tables. Moreover, we introduce an efficient evaluation approach that estimates the performance of all models on the evolving benchmark using evaluations of only a subset of models. This significantly reduces the overall evaluation cost. We benchmark multiple open and proprietary Large Multi-modal Models (LMMs) on the first version of our benchmark, showing its challenging nature and exposing the models true abilities, avoiding contamination. Lastly, in our commitment to high quality, we have collected and evaluated a manually verified subset. By comparing its overall results to our automatic annotations, we have found that the performance variance is indeed minimal (<2.5%). Our dataset is available online on HuggingFace, and our code will be available here.

arxiv情報

著者 Nimrod Shabtay,Felipe Maia Polo,Sivan Doveh,Wei Lin,M. Jehanzeb Mirza,Leshem Chosen,Mikhail Yurochkin,Yuekai Sun,Assaf Arbelle,Leonid Karlinsky,Raja Giryes
発行日 2024-10-15 06:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LiveXiv — A Multi-Modal Live Benchmark Based on Arxiv Papers Content はコメントを受け付けていません

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

要約

マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が可能な共同確率モデルの開発が推進されています。
しかし、最近の方法では、画像の離散化または拡散ノイズ除去ステップのいずれかにより、タスクを理解する際に画像情報の損失が避けられないことが判明しました。
この問題に対処するために、新しいマルチモーダル自己回帰 (MMAR) 確率モデリング フレームワークを提案します。
離散化系の手法とは異なり、MMAR は連続値のイメージ トークンを取り込んで情報損失を回避します。
拡散ベースのアプローチとは異なり、各自動回帰画像パッチ埋め込みの上に軽量拡散ヘッドを採用することで、自己回帰バックボーン モデルから拡散プロセスを解きほぐします。
このように、モデルが画像生成からテキスト生成を介した理解に移行するとき、バックボーン モデルの画像の隠蔽表現は最後のノイズ除去ステップに限定されません。
私たちのメソッドをうまくトレーニングするために、数値安定性の問題に対処する理論的に証明された手法と、タスク目標の生成と理解のバランスをとるト​​レーニング戦略も提案します。
18 の画像理解ベンチマークの広範な評価を通じて、MMAR は他の統合マルチモーダル モデルよりもはるかに優れたパフォーマンスを示し、事前学習済みの CLIP ビジョン エンコーダーを使用する方法と一致し、同時に高品質の画像を生成できます。
また、私たちの方法がより大きなデータとモデルのサイズにも拡張可能であることも示しました。

要約(オリジナル)

Recent advancements in multi-modal large language models have propelled the development of joint probabilistic models capable of both image understanding and generation. However, we have identified that recent methods inevitably suffer from loss of image information during understanding task, due to either image discretization or diffusion denoising steps. To address this issue, we propose a novel Multi-Modal Auto-Regressive (MMAR) probabilistic modeling framework. Unlike discretization line of method, MMAR takes in continuous-valued image tokens to avoid information loss. Differing from diffusion-based approaches, we disentangle the diffusion process from auto-regressive backbone model by employing a light-weight diffusion head on top each auto-regressed image patch embedding. In this way, when the model transits from image generation to understanding through text generation, the backbone model’s hidden representation of the image is not limited to the last denoising step. To successfully train our method, we also propose a theoretically proven technique that addresses the numerical stability issue and a training strategy that balances the generation and understanding task goals. Through extensive evaluations on 18 image understanding benchmarks, MMAR demonstrates much more superior performance than other joint multi-modal models, matching the method that employs pretrained CLIP vision encoder, meanwhile being able to generate high quality images at the same time. We also showed that our method is scalable with larger data and model size.

arxiv情報

著者 Jian Yang,Dacheng Yin,Yizhou Zhou,Fengyun Rao,Wei Zhai,Yang Cao,Zheng-Jun Zha
発行日 2024-10-15 06:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling はコメントを受け付けていません

CarbonFish — A Bistable Underactuated Compliant Fish Robot capable of High Frequency Undulation

要約

ヘア クリップ メカニズム HCM は、これまでの研究で説明したように、ソフト ロボット工学の優れた機能を強化するために考案された、革新的な面内プレストレス双安定メカニズムを表しています。
従来のソフトで従順なロボット システムと並べると、HCM は顕著な剛性、可動性の向上、再現可能な再現性、および効果的な設計および製造パラダイムを示します。
この研究では、炭素繊維強化プラスチック CFRP を HCM ベースの魚ロボット (以下、CarbonFish と呼ぶ) の基礎材料として利用する可能性を調査します。
私たちの目標は、高周波の波状運動を実現することに重点を置き、それによって後続のモデルで水中移動を加速するための基礎を築きます。
当社は、数学的原理に裏付けられた徹底的な設計および製造スキームを提供します。
当社の単一作動 CarbonFish の予備評価では、10 Hz に近い波動周波数が証明されており、生物学的にインスピレーションを得た他の水生生物や本物の魚を上回る可能性があることが示唆されています。

要約(オリジナル)

The Hair Clip Mechanism HCM represents an innovative in plane prestressed bistable mechanism, as delineated in our preceding studies, devised to augment the functional prowess of soft robotics. When juxtaposed with conventional soft and compliant robotic systems, HCMs exhibit pronounced rigidity, augmented mobility, reproducible repeatability, and an effective design and fabrication paradigm. In this research, we investigate the feasibility of utilizing carbon fiber reinforced plastic CFRP as the foundational material for an HCM based fish robot, herein referred to as CarbonFish. Our objective centers on realizing high frequency undulatory motion, thereby laying the groundwork for accelerated aquatic locomotion in subsequent models. We proffer an exhaustive design and fabrication schema underpinned by mathematical principles. Preliminary evaluations of our single actuated CarbonFish have evidenced an undulation frequency approaching 10 Hz, suggesting its potential to outperform other biologically inspired aquatic entities as well as real fish.

arxiv情報

著者 Zechen Xiong,Zihan Guo,Mark Liu,Jialong Ning,Hod Lipson
発行日 2024-10-13 18:29:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | CarbonFish — A Bistable Underactuated Compliant Fish Robot capable of High Frequency Undulation はコメントを受け付けていません

MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations

要約

共有ダイナミクス モデルは、ヒューマン ロボット インタラクション (HRI) に固有の複雑さと変動性を把握するために重要です。
したがって、このような共有ダイナミクス モデルを学習すると、協調性と適応性が強化され、人間のパートナーとの反応的な相互作用を成功させることができます。
この研究では、人間の観察からロボットの動作を反応的に生成するために、専門家混合の方法でデモンストレーションから HRI の共有潜在空間表現を学習するための新しいアプローチを提案します。
混合密度ネットワーク (MDN) を介して人間の観察のマルチモダリティを捕捉する情報潜在空間事前を使用して正規化されたロボットの動きを学習するために、変分オートエンコーダー (VAE) をトレーニングします。
私たちの定式化が、人間とロボットの動作にわたる同時分布を学習するための HMM/GMM の使用など、デモンストレーションから HRI を学習するために通常使用されるアプローチである混合ガウス回帰定式化からどのように導出されるかを示します。
さらに、VAE で潜在空間混合モデルを使用する場合に一般的な現象である「モード崩壊」を防ぐために、追加の正則化を組み込みます。
VAE に対して人間の観察から事前に有益な MDN を使用するアプローチは、共有潜在表現を学習する以前の HMM ベースのアプローチや反復的なアプローチと比較して、より正確なロボットの動作を生成することがわかりました。これは、ハンドシェイクなどのインタラクションを含むさまざまな HRI データセットで検証されています。
ガッツポーズ、手を振り、そして引き継ぎ。
現実世界の人間からロボットへの引き継ぎシナリオでのさらなる実験では、4 つの異なる人間の対話パートナーとの対話を成功させるための私たちのアプローチの有効性が示されています。

要約(オリジナル)

Shared dynamics models are important for capturing the complexity and variability inherent in Human-Robot Interaction (HRI). Therefore, learning such shared dynamics models can enhance coordination and adaptability to enable successful reactive interactions with a human partner. In this work, we propose a novel approach for learning a shared latent space representation for HRIs from demonstrations in a Mixture of Experts fashion for reactively generating robot actions from human observations. We train a Variational Autoencoder (VAE) to learn robot motions regularized using an informative latent space prior that captures the multimodality of the human observations via a Mixture Density Network (MDN). We show how our formulation derives from a Gaussian Mixture Regression formulation that is typically used approaches for learning HRI from demonstrations such as using an HMM/GMM for learning a joint distribution over the actions of the human and the robot. We further incorporate an additional regularization to prevent ‘mode collapse’, a common phenomenon when using latent space mixture models with VAEs. We find that our approach of using an informative MDN prior from human observations for a VAE generates more accurate robot motions compared to previous HMM-based or recurrent approaches of learning shared latent representations, which we validate on various HRI datasets involving interactions such as handshakes, fistbumps, waving, and handovers. Further experiments in a real-world human-to-robot handover scenario show the efficacy of our approach for generating successful interactions with four different human interaction partners.

arxiv情報

著者 Vignesh Prasad,Alap Kshirsagar,Dorothea Koert,Ruth Stock-Homburg,Jan Peters,Georgia Chalvatzaki
発行日 2024-10-13 18:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations はコメントを受け付けていません

Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions

要約

モデルベース強化学習 (MBRL) の最近の進歩により、MBRL は視覚的な制御タスクのための強力なツールになりました。
データ効率が向上したにもかかわらず、一般化可能な認識を備えた MBRL エージェントをトレーニングすることは依然として困難です。
視覚的な気を散らすものが存在する場合のトレーニングは、視覚的なものが表現学習に大きな変動をもたらすため、特に困難です。
人気のある MBRL 手法である DREAMER に基づいて、気が散る環境での表現学習を促進するためのシンプルかつ効果的な補助タスクを提案します。
画像観察のタスク関連コンポーネントは、特定のタスクの事前知識によって簡単に識別できるという仮定の下、画像観察にセグメンテーション マスクを使用して、タスク関連コンポーネントのみを再構成します。
そうすることで、タスクに関係のないオブジェクトを潜在表現でエンコードする必要がなくなり、表現学習の複雑さが大幅に軽減されます。
私たちの手法であるセグメンテーション ドリーマー (SD) は、シミュレーションで簡単にアクセスできるグラウンドトゥルース マスクとともに使用することも、不完全な可能性があるセグメンテーション基礎モデルを活用することによっても使用できます。
後者は、マスク予測誤差による誤解を招く学習信号の提供を避けるために、再構成損失を選択的に適用することによってさらに改善されます。
修正された DeepMind Control Suite (DMC) および視覚的な注意をそらすメタワールド タスクでは、SD は以前の作業よりも大幅に優れたサンプル効率と優れた最終パフォーマンスを達成しました。
SD は、以前の研究では解決できなかった、報酬がまばらなタスクに特に役立ち、広範な報酬エンジニアリングを必要とせずに視覚的に堅牢なエージェントのトレーニングを可能にすることがわかりました。

要約(オリジナル)

Recent advancements in Model-Based Reinforcement Learning (MBRL) have made it a powerful tool for visual control tasks. Despite improved data efficiency, it remains challenging to train MBRL agents with generalizable perception. Training in the presence of visual distractions is particularly difficult due to the high variation they introduce to representation learning. Building on DREAMER, a popular MBRL method, we propose a simple yet effective auxiliary task to facilitate representation learning in distracting environments. Under the assumption that task-relevant components of image observations are straightforward to identify with prior knowledge in a given task, we use a segmentation mask on image observations to only reconstruct task-relevant components. In doing so, we greatly reduce the complexity of representation learning by removing the need to encode task-irrelevant objects in the latent representation. Our method, Segmentation Dreamer (SD), can be used either with ground-truth masks easily accessible in simulation or by leveraging potentially imperfect segmentation foundation models. The latter is further improved by selectively applying the reconstruction loss to avoid providing misleading learning signals due to mask prediction errors. In modified DeepMind Control suite (DMC) and Meta-World tasks with added visual distractions, SD achieves significantly better sample efficiency and greater final performance than prior work. We find that SD is especially helpful in sparse reward tasks otherwise unsolvable by prior work, enabling the training of visually robust agents without the need for extensive reward engineering.

arxiv情報

著者 Kyungmin Kim,JB Lanier,Pierre Baldi,Charless Fowlkes,Roy Fox
発行日 2024-10-13 19:24:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions はコメントを受け付けていません

REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding

要約

この論文では、ロボット支援による柔らかい食品の給餌における咬合獲得を強化するために設計された Real2Sim2Real フレームワークである REPeat について紹介します。
押す、切る、ひっくり返すなどの「事前獲得アクション」を使用して、串刺し、すくい、回すなどのバイト獲得アクションの成功率を向上させます。
データ駆動型モデルが直接咬合獲得の成功率が低いと予測した場合、システムは Real2Sim フェーズを開始し、シミュレーションで餌の形状を再構築します。
ロボットはシミュレーションでさまざまな事前取得アクションを調査し、その後、Sim2Real ステップでフォトリアリスティックな画像をレンダリングして成功率を再評価します。
成功率が向上すると、ロボットはそのアクションを現実に適用します。
ソフト食用の 10 種類の食品を含む 15 枚の多様なプレートでシステムを評価したところ、すべてのプレートで平均 27% の咬合獲得成功率の向上が示されました。
プロジェクト Web サイト (https://emprise.cs.cornell.edu/repeat) をご覧ください。

要約(オリジナル)

The paper presents REPeat, a Real2Sim2Real framework designed to enhance bite acquisition in robot-assisted feeding for soft foods. It uses `pre-acquisition actions’ such as pushing, cutting, and flipping to improve the success rate of bite acquisition actions such as skewering, scooping, and twirling. If the data-driven model predicts low success for direct bite acquisition, the system initiates a Real2Sim phase, reconstructing the food’s geometry in a simulation. The robot explores various pre-acquisition actions in the simulation, then a Sim2Real step renders a photorealistic image to reassess success rates. If the success improves, the robot applies the action in reality. We evaluate the system on 15 diverse plates with 10 types of food items for a soft food diet, showing improvement in bite acquisition success rates by 27\% on average across all plates. See our project website at https://emprise.cs.cornell.edu/repeat.

arxiv情報

著者 Nayoung Ha,Ruolin Ye,Ziang Liu,Shubhangi Sinha,Tapomayukh Bhattacharjee
発行日 2024-10-13 21:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding はコメントを受け付けていません

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

要約

文献ではさまざまな方法が提案されていますが、物理システムの効率的かつ効果的な潜在空間制御 (つまり、学習された低次元空間での制御) は依然として未解決の課題です。
私たちは、有望な手段は、制御理論の文献から得られる強力でよく理解されている閉じた形式の戦略を、位置エネルギー形成などの学習されたダイナミクスと組み合わせて活用することであると主張します。
我々は、これまでのところこの強力な組み合わせを妨げている既存の潜在空間モデルの 3 つの根本的な欠点を特定します。(i) モデルには物理システムの数学的構造が欠如している、(ii) 現実のシステムの安定性特性が本質的に保存されていない、(
iii) これらのメソッドには、入力と潜在空間強制の間の可逆マッピングがありません。
この研究では、これらすべての問題に同時に取り組む新しい結合発振器ネットワーク (CON) モデルを提案します。
より具体的には、(i) CON がラグランジュ系であること、つまり、明確に定義された位置エネルギー項と運動エネルギー項を持っていることを分析的に示します。
次に、(ii) Lyapunov 引数を使用して、グローバルな入力から状態への安定性の正式な証明を提供します。
実験側に移り、機械システムの複雑な非線形ダイナミクスを画像から直接学習する場合、CON が SoA パフォーマンスに達することを実証します。
この 3 番目の目標の達成に貢献する追加の方法論的革新は、ネットワーク ダイナミクスを効率的に統合するための近似閉形式ソリューションであり、これにより効率的なトレーニングが容易になります。
(iii) には、エンコードされた潜在空間力に基づいて入力を再構成するように訓練されたデコーダを使用して、強制と入力のマッピングを近似することで取り組みます。
最後に、これらのプロパティによって潜在空間制御がどのように可能になるかを示します。
潜在的な力の補償を備えた積分飽和 PID を使用し、生のピクセルを唯一のフィードバック情報として使用してソフト ロボット上で高品質のパフォーマンスを実証します。

要約(オリジナル)

Even though a variety of methods have been proposed in the literature, efficient and effective latent-space control (i.e., control in a learned low-dimensional space) of physical systems remains an open challenge. We argue that a promising avenue is to leverage powerful and well-understood closed-form strategies from control theory literature in combination with learned dynamics, such as potential-energy shaping. We identify three fundamental shortcomings in existing latent-space models that have so far prevented this powerful combination: (i) they lack the mathematical structure of a physical system, (ii) they do not inherently conserve the stability properties of the real systems, (iii) these methods do not have an invertible mapping between input and latent-space forcing. This work proposes a novel Coupled Oscillator Network (CON) model that simultaneously tackles all these issues. More specifically, (i) we show analytically that CON is a Lagrangian system – i.e., it possesses well-defined potential and kinetic energy terms. Then, (ii) we provide formal proof of global Input-to-State stability using Lyapunov arguments. Moving to the experimental side, we demonstrate that CON reaches SoA performance when learning complex nonlinear dynamics of mechanical systems directly from images. An additional methodological innovation contributing to achieving this third goal is an approximated closed-form solution for efficient integration of network dynamics, which eases efficient training. We tackle (iii) by approximating the forcing-to-input mapping with a decoder that is trained to reconstruct the input based on the encoded latent space force. Finally, we show how these properties enable latent-space control. We use an integral-saturated PID with potential force compensation and demonstrate high-quality performance on a soft robot using raw pixels as the only feedback information.

arxiv情報

著者 Maximilian Stölzle,Cosimo Della Santina
発行日 2024-10-13 22:04:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY | Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space はコメントを受け付けていません

VQ-CNMP: Neuro-Symbolic Skill Learning for Bi-Level Planning

要約

この論文では、ラベルのないデモンストレーション データから高レベルのスキル表現を発見できる新しいニューラル ネットワーク モデルを提案します。
また、勾配ベースの計画アプローチを使用してモデルを利用する 2 レベルの計画パイプラインも提案します。
このモデルは高レベルの表現を抽出する一方で、低レベルのアクション計画に使用できる低レベルの情報も保存します。
実験では、さまざまな条件下でモデルのスキル発見パフォーマンスをテストし、マルチモーダル LLM を利用して学習された高レベルのスキル表現にラベルを付けることができるかどうかをテストし、最後にモデルの高レベルおよび低レベルの計画パフォーマンスをテストしました。
私たちのパイプライン。

要約(オリジナル)

This paper proposes a novel neural network model capable of discovering high-level skill representations from unlabeled demonstration data. We also propose a bi-level planning pipeline that utilizes our model using a gradient-based planning approach. While extracting high-level representations, our model also preserves the low-level information, which can be used for low-level action planning. In the experiments, we tested the skill discovery performance of our model under different conditions, tested whether Multi-Modal LLMs can be utilized to label the learned high-level skill representations, and finally tested the high-level and low-level planning performance of our pipeline.

arxiv情報

著者 Hakan Aktas,Emre Ugur
発行日 2024-10-13 23:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | VQ-CNMP: Neuro-Symbolic Skill Learning for Bi-Level Planning はコメントを受け付けていません

E2H: A Two-Stage Non-Invasive Neural Signal Driven Humanoid Robotic Whole-Body Control Framework

要約

階層型強化学習ベースの制御の統合や LLM 計画の利用など、ヒューマノイド ロボット工学の最近の進歩により、複雑なタスクを実行するロボットの能力が大幅に向上しました。
高度に発達した人型ロボットとは対照的に、関与する人間的要素は比較的未解明なままです。
人型ロボットを脳で直接制御するという手法は、『パシフィック・リム』や『ガンダム』など、すでに多くのSF小説に登場しています。
この研究では、高周波の非侵襲性神経信号を使用したヒューマノイド ロボットの制御の先駆けとなる革新的なフレームワークである E2H (EEG-to-Humanoid) を紹介します。
正確な空間軌跡をデコードする際の非侵襲的な信号品質は依然として低いため、E2H フレームワークを革新的な 2 段階構成に分解します。1) 神経信号 (EEG) を意味論的なモーション キーワードにデコードし、2) LLM を利用して、モーション生成を促進します。
人型ロボット制御を実現するための精密な動作模倣制御ポリシー。
脳波コマンドでロボットを直接駆動する方法は、特に言語障害、宇宙探査、水中探査など、口頭によるコマンドが現実的ではない状況において、人間と機械のコラボレーションに対する新しいアプローチを提供し、大きな可能性を解き放ちます。
E2H は、人間とコンピューターの相互作用に計り知れない可能性を秘めた、刺激的な未来を垣間見ることができます。

要約(オリジナル)

Recent advancements in humanoid robotics, including the integration of hierarchical reinforcement learning-based control and the utilization of LLM planning, have significantly enhanced the ability of robots to perform complex tasks. In contrast to the highly developed humanoid robots, the human factors involved remain relatively unexplored. Directly controlling humanoid robots with the brain has already appeared in many science fiction novels, such as Pacific Rim and Gundam. In this work, we present E2H (EEG-to-Humanoid), an innovative framework that pioneers the control of humanoid robots using high-frequency non-invasive neural signals. As the none-invasive signal quality remains low in decoding precise spatial trajectory, we decompose the E2H framework in an innovative two-stage formation: 1) decoding neural signals (EEG) into semantic motion keywords, 2) utilizing LLM facilitated motion generation with a precise motion imitation control policy to realize humanoid robotics control. The method of directly driving robots with brainwave commands offers a novel approach to human-machine collaboration, especially in situations where verbal commands are impractical, such as in cases of speech impairments, space exploration, or underwater exploration, unlocking significant potential. E2H offers an exciting glimpse into the future, holding immense potential for human-computer interaction.

arxiv情報

著者 Yiqun Duan,Qiang Zhang,Jinzhao Zhou,Jingkai Sun,Xiaowei Jiang,Jiahang Cao,Jiaxu Wang,Yiqian Yang,Wen Zhao,Gang Han,Yijie Guo,Chin-Teng Lin
発行日 2024-10-14 00:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | E2H: A Two-Stage Non-Invasive Neural Signal Driven Humanoid Robotic Whole-Body Control Framework はコメントを受け付けていません