JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning

要約

モデルベースの強化学習(MBRL)の最近の進歩は、強力な拡散ワールドモデルで訓練された強化学習エージェントによって駆動されるATARI100Kベンチマークで超ヒューマンレベルのパフォーマンスを達成しました。
ただし、現在の集合体が主要なパフォーマンスの非対称性をマスクすることを特定します。MBRLエージェントは、他の人では劇的にパフォーマンスが低下しているにもかかわらず、一部のタスクで人間を劇的に上回り、前者は総メトリックを膨らませます。
これは、拡散世界モデルで訓練されたピクセルベースのエージェントで特に顕著です。
この作業では、ピクセルベースの薬剤で観察された顕著な非対称性に対処します。
すべてのタスクをエージェントオプティマルまたはヒトオプティマルとして描写し、両方のセットのメトリックを同等に重要性を提唱することにより、問題のある集約に対処します。
次に、この顕著な非対称性は、ピクセルベースの方法で世界モデルの目的で訓練された一時的に構造化された潜在的な潜在スペースの欠如によるものであると仮定します。
最後に、この問題に対処するために、共同潜在拡散の世界モデルである共同潜在拡散拡散(JEDI)を提案することを提案します。
Jediは、Atari100Kベンチマーク全体で競争力を維持しながら、人間の最適なタスクでSOTAモデルを上回り、最新のピクセルベースの拡散ベースラインよりも43%低いメモリで3倍速く走ります。
全体として、私たちの仕事は、Atari100Kで人間レベルのパフォーマンスを超えることが本当に意味することを再考します。

要約(オリジナル)

Recent advances in model-based reinforcement learning (MBRL) have achieved super-human level performance on the Atari100k benchmark, driven by reinforcement learning agents trained on powerful diffusion world models. However, we identify that the current aggregates mask a major performance asymmetry: MBRL agents dramatically outperform humans in some tasks despite drastically underperforming in others, with the former inflating the aggregate metrics. This is especially pronounced in pixel-based agents trained with diffusion world models. In this work, we address the pronounced asymmetry observed in pixel-based agents as an initial attempt to reverse the worrying upward trend observed in them. We address the problematic aggregates by delineating all tasks as Agent-Optimal or Human-Optimal and advocate for equal importance on metrics from both sets. Next, we hypothesize this pronounced asymmetry is due to the lack of temporally-structured latent space trained with the World Model objective in pixel-based methods. Lastly, to address this issue, we propose Joint Embedding DIffusion (JEDI), a novel latent diffusion world model trained end-to-end with the self-consistency objective. JEDI outperforms SOTA models in human-optimal tasks while staying competitive across the Atari100k benchmark, and runs 3 times faster with 43% lower memory than the latest pixel-based diffusion baseline. Overall, our work rethinks what it truly means to cross human-level performance in Atari100k.

arxiv情報

著者 Jing Yu Lim,Zarif Ikram,Samson Yu,Haozhe Ma,Tze-Yun Leong,Dianbo Liu
発行日 2025-05-26 08:52:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning はコメントを受け付けていません

Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction

要約

このペーパーでは、動的で不確実な環境でのモバイルロボットを安全かつ効率的に制御するための統合アプローチを提案します。
このアプローチは、動的障害の動きを予測するためのワンショットマルチモーダルモーション予測と、これらの予測をモーション計画プロセスに組み込むためのモデル予測制御の2つの重要なステップで構成されています。
モーション予測は、単一の操作で高解像度のマルチステップ予測を生成するエネルギーベースのニューラルネットワークによって駆動されます。
予測の結果は、数学的制約として定式化された幾何学的形状を作成するためにさらに利用されます。
各動的障害を個別に扱う代わりに、予測された障害物は、パフォーマンスと効率を改善するための監視されていない方法で近接によってグループ化されます。
全体的な衝突のないナビゲーションは、プロアクティブな動的障害物回避のための特定の設計を備えたモデル予測制御によって処理されます。
提案されたアプローチにより、モバイルロボットは動的環境で効果的にナビゲートできます。
そのパフォーマンスは、典型的な倉庫設定を表すさまざまなシナリオにアクセスされます。
結果は、提案されたアプローチが他の既存の動的障害回避方法よりも優れていることを示しています。

要約(オリジナル)

This paper proposes an integrated approach for the safe and efficient control of mobile robots in dynamic and uncertain environments. The approach consists of two key steps: one-shot multimodal motion prediction to anticipate motions of dynamic obstacles and model predictive control to incorporate these predictions into the motion planning process. Motion prediction is driven by an energy-based neural network that generates high-resolution, multi-step predictions in a single operation. The prediction outcomes are further utilized to create geometric shapes formulated as mathematical constraints. Instead of treating each dynamic obstacle individually, predicted obstacles are grouped by proximity in an unsupervised way to improve performance and efficiency. The overall collision-free navigation is handled by model predictive control with a specific design for proactive dynamic obstacle avoidance. The proposed approach allows mobile robots to navigate effectively in dynamic environments. Its performance is accessed across various scenarios that represent typical warehouse settings. The results demonstrate that the proposed approach outperforms other existing dynamic obstacle avoidance methods.

arxiv情報

著者 Ze Zhang,Georg Hess,Junjie Hu,Emmanuel Dean,Lennart Svensson,Knut Åkesson
発行日 2025-05-26 08:53:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction はコメントを受け付けていません

PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram

要約

リアルタイムおよび高性能3Dオブジェクト検出は、自律運転とロボット工学において重要な役割を果たします。
最近の柱ベースの3Dオブジェクト検出器は、コンパクトな表現と計算オーバーヘッドが低いために大きな注目を集めており、オンボードの展開と量子化に適しています。
ただし、既存の柱ベースの検出器は、高さの寸法に沿った情報損失と柱の特徴エンコード(PFE)中の大きな数値分布の違いに依然として悩まされており、パフォーマンスと量子化の可能性を厳しく制限しています。
上記の問題に対処するために、最初にPFE中に異なる入力情報の重要性を発表し、高さのディメンションを3D検出パフォーマンスを強化する重要な要因として特定します。
この観察に動機付けられて、PillarHistと呼ばれる高さに意識した柱機能エンコーダーを提案します。
具体的には、ピラーヒスト統計情報エントロピーガイダンスを備えた1つの柱内の異なる高さでのポイントの離散分布。
このシンプルでありながら効果的なデザインは、高さの次元に沿って情報を大幅に保存しながら、PFEの計算オーバーヘッドを大幅に削減します。
一方、PillarHistは、PFE入力の算術分布を安定した範囲に制約し、量子化に優しいものにします。
特に、PillarhistはPFEステージ内でのみ動作してパフォーマンスを向上させ、複雑な操作を導入せずに既存の柱ベースの方法にシームレスな統合を可能にします。
広範な実験は、効率とパフォーマンスの両方の観点からピラーヒストの有効性を示しています。

要約(オリジナル)

Real-time and high-performance 3D object detection plays a critical role in autonomous driving and robotics. Recent pillar-based 3D object detectors have gained significant attention due to their compact representation and low computational overhead, making them suitable for onboard deployment and quantization. However, existing pillar-based detectors still suffer from information loss along height dimension and large numerical distribution difference during pillar feature encoding (PFE), which severely limits their performance and quantization potential. To address above issue, we first unveil the importance of different input information during PFE and identify the height dimension as a key factor in enhancing 3D detection performance. Motivated by this observation, we propose a height-aware pillar feature encoder, called PillarHist. Specifically, PillarHist statistics the discrete distribution of points at different heights within one pillar with the information entropy guidance. This simple yet effective design greatly preserves the information along the height dimension while significantly reducing the computation overhead of the PFE. Meanwhile, PillarHist also constrains the arithmetic distribution of PFE input to a stable range, making it quantization-friendly. Notably, PillarHist operates exclusively within the PFE stage to enhance performance, enabling seamless integration into existing pillar-based methods without introducing complex operations. Extensive experiments show the effectiveness of PillarHist in terms of both efficiency and performance.

arxiv情報

著者 Sifan Zhou,Zhihang Yuan,Dawei Yang,Ziyu Zhao,Jian Qian,Xing Hu
発行日 2025-05-26 09:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | PillarHist: A Quantization-aware Pillar Feature Encoder based on Height-aware Histogram はコメントを受け付けていません

Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning

要約

模倣学習は、ヒューマノイドロボットでジェネラリストの能力を可能にするための有望なアプローチですが、そのスケーリングは、高品質の専門家デモの希少性によって根本的に制約されています。
この制限は、最適ではないオープンエンドのプレイデータを活用することで軽減でき、多くの場合、収集しやすく、多様性を提供します。
この作業は、生成モデリングの最近の進歩、特にフローマッチング、拡散モデルに代わるものに基づいています。
フローマッチングのユニークな特性、つまり任意のソース分布の決定論的輸送とサポートを活用することにより、学習分布の極端を推定する方法を紹介します。
この方法を適用して、フローマッチングに基づいて、いくつかの目標条件付き模倣および強化学習アルゴリズムを開発します。ここでは、ポリシーは現在と目標の両方の観測に条件付けられます。
批評家、プランナー、俳優、世界モデルなどのコアコンポーネントをさまざまな方法で組み合わせることにより、さまざまなアーキテクチャ構成を調査して比較します。
OGBenchベンチマークでエージェントを評価し、データ収集中の異なるデモの動作が2D非摂食プッシュタスクのパフォーマンスにどのように影響するかを分析しました。
さらに、Talos Humanoidロボットに展開することにより、実際のハードウェアでのアプローチを検証し、高次元の画像観測に基づいて複雑な操作タスクを実行し、現実的なキッチン環境での一連のピックアンドプレイスと明確なオブジェクト操作を特徴としています。
実験的なビデオとコードは、https://hucebot.github.io/extremum_flow_matching_website/で入手できます。

要約(オリジナル)

Imitation learning is a promising approach for enabling generalist capabilities in humanoid robots, but its scaling is fundamentally constrained by the scarcity of high-quality expert demonstrations. This limitation can be mitigated by leveraging suboptimal, open-ended play data, often easier to collect and offering greater diversity. This work builds upon recent advances in generative modeling, specifically Flow Matching, an alternative to Diffusion models. We introduce a method for estimating the extremum of the learned distribution by leveraging the unique properties of Flow Matching, namely, deterministic transport and support for arbitrary source distributions. We apply this method to develop several goal-conditioned imitation and reinforcement learning algorithms based on Flow Matching, where policies are conditioned on both current and goal observations. We explore and compare different architectural configurations by combining core components, such as critic, planner, actor, or world model, in various ways. We evaluated our agents on the OGBench benchmark and analyzed how different demonstration behaviors during data collection affect performance in a 2D non-prehensile pushing task. Furthermore, we validated our approach on real hardware by deploying it on the Talos humanoid robot to perform complex manipulation tasks based on high-dimensional image observations, featuring a sequence of pick-and-place and articulated object manipulation in a realistic kitchen environment. Experimental videos and code are available at: https://hucebot.github.io/extremum_flow_matching_website/

arxiv情報

著者 Quentin Rouxel,Clemente Donoso,Fei Chen,Serena Ivaldi,Jean-Baptiste Mouret
発行日 2025-05-26 09:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning はコメントを受け付けていません

Diffusion-based learning of contact plans for agile locomotion

要約

足のロボットは、過去数年間で非常にダイナミックな操作を行うことができるようになりました。
ただし、踏み台などの高度に制約された環境でのアジャイルな移動は依然として課題です。
この論文では、踏み石のアジャイル運動のための効率的な制御ポリシーを設計するためのモデルベースの制御、検索、および学習の組み合わせを提案します。
私たちのフレームワークでは、非線形モデル予測制御(NMPC)を使用して、特定の連絡先計画の全身運動を生成します。
最適な連絡先計画を効率的に検索するために、モンテカルロツリー検索(MCTS)を使用することを提案します。
MCTとNMPCの組み合わせは、特定の環境(数秒)の実行可能な計画を迅速に見つけることができますが、リアクティブポリシーとして使用するのはまだ適していません。
したがって、特定のシーンに対して最適な目標条件付けされたポリシーのためのデータセットを生成し、監視された学習を通じてそれを学びます。
特に、データセットのマルチモダリティを処理する際に拡散モデルの力を活用します。
提案されたフレームワークは、4倍のロボットSOLO12が、非常に制約された環境でさまざまな目標に正常にジャンプするシナリオでテストします。

要約(オリジナル)

Legged robots have become capable of performing highly dynamic maneuvers in the past few years. However, agile locomotion in highly constrained environments such as stepping stones is still a challenge. In this paper, we propose a combination of model-based control, search, and learning to design efficient control policies for agile locomotion on stepping stones. In our framework, we use nonlinear model predictive control (NMPC) to generate whole-body motions for a given contact plan. To efficiently search for an optimal contact plan, we propose to use Monte Carlo tree search (MCTS). While the combination of MCTS and NMPC can quickly find a feasible plan for a given environment (a few seconds), it is not yet suitable to be used as a reactive policy. Hence, we generate a dataset for optimal goal-conditioned policy for a given scene and learn it through supervised learning. In particular, we leverage the power of diffusion models in handling multi-modality in the dataset. We test our proposed framework on a scenario where our quadruped robot Solo12 successfully jumps to different goals in a highly constrained environment.

arxiv情報

著者 Victor Dhédin,Adithya Kumar Chinnakkonda Ravi,Armand Jordana,Huaijiang Zhu,Avadesh Meduri,Ludovic Righetti,Bernhard Schölkopf,Majid Khadiv
発行日 2025-05-26 09:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Diffusion-based learning of contact plans for agile locomotion はコメントを受け付けていません

HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking

要約

Advanced Driver Assistance Systems(ADAS)の進化により、マルチオブジェクト追跡のための堅牢で一般化可能なアルゴリズムの必要性が高まりました。
従来の統計モデルベースの追跡方法は、事前定義されたモーションモデルとシステムノイズ分布に関する仮定に依存しています。
計算効率が高いですが、多くの場合、さまざまなトラフィックシナリオへの適応性が欠けており、広範な手動設計とパラメーターチューニングが必要です。
これらの問題に対処するために、車両の新しい3Dマルチオブジェクト追跡アプローチであるハイブリッドトラックを提案します。ハイブリッドトラックは、データ駆動型のカルマンフィルター(KF)を追跡ごとのパラダイム内に統合します。
特に、遷移残差とKalmanはデータから直接獲得することを学習し、手動の動きと確率的パラメーターモデリングの必要性を排除します。
実際のキッティデータセットで検証されたHybridTrackは、82.72%のHota精度を達成し、最先端の方法を大幅に上回ります。
また、さまざまな構成の下での方法を評価し、112 fpsの最速処理速度を達成します。
その結果、ハイブリッドトラックは、パフォーマンスを改善し、リアルタイムの効率を維持しながら、シーン固有の設計への依存度を排除します。
このコードは、https://github.com/leandro-svg/hybridtrackで公開されています。

要約(オリジナル)

The evolution of Advanced Driver Assistance Systems (ADAS) has increased the need for robust and generalizable algorithms for multi-object tracking. Traditional statistical model-based tracking methods rely on predefined motion models and assumptions about system noise distributions. Although computationally efficient, they often lack adaptability to varying traffic scenarios and require extensive manual design and parameter tuning. To address these issues, we propose a novel 3D multi-object tracking approach for vehicles, HybridTrack, which integrates a data-driven Kalman Filter (KF) within a tracking-by-detection paradigm. In particular, it learns the transition residual and Kalman gain directly from data, which eliminates the need for manual motion and stochastic parameter modeling. Validated on the real-world KITTI dataset, HybridTrack achieves 82.72% HOTA accuracy, significantly outperforming state-of-the-art methods. We also evaluate our method under different configurations, achieving the fastest processing speed of 112 FPS. Consequently, HybridTrack eliminates the dependency on scene-specific designs while improving performance and maintaining real-time efficiency. The code is publicly available at: https://github.com/leandro-svg/HybridTrack.

arxiv情報

著者 Leandro Di Bella,Yangxintong Lyu,Bruno Cornelis,Adrian Munteanu
発行日 2025-05-26 09:31:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | HybridTrack: A Hybrid Approach for Robust Multi-Object Tracking はコメントを受け付けていません

RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback

要約

Vision-Language-action(VLA)モデルは、具体化されたインテリジェンスの分野で重要な可能性を示しており、エージェントが人間の指示に従って物理的環境で複雑なタスクを完了することを可能にします。
既存の具体化されたエージェントは、多くの場合、行動のクローニングを通じて訓練されます。これは、高価なデータと計算リソースが必要であり、人間のデモによって制約されています。
この問題に対処するために、多くの研究者が具体化されたエージェントに補強微調整の適用を調査します。
ただし、具体化されたエージェントの典型的な補強微調整方法は通常、エピソード内の特定のアクションにきめ細かいフィードバックを提供するのに苦労しているため、モデルの操作機能と一般化パフォーマンスを制限することに苦労しています。
この論文では、具体化されたシナリオで密な報酬を生成するためにバリューモデルを活用する新しい強化微調整方法であるRFTFを提案します。
具体的には、当社のバリューモデルは一時的な情報を使用してトレーニングされており、コストのかかるロボットアクションラベルの必要性を排除します。
さらに、RFTFには、GAEやサンプルバランスなどのさまざまな手法が組み込まれており、微調整プロセスの有効性を高めます。
強化微調整におけるまばらな報酬の問題に対処することにより、この方法は具体化されたエージェントのパフォーマンスを大幅に改善し、多様な具体化されたタスク全体で優れた一般化と適応機能を提供します。
実験結果は、RFTFで微調整された具体化されたエージェントが、平均成功長の4.296で、挑戦的なCalvin ABC-Dで新しい最先端のパフォーマンスを達成することを示しています。
さらに、RFTFは新しい環境への迅速な適応を可能にします。
いくつかのエピソードでカルバンのD環境で微調整した後、RFTFはこの新しい環境で平均成功期間4.301を達成しました。

要約(オリジナル)

Vision-Language-Action (VLA) models have demonstrated significant potential in the field of embodied intelligence, enabling agents to follow human instructions to complete complex tasks in physical environments. Existing embodied agents are often trained through behavior cloning, which requires expensive data and computational resources and is constrained by human demonstrations. To address this issue, many researchers explore the application of reinforcement fine-tuning to embodied agents. However, typical reinforcement fine-tuning methods for embodied agents usually rely on sparse, outcome-based rewards, which struggle to provide fine-grained feedback for specific actions within an episode, thus limiting the model’s manipulation capabilities and generalization performance. In this paper, we propose RFTF, a novel reinforcement fine-tuning method that leverages a value model to generate dense rewards in embodied scenarios. Specifically, our value model is trained using temporal information, eliminating the need for costly robot action labels. In addition, RFTF incorporates a range of techniques, such as GAE and sample balance to enhance the effectiveness of the fine-tuning process. By addressing the sparse reward problem in reinforcement fine-tuning, our method significantly improves the performance of embodied agents, delivering superior generalization and adaptation capabilities across diverse embodied tasks. Experimental results show that embodied agents fine-tuned with RFTF achieve new state-of-the-art performance on the challenging CALVIN ABC-D with an average success length of 4.296. Moreover, RFTF enables rapid adaptation to new environments. After fine-tuning in the D environment of CALVIN for a few episodes, RFTF achieved an average success length of 4.301 in this new environment.

arxiv情報

著者 Junyang Shu,Zhiwei Lin,Yongtao Wang
発行日 2025-05-26 09:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | RFTF: Reinforcement Fine-tuning for Embodied Agents with Temporal Feedback はコメントを受け付けていません

TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning

要約

強化学習のためのスケーラブルで一般化可能な報酬エンジニアリング(RL)の開発は、特にロボット操作の挑戦的な領域で、汎用エージェントを作成するために重要です。
ビジョン言語モデル(VLM)を使用した報酬エンジニアリングの最近の進歩は有望であることを示していますが、それらのまばらな報酬の性質はサンプルの効率を大幅に制限します。
このペーパーでは、事前に訓練されたテキストからビデオへの拡散モデルを活用して、予測された画像シーケンスを現在の観測と比較することにより密な報酬を生成する新しい方法を紹介します。
11の複雑なロボットタスクにわたる実験結果は、Tevirがまばらな報酬やその他の最先端(SOTA)方法を活用する従来の方法を上回り、グラウンドトゥルースの環境報酬なしでサンプル効率とパフォーマンスを実現することを示しています。
複雑な環境でエージェントを効率的にガイドするTevirの能力は、ロボット操作における強化学習アプリケーションを前進させる可能性を強調しています。

要約(オリジナル)

Developing scalable and generalizable reward engineering for reinforcement learning (RL) is crucial for creating general-purpose agents, especially in the challenging domain of robotic manipulation. While recent advances in reward engineering with Vision-Language Models (VLMs) have shown promise, their sparse reward nature significantly limits sample efficiency. This paper introduces TeViR, a novel method that leverages a pre-trained text-to-video diffusion model to generate dense rewards by comparing the predicted image sequence with current observations. Experimental results across 11 complex robotic tasks demonstrate that TeViR outperforms traditional methods leveraging sparse rewards and other state-of-the-art (SOTA) methods, achieving better sample efficiency and performance without ground truth environmental rewards. TeViR’s ability to efficiently guide agents in complex environments highlights its potential to advance reinforcement learning applications in robotic manipulation.

arxiv情報

著者 Yuhui Chen,Haoran Li,Zhennan Jiang,Haowei Wen,Dongbin Zhao
発行日 2025-05-26 09:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | TeViR: Text-to-Video Reward with Diffusion Models for Efficient Reinforcement Learning はコメントを受け付けていません

Integrating emotional intelligence, memory architecture, and gestures to achieve empathetic humanoid robot interaction in an educational setting

要約

この研究では、個々の人間の特性が、対応するエンゲージメントベクトル測定で学生のエンゲージメントと学習成果を改善するために設計された共感的に適応的な教育ロボットチューターシステムに統合することを調査します。
人間とロボットの相互作用(HRI)の分野での以前の研究は、感情的知性、記憶駆動型のパーソナライズ、非言語的コミュニケーションなどの特性の統合をそれ自体で検討しているが、彼らはまるで粘着性のある運用教育フレームワークへの同期された統合を考慮することを無視している。
このギャップに対処するために、人間のような特性(感情、記憶、ジェスチャー)のモジュールで展開されたマルチモーダル大手言語モデル(MetaのLlama 3.2)をAI-Agentフレームワークにカスタマイズします。
これは、人間の感情システム、メモリアーキテクチャ、ジェスチャー制御を模倣するロボットのインテリジェントコアを構成し、ロボットがより共感的に振る舞うことを可能にしながら、学生の感情状態を適切に認識し、反応します。
また、学生の過去の学習記録を思い出し、それに応じて相互作用のスタイルを適応させることもできます。
これにより、ロボットチューターは、関連するジェスチャーと同期したパーソナライズされた口頭フィードバックを提供することにより、より同情的な方法で学生に反応することができます。
私たちの研究では、HRIエクスペリエンスの品質を判断するための測量士のポールになる可能性のあるエンゲージメントベクターモデルの導入を通じて、この効果の範囲を調査しています。
定量的および定性的な結果は、このような共感的応答性のアプローチが、これらの人間のような特性がないベースラインヒューマノイドロボットと比較して、学生の関与と学習の結果を大幅に改善することを示しています。
これは、共感的能力を備えたロボットチューターが、学生にとって最終的により良い結果につながる、より協力的でインタラクティブな学習体験を生み出すことができることを示しています。

要約(オリジナル)

This study investigates the integration of individual human traits into an empathetically adaptive educational robot tutor system designed to improve student engagement and learning outcomes with corresponding Engagement Vector measurement. While prior research in the field of Human-Robot Interaction (HRI) has examined the integration of the traits, such as emotional intelligence, memory-driven personalization, and non-verbal communication, by themselves, they have thus-far neglected to consider their synchronized integration into a cohesive, operational education framework. To address this gap, we customize a Multi-Modal Large Language Model (LLaMa 3.2 from Meta) deployed with modules for human-like traits (emotion, memory and gestures) into an AI-Agent framework. This constitutes to the robot’s intelligent core mimicing the human emotional system, memory architecture and gesture control to allow the robot to behave more empathetically while recognizing and responding appropriately to the student’s emotional state. It can also recall the student’s past learning record and adapt its style of interaction accordingly. This allows the robot tutor to react to the student in a more sympathetic manner by delivering personalized verbal feedback synchronized with relevant gestures. Our study investigates the extent of this effect through the introduction of Engagement Vector Model which can be a surveyor’s pole for judging the quality of HRI experience. Quantitative and qualitative results demonstrate that such an empathetic responsive approach significantly improves student engagement and learning outcomes compared with a baseline humanoid robot without these human-like traits. This indicates that robot tutors with empathetic capabilities can create a more supportive, interactive learning experience that ultimately leads to better outcomes for the student.

arxiv情報

著者 Fuze Sun,Lingyu Li,Shixiangyue Meng,Xiaoming Teng,Terry Payne,Paul Craig
発行日 2025-05-26 10:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Integrating emotional intelligence, memory architecture, and gestures to achieve empathetic humanoid robot interaction in an educational setting はコメントを受け付けていません

Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees

要約

回帰、条件付き確率推定、および不確実性の定量化の多くの現実世界の応用では、物理学またはジオメトリに根ざした対称性を悪用すると、一般化とサンプル効率が劇的に改善される可能性があります。
幾何学的な深い学習は、グループ理論構造を組み込むことにより大きな経験的進歩をもたらしましたが、統計学習保証にはあまり注意が払われていません。
このホワイトペーパーでは、回帰、条件付き確率推定、および不確実性の定量化に対処しながら、類似の非症状の統計学習保証を提供する同時に、同時に表現学習フレームワークを紹介します。
オペレーターとグループの表現理論に基づいて、我々のフレームワークは、条件付き期待演算子のスペクトル分解に近似し、独立した対称サブグループに沿って同等で解き放たれた構築表現を構築します。
合成データセットと実際のロボット工学アプリケーションに関する経験的評価は、当社のアプローチの可能性を確認し、既存の等縁事項ベースラインを回帰に一致またはアウトパフォームしながら、さらに適切に調整されたパラメトリックの不確実性推定値を提供します。

要約(オリジナル)

In many real-world applications of regression, conditional probability estimation, and uncertainty quantification, exploiting symmetries rooted in physics or geometry can dramatically improve generalization and sample efficiency. While geometric deep learning has made significant empirical advances by incorporating group-theoretic structure, less attention has been given to statistical learning guarantees. In this paper, we introduce an equivariant representation learning framework that simultaneously addresses regression, conditional probability estimation, and uncertainty quantification while providing first-of-its-kind non-asymptotic statistical learning guarantees. Grounded in operator and group representation theory, our framework approximates the spectral decomposition of the conditional expectation operator, building representations that are both equivariant and disentangled along independent symmetry subgroups. Empirical evaluations on synthetic datasets and real-world robotics applications confirm the potential of our approach, matching or outperforming existing equivariant baselines in regression while additionally providing well-calibrated parametric uncertainty estimates.

arxiv情報

著者 Daniel Ordoñez-Apraez,Alek Fröhlich,Vladimir Kostić,Karim Lounici,Vivien Brandt,Massimiliano Pontil
発行日 2025-05-26 10:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 43-06, cs.AI, cs.LG, cs.RO, I.2.6 | Equivariant Representation Learning for Symmetry-Aware Inference with Guarantees はコメントを受け付けていません