Reasoning LLMs for User-Aware Multimodal Conversational Agents

要約

ソーシャルロボット工学のパーソナライズは、効果的な人間とロボットの相互作用を促進するために重要ですが、システムは初期のユーザーの好みや特性が利用できないコールドスタートの問題に直面することがよくあります。
このペーパーでは、動的なユーザープロファイリングとモデルの開始を通じてこの課題に対処するユーザー認識の会話エージェントのユーザー-LLM R1と呼ばれる新しいフレームワークを提案します。
当社のアプローチは、チェーンオブテアの(COT)推論モデルを統合して、ユーザーの好みとビジョン言語モデル(VLM)を繰り返し推測して、マルチモーダル入力からユーザープロファイルを初期化し、最初の出会いからパーソナライズされた対話を可能にします。
検索された生成(RAG)アーキテクチャを活用すると、システムは固有のCOTプロセス内でユーザー表現を動的に改良し、コンテキストに関連する適応的応答を確保します。
高齢者Tech-VQAベンチでの評価は、Rouge-1(+23.2%)、Rouge-2(+0.6%)、およびRouge-L(+8%)F1の最先端のベースラインを超える大幅な改善を示しています。
人間の評価は、特にカスタマイズされた応答がエンゲージメントと信頼を高める高齢者のユーザーにとって、フレームワークの有効性をさらに検証します。
プライバシーの保存やバイアス緩和を含む倫理的な考慮事項は、責任ある展開を確実にするために厳密に議論され、対処されます。

要約(オリジナル)

Personalization in social robotics is critical for fostering effective human-robot interactions, yet systems often face the cold start problem, where initial user preferences or characteristics are unavailable. This paper proposes a novel framework called USER-LLM R1 for a user-aware conversational agent that addresses this challenge through dynamic user profiling and model initiation. Our approach integrates chain-of-thought (CoT) reasoning models to iteratively infer user preferences and vision-language models (VLMs) to initialize user profiles from multimodal inputs, enabling personalized interactions from the first encounter. Leveraging a Retrieval-Augmented Generation (RAG) architecture, the system dynamically refines user representations within an inherent CoT process, ensuring contextually relevant and adaptive responses. Evaluations on the ElderlyTech-VQA Bench demonstrate significant improvements in ROUGE-1 (+23.2%), ROUGE-2 (+0.6%), and ROUGE-L (+8%) F1 scores over state-of-the-art baselines, with ablation studies underscoring the impact of reasoning model size on performance. Human evaluations further validate the framework’s efficacy, particularly for elderly users, where tailored responses enhance engagement and trust. Ethical considerations, including privacy preservation and bias mitigation, are rigorously discussed and addressed to ensure responsible deployment.

arxiv情報

著者 Hamed Rahimi,Jeanne Cattoni,Meriem Beghili,Mouad Abrini,Mahdi Khoramshahi,Maribel Pino,Mohamed Chetouani
発行日 2025-04-02 13:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Reasoning LLMs for User-Aware Multimodal Conversational Agents はコメントを受け付けていません

TransforMerger: Transformer-based Voice-Gesture Fusion for Robust Human-Robot Communication

要約

人間とロボットのコラボレーションが進むにつれて、効果的なロボット制御には、自然で柔軟な通信方法が不可欠です。
単一のモダリティまたは厳格なルールに依存している従来の方法は、騒々しいまたは不整合されたデータや、事前に定義されたオブジェクト名に完全に適合しないオブジェクトの説明(たとえば、「その赤いオブジェクトを選ぶ」)に苦労しています。
融合音声とジェスチャー入力に基づいてロボット操作のために構造化されたアクションコマンドを推進するトランスベースの推論モデルであるTransformergerを紹介します。
私たちのアプローチは、マルチモーダルデータを単一の統一文に融合し、言語モデルによって処理されます。
不確実性を処理するために確率的な埋め込みを採用し、コンテキストシーンの理解を統合して曖昧な参照を解決します(たとえば、複数のオブジェクトまたは「この」のような曖昧な言葉の手がかりを指すジェスチャー)。
シミュレートされた現実世界の実験で変圧器を評価し、ノイズへの堅牢性、不整合、および欠落情報を示します。
私たちの結果は、Transformergerが、より堅牢で柔軟な人間のロボットコミュニケーションを可能にする、より多くの文脈的知識を必要とするシナリオで、決定論的なベースラインよりも優れていることを示しています。
コードとデータセットは、http://imitrob.ciirc.cvut.cz/publications/transformergerで入手できます。

要約(オリジナル)

As human-robot collaboration advances, natural and flexible communication methods are essential for effective robot control. Traditional methods relying on a single modality or rigid rules struggle with noisy or misaligned data as well as with object descriptions that do not perfectly fit the predefined object names (e.g. ‘Pick that red object’). We introduce TransforMerger, a transformer-based reasoning model that infers a structured action command for robotic manipulation based on fused voice and gesture inputs. Our approach merges multimodal data into a single unified sentence, which is then processed by the language model. We employ probabilistic embeddings to handle uncertainty and we integrate contextual scene understanding to resolve ambiguous references (e.g., gestures pointing to multiple objects or vague verbal cues like ‘this’). We evaluate TransforMerger in simulated and real-world experiments, demonstrating its robustness to noise, misalignment, and missing information. Our results show that TransforMerger outperforms deterministic baselines, especially in scenarios requiring more contextual knowledge, enabling more robust and flexible human-robot communication. Code and datasets are available at: http://imitrob.ciirc.cvut.cz/publications/transformerger.

arxiv情報

著者 Petr Vanc,Karla Stepanova
発行日 2025-04-02 13:15:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.RO | TransforMerger: Transformer-based Voice-Gesture Fusion for Robust Human-Robot Communication はコメントを受け付けていません

Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning

要約

現実的なデータ、特に最適下の行動ポリシーを通じて収集された非専門家データを使用して、オフライン強化学習の課題に対処します。
このような状況では、学習ポリシーは、オフラインデータから非専門家(悪い)デモンストレーションに対処するのに十分な柔軟性を維持しながら、\ textIT {Distribution Shift}を管理するのに十分安全でなければなりません。
結果がオフラインデータに基づいたアクションのみに依存するのではなく、アクションのみに依存するのではなく、その結果が安全要件を満たしているかどうかに応じてアクションを評価することにより、{\ it Distribution Shift}を処理するために開発されました。
改善された「軌道ステッチ」のための目に見えない遷移は、現実的な非専門家データから学習するエージェントの能力を高めます。

要約(オリジナル)

We address the challenge of offline reinforcement learning using realistic data, specifically non-expert data collected through sub-optimal behavior policies. Under such circumstance, the learned policy must be safe enough to manage \textit{distribution shift} while maintaining sufficient flexibility to deal with non-expert (bad) demonstrations from offline data.To tackle this issue, we introduce a novel method called Outcome-Driven Action Flexibility (ODAF), which seeks to reduce reliance on the empirical action distribution of the behavior policy, hence reducing the negative impact of those bad demonstrations.To be specific, a new conservative reward mechanism is developed to deal with {\it distribution shift} by evaluating actions according to whether their outcomes meet safety requirements – remaining within the state support area, rather than solely depending on the actions’ likelihood based on offline data.Besides theoretical justification, we provide empirical evidence on widely used MuJoCo and various maze benchmarks, demonstrating that our ODAF method, implemented using uncertainty quantification techniques, effectively tolerates unseen transitions for improved ‘trajectory stitching,’ while enhancing the agent’s ability to learn from realistic non-expert data.

arxiv情報

著者 Ke Jiang,Wen Jiang,Yao Li,Xiaoyang Tan
発行日 2025-04-02 13:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Beyond Non-Expert Demonstrations: Outcome-Driven Action Constraint for Offline Reinforcement Learning はコメントを受け付けていません

A Model-Agnostic Approach for Semantically Driven Disambiguation in Human-Robot Interaction

要約

特にロボットが大きな共有スペースでユーザーの指示に従う場合、曖昧さは人間とロボットの相互作用に避けられません。
たとえば、ユーザーがロボットに、指示不足のある家庭環境でオブジェクトを見つけるように要求した場合、オブジェクトは、欠落要因に応じて複数の場所にある可能性があります。
たとえば、ボウルはキッチンキャビネットまたはダイニングルームのテーブルにある場合があります。これは、きれいであるか汚れているか、完全か空っぽか、その周りの他のオブジェクトの存在に応じてです。
オブジェクト検索に関する以前の作業では、クエリオブジェクトがロボットにすぐに表示されるか、ワンショットの推論を使用してオブジェクトの位置を予測していると想定しています。
このペーパーでは、これらのギャップに焦点を当て、セマンティックに駆動された明確化を活用する新しいモデルに依存しないアプローチを提示して、より少ない試行でクエリオブジェクトを見つけるロボットの能力を高めます。
具体的には、さまざまな知識埋め込みモデルを活用し、あいまいさが生じたときに、反復的な予測プロセスに従う有益な説明方法を提案します。
私たちの方法のユーザー実験の評価は、私たちのアプローチがさまざまなカスタムセマンティックエンコーダーとLLMに適用できることを示しており、有益な明確化はパフォーマンスを改善し、ロボットが最初の試みでオブジェクトを見つけることができるようにします。
ユーザー実験データは、https://github.com/irmakdogan/expressiondatasetで公開されています。

要約(オリジナル)

Ambiguities are inevitable in human-robot interaction, especially when a robot follows user instructions in a large, shared space. For example, if a user asks the robot to find an object in a home environment with underspecified instructions, the object could be in multiple locations depending on missing factors. For instance, a bowl might be in the kitchen cabinet or on the dining room table, depending on whether it is clean or dirty, full or empty, and the presence of other objects around it. Previous works on object search have assumed that the queried object is immediately visible to the robot or have predicted object locations using one-shot inferences, which are likely to fail for ambiguous or partially understood instructions. This paper focuses on these gaps and presents a novel model-agnostic approach leveraging semantically driven clarifications to enhance the robot’s ability to locate queried objects in fewer attempts. Specifically, we leverage different knowledge embedding models, and when ambiguities arise, we propose an informative clarification method, which follows an iterative prediction process. The user experiment evaluation of our method shows that our approach is applicable to different custom semantic encoders as well as LLMs, and informative clarifications improve performances, enabling the robot to locate objects on its first attempts. The user experiment data is publicly available at https://github.com/IrmakDogan/ExpressionDataset.

arxiv情報

著者 Fethiye Irmak Dogan,Maithili Patel,Weiyu Liu,Iolanda Leite,Sonia Chernova
発行日 2025-04-02 13:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | A Model-Agnostic Approach for Semantically Driven Disambiguation in Human-Robot Interaction はコメントを受け付けていません

SOLAQUA: SINTEF Ocean Large Aquaculture Robotics Dataset

要約

このホワイトペーパーでは、海底の水産養殖環境で水中ロボットで収集されたデータセットを紹介します。
データは運用養殖場から収集され、ウォーターリンクされたA50 DVL、Nortek Nucleus 1000 DVL、Sonardyne Micro Ranger 2 USBL、Sonoptix Mulitbeam Sonar、Mono and Stereo Cameras、および電力使用量、IMU、温度などなどの車両センサーデータなどのセンサーからのデータが含まれています。
データ収集は、ネットペン構造の手動と自律性の両方のトラバーサル中に実行されます。
収集された視力データは、魚と海洋の成長が存在する損傷のないネットであり、研究コミュニティと養殖業界の両方が、提案されたSolaquaデータセットの利用から大きな恩恵を受けることが期待されています。

要約(オリジナル)

This paper presents a dataset gathered with an underwater robot in a sea-based aquaculture setting. Data was gathered from an operational fish farm and includes data from sensors such as the Waterlinked A50 DVL, the Nortek Nucleus 1000 DVL, Sonardyne Micro Ranger 2 USBL, Sonoptix Mulitbeam Sonar, mono and stereo cameras, and vehicle sensor data such as power usage, IMU, pressure, temperature, and more. Data acquisition is performed during both manual and autonomous traversal of the net pen structure. The collected vision data is of undamaged nets with some fish and marine growth presence, and it is expected that both the research community and the aquaculture industry will benefit greatly from the utilization of the proposed SOLAQUA dataset.

arxiv情報

著者 Sveinung Johan Ohrem,Bent Haugaløkken,Eleni Kelasidi
発行日 2025-04-02 14:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | SOLAQUA: SINTEF Ocean Large Aquaculture Robotics Dataset はコメントを受け付けていません

A Tutorial on Distributed Optimization for Cooperative Robotics: from Setups and Algorithms to Toolboxes and Research Directions

要約

マルチロボットシステムのいくつかの興味深い問題は、分散最適化のフレームワークにキャストできます。
例には、マルチロボットタスクの割り当て、車両ルーティング、ターゲット保護、監視が含まれます。
分散最適化アルゴリズムの理論分析は大きな注目を集めていますが、協同組合ロボット工学への適用は詳細に調査されていません。
このペーパーでは、適切な分散最適化セットアップによって、協同組合ロボット工学の顕著なシナリオにどのように対処できるかを示します。
具体的には、広く調査されたコンセンサス最適化(データ分析に最も適している)およびパーティションベースのセットアップ(最適化のグラフ構造を一致させる)に関する簡単な紹介の後、協同組合ロボット工学のいくつかのシナリオ、すなわち、いわゆる抑制接続と積極的な最適化フレームワークをモデル化する2つの分散設定に焦点を当てます。
それぞれについて、ユースケースアプリケーションを検討し、カスタマイズされた分散アルゴリズムを収束プロパティで説明します。
次に、中央コーディネーターのないロボットの実際のネットワークに分散スキームを実装できるように、最先端のツールボックスを修正します。
各ユースケースについて、これらのツールボックスでの実装について説明し、異種ロボットのネットワークに関するシミュレーションと実際の実験を提供します。

要約(オリジナル)

Several interesting problems in multi-robot systems can be cast in the framework of distributed optimization. Examples include multi-robot task allocation, vehicle routing, target protection, and surveillance. While the theoretical analysis of distributed optimization algorithms has received significant attention, its application to cooperative robotics has not been investigated in detail. In this paper, we show how notable scenarios in cooperative robotics can be addressed by suitable distributed optimization setups. Specifically, after a brief introduction on the widely investigated consensus optimization (most suited for data analytics) and on the partition-based setup (matching the graph structure in the optimization), we focus on two distributed settings modeling several scenarios in cooperative robotics, i.e., the so-called constraint-coupled and aggregative optimization frameworks. For each one, we consider use-case applications, and we discuss tailored distributed algorithms with their convergence properties. Then, we revise state-of-the-art toolboxes allowing for the implementation of distributed schemes on real networks of robots without central coordinators. For each use case, we discuss its implementation in these toolboxes and provide simulations and real experiments on networks of heterogeneous robots.

arxiv情報

著者 Andrea Testa,Guido Carnevale,Giuseppe Notarstefano
発行日 2025-04-02 15:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | A Tutorial on Distributed Optimization for Cooperative Robotics: from Setups and Algorithms to Toolboxes and Research Directions はコメントを受け付けていません

Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization

要約

リアルタイムの最適制御は、特に厳しいパフォーマンス要件を備えた非線形システムのロボット工学における根本的な課題のままです。
代表的な軌道最適化アルゴリズムの1つとして、反復線形二次レギュレーター(ILQR)は、ロボットシステムのリアルタイム制御の効率と適用性を制限する本質的に順次計算性のために制限に直面します。
既存の並列実装は、上記の制限を克服することを目的としていますが、通常、追加の計算反復と高性能ハードウェアを要求し、実用的な改善のみにつながります。
このホワイトペーパーでは、アルゴリズムハードウェアの共同設計戦略を使用して、中間フィードバックとフィードフォワードマトリックスを予測するためのアルゴリズムハードウェアの共同設計戦略を採用したトランスアクセラレーションのILQRフレームワークであるQuattroを紹介します。
精度を犠牲にすることなく、リソース制約のデバイスで効果的な並列計算を容易にします。
カートポールおよび四肢システムの実験は、それぞれ1回の反復あたり5.3 $ \ Times $ $ $ $ $ $ $ $ $のアルゴリズムレベルの加速を示しています。
モデル予測制御(MPC)フレームワークに統合された場合、Quattroは、従来のILQRを適用したものと比較して、カートポールの全体的なスピードアップと四肢装置の17.8 $ \ Times $の全体的なスピードアップを達成します。
トランスの推論はFPGAに展開され、パフォーマンスを最大化し、一般的に使用されるコンピューティングデバイスで最大27.3 $ \ Times $のスピードアップを達成し、約2〜4 $ \ Times $の電力削減と許容可能なハードウェアオーバーヘッドを獲得します。

要約(オリジナル)

Real-time optimal control remains a fundamental challenge in robotics, especially for nonlinear systems with stringent performance requirements. As one of the representative trajectory optimization algorithms, the iterative Linear Quadratic Regulator (iLQR) faces limitations due to their inherently sequential computational nature, which restricts the efficiency and applicability of real-time control for robotic systems. While existing parallel implementations aim to overcome the above limitations, they typically demand additional computational iterations and high-performance hardware, leading to only modest practical improvements. In this paper, we introduce Quattro, a transformer-accelerated iLQR framework employing an algorithm-hardware co-design strategy to predict intermediate feedback and feedforward matrices. It facilitates effective parallel computations on resource-constrained devices without sacrificing accuracy. Experiments on cart-pole and quadrotor systems show an algorithm-level acceleration of up to 5.3$\times$ and 27$\times$ per iteration, respectively. When integrated into a Model Predictive Control (MPC) framework, Quattro achieves overall speedups of 2.8$\times$ for the cart-pole and 17.8$\times$ for the quadrotor compared to the one that applies traditional iLQR. Transformer inference is deployed on FPGA to maximize performance, achieving up to 27.3$\times$ speedup over commonly used computing devices, with around 2 to 4$\times$ power reduction and acceptable hardware overhead.

arxiv情報

著者 Yue Wang,Hoayu Wang,Zhaoxing Li
発行日 2025-04-02 15:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization はコメントを受け付けていません

Virtual Target Trajectory Prediction for Stochastic Targets

要約

他の車両の軌道予測は、自律型車両にとって重要であり、ミサイルガイダンスからUAV衝突回避への用途があります。
通常、ターゲットの軌道は決定論的であると想定されていますが、現実世界の航空車両は、回避的な操作やサーマルの旋回などの確率的挙動を示します。
このホワイトペーパーでは、監視されていない機械学習手法である条件付き正規化フローを使用して、軌道データを使用して誘導ミサイルのターゲットの確率的挙動を学習および予測します。
訓練されたモデルは、ダイナミクスの初期条件とパラメーターに基づいて、将来のターゲット位置の分布を予測します。
この分布からのサンプルは、時系列k-meansアルゴリズムを使用してクラスター化され、仮想ターゲットと呼ばれる代表的な軌跡を生成します。
この方法は高速でターゲットに依存しており、ターゲット軌道の形式でデータのみをトレーニングする必要があります。
したがって、ガイダンス法と経路計画における決定論的軌跡予測のドロップイン置換として機能します。
シミュレートされたシナリオは、ランダムな操作を備えた空中車両に対するアプローチの有効性を示し、決定論的予測と確率的現実の間のギャップを埋め、自律車のガイダンスと制御アルゴリズムを進めます。

要約(オリジナル)

Trajectory prediction of other vehicles is crucial for autonomous vehicles, with applications from missile guidance to UAV collision avoidance. Typically, target trajectories are assumed deterministic, but real-world aerial vehicles exhibit stochastic behavior, such as evasive maneuvers or gliders circling in thermals. This paper uses Conditional Normalizing Flows, an unsupervised Machine Learning technique, to learn and predict the stochastic behavior of targets of guided missiles using trajectory data. The trained model predicts the distribution of future target positions based on initial conditions and parameters of the dynamics. Samples from this distribution are clustered using a time series k-means algorithm to generate representative trajectories, termed virtual targets. The method is fast and target-agnostic, requiring only training data in the form of target trajectories. Thus, it serves as a drop-in replacement for deterministic trajectory predictions in guidance laws and path planning. Simulated scenarios demonstrate the approach’s effectiveness for aerial vehicles with random maneuvers, bridging the gap between deterministic predictions and stochastic reality, advancing guidance and control algorithms for autonomous vehicles.

arxiv情報

著者 Marc Schneider,Renato Loureiro,Torbjørn Cunis,Walter Fichter
発行日 2025-04-02 16:02:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Virtual Target Trajectory Prediction for Stochastic Targets はコメントを受け付けていません

Dynamics-aware Diffusion Models for Planning and Control

要約

このペーパーでは、特に環境が複雑で、システムのダイナミクスが実用的なアプリケーションに重要であるシナリオで、拡散モデルを使用して制御タスクの動的に許容可能な軌跡を生成する問題に対処します。
順次予測と投影メカニズムを通じて、システムのダイナミクスを拡散モデルの除去プロセスに直接統合する新しいフレームワークを提案します。
このメカニズムは、拡散モデルのノーシングスケジュールに合わせて、生成された軌道が専門家のデモンストレーションと一致し、根本的な物理的制約を遵守することを保証します。
特に、私たちのアプローチは、明示的なダイナミクスの知識が利用できない場合でも、最尤軌道を生成し、線形フィードバックコントローラーによって生成された軌跡を正確に回復することができます。
標準の制御タスクとウェイポイント追跡と衝突回避を含む複雑な非凸最適制御問題を通じて、実験を通じて私たちの方法の有効性を検証し、実際のアプリケーションで効率的な軌跡生成の可能性を示しています。

要約(オリジナル)

This paper addresses the problem of generating dynamically admissible trajectories for control tasks using diffusion models, particularly in scenarios where the environment is complex and system dynamics are crucial for practical application. We propose a novel framework that integrates system dynamics directly into the diffusion model’s denoising process through a sequential prediction and projection mechanism. This mechanism, aligned with the diffusion model’s noising schedule, ensures generated trajectories are both consistent with expert demonstrations and adhere to underlying physical constraints. Notably, our approach can generate maximum likelihood trajectories and accurately recover trajectories generated by linear feedback controllers, even when explicit dynamics knowledge is unavailable. We validate the effectiveness of our method through experiments on standard control tasks and a complex non-convex optimal control problem involving waypoint tracking and collision avoidance, demonstrating its potential for efficient trajectory generation in practical applications.

arxiv情報

著者 Darshan Gadginmath,Fabio Pasqualetti
発行日 2025-04-02 16:04:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, math.OC | Dynamics-aware Diffusion Models for Planning and Control はコメントを受け付けていません

Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity

要約

ポリシーの最適化は、客観的またはフィットネス機能に従って制御問題に対する最良の解決策を求めており、ロボット工学のアプリケーションを使用したエンジニアリングと研究の基本的な分野として機能します。
強化学習や進化的アルゴリズムなどの従来の最適化方法は、即時の改善に続くと、最適ではないソリューションにつながる、欺cept的なフィットネスの状況と格闘しています。
Quality-Diversity(QD)アルゴリズムは、地元のオプティマを逃れるためのステッピングストーンとして多様な中間ソリューションを維持することにより、有望なアプローチを提供します。
ただし、QDアルゴリズムには、手作りの機能を定義するためにドメインの専門知識が必要であり、ソリューションの多様性を特徴付ける適用性を制限する必要があります。
このホワイトペーパーでは、監視されていないQDアルゴリズム、特に感覚データから機能を学習するAuroraフレームワークは、ドメインの専門知識なしに欺cept的な最適化の問題を効率的に解決することを示します。
対照的な学習と定期的な絶滅イベントでオーロラを強化することにより、すべての従来の最適化ベースラインとマッチを上回るAurora-XCONを提案します。
この作業は、監視されていないQDアルゴリズムの新しいアプリケーションを確立し、従来の最適化への新しいソリューションの発見から焦点を移し、特徴スペースの定義が課題をもたらすドメインに可能性を拡大します。

要約(オリジナル)

Policy optimization seeks the best solution to a control problem according to an objective or fitness function, serving as a fundamental field of engineering and research with applications in robotics. Traditional optimization methods like reinforcement learning and evolutionary algorithms struggle with deceptive fitness landscapes, where following immediate improvements leads to suboptimal solutions. Quality-diversity (QD) algorithms offer a promising approach by maintaining diverse intermediate solutions as stepping stones for escaping local optima. However, QD algorithms require domain expertise to define hand-crafted features, limiting their applicability where characterizing solution diversity remains unclear. In this paper, we show that unsupervised QD algorithms – specifically the AURORA framework, which learns features from sensory data – efficiently solve deceptive optimization problems without domain expertise. By enhancing AURORA with contrastive learning and periodic extinction events, we propose AURORA-XCon, which outperforms all traditional optimization baselines and matches, in some cases even improving by up to 34%, the best QD baseline with domain-specific hand-crafted features. This work establishes a novel application of unsupervised QD algorithms, shifting their focus from discovering novel solutions toward traditional optimization and expanding their potential to domains where defining feature spaces poses challenges.

arxiv情報

著者 Lisa Coiffard,Paul Templier,Antoine Cully
発行日 2025-04-02 17:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity はコメントを受け付けていません