Concept Lancet: Image Editing with Compositional Representation Transplant

要約

拡散モデルは画像編集作業に広く用いられている。既存の編集手法は、多くの場合、テキスト埋め込み空間やスコア空間における編集方向をキュレーションすることで、表現操作手順を設計する。しかし、このような手順は、編集強度を過大評価すると視覚的一貫性が損なわれ、過小評価すると編集タスクが失敗するという重要な課題に直面する。特に、各ソース画像は異なる編集強度を必要とする可能性があり、試行錯誤によって適切な強度を探索するのはコストがかかる。この課題に対処するため、我々は拡散ベースの画像編集における原理的な表現操作のためのゼロショットプラグアンドプレイフレームワークであるConcept Lancet (CoLan)を提案する。推論時に、我々は潜在(テキスト埋め込みまたは拡散スコア)空間におけるソース入力を、収集された視覚概念の表現の疎な線形結合として分解する。これにより、各画像における概念の存在を正確に推定することができ、これが編集に反映される。編集タスク(置換/追加/削除)に基づき、カスタマイズされた概念移植処理を行い、対応する編集方向を課す。概念空間を十分にモデル化するために、我々は概念表現データセットCoLan-150Kを作成する。複数の拡散ベースの画像編集ベースラインに対する実験から、CoLanを搭載した手法は、編集の有効性と一貫性の保持において最先端の性能を達成することが示される。

要約(オリジナル)

Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

arxiv情報

著者 Jinqi Luo,Tianjiao Ding,Kwan Ho Ryan Chan,Hancheng Min,Chris Callison-Burch,René Vidal
発行日 2025-04-03 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV | Concept Lancet: Image Editing with Compositional Representation Transplant はコメントを受け付けていません

RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics

要約

視覚言語モデル(VLM)は、マルチモーダル知覚と意味論的推論を通じて、タスク横断的な汎化、動的な環境インタラクション、およびロングホライズンプランニングを可能にする、ロボットシステムにとって極めて重要なツールとして浮上している。しかし、既存のオープンソースのVLMは、一般的な視覚と言語のアライメントタスクのために主に訓練されているが、ロボット操作に重要な時間的に相関する行動セマンティクスを効果的にモデル化することができない。現在の画像ベースの微調整手法は、VLMをロボットアプリケーションに部分的に適応させるが、ビデオシーケンスにおける時間発展パターンを根本的に無視し、ロボットエージェント、操作対象物、環境コンテキスト間の視覚的特徴のもつれに悩まされる:1)オープンソースのロボット映像に対して、意味に制約された行動単位のセグメンテーションと再注釈を行うデータセット再構築フレームワーク、シミュレーション環境での実験結果から、RoboAct-CLIP事前学習モデルは、ベースラインVLMよりも12%高い成功率を達成し、多オブジェクト操作タスクにおいて優れた汎化性を持つことが実証された。

要約(オリジナル)

Visual Language Models (VLMs) have emerged as pivotal tools for robotic systems, enabling cross-task generalization, dynamic environmental interaction, and long-horizon planning through multimodal perception and semantic reasoning. However, existing open-source VLMs predominantly trained for generic vision-language alignment tasks fail to model temporally correlated action semantics that are crucial for robotic manipulation effectively. While current image-based fine-tuning methods partially adapt VLMs to robotic applications, they fundamentally disregard temporal evolution patterns in video sequences and suffer from visual feature entanglement between robotic agents, manipulated objects, and environmental contexts, thereby limiting semantic decoupling capability for atomic actions and compromising model generalizability.To overcome these challenges, this work presents RoboAct-CLIP with dual technical contributions: 1) A dataset reconstruction framework that performs semantic-constrained action unit segmentation and re-annotation on open-source robotic videos, constructing purified training sets containing singular atomic actions (e.g., ‘grasp’); 2) A temporal-decoupling fine-tuning strategy based on Contrastive Language-Image Pretraining (CLIP) architecture, which disentangles temporal action features across video frames from object-centric characteristics to achieve hierarchical representation learning of robotic atomic actions.Experimental results in simulated environments demonstrate that the RoboAct-CLIP pretrained model achieves a 12% higher success rate than baseline VLMs, along with superior generalization in multi-object manipulation tasks.

arxiv情報

著者 Zhiyuan Zhang,Yuxin He,Yong Sun,Junyu Shi,Lijiang Liu,Qiang Nie
発行日 2025-04-02 19:02:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO | RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics はコメントを受け付けていません

Evaluation of Flight Parameters in UAV-based 3D Reconstruction for Rooftop Infrastructure Assessment

要約

UAVを用いた写真測量による屋上の3D再構築は、インフラ評価のための有望なソリューションであるが、既存の手法では、自律飛行経路を使用する場合、モデルの精度を確保するために、画像の重複率が高く、飛行時間が長くなることが多い。本研究では、複雑な屋上インフラの3D再構築を最適化するために、主要な飛行パラメータであるグランドサンプリング距離(GSD)と画像オーバーラップを体系的に評価した。DJI Phantom 4 Pro V2を使用し、GSDとオーバーラップの設定を変えながら、クイーンズ大学の複数セグメントの屋上で制御されたUAV飛行を実施した。収集されたデータは、Reality Captureソフトウェアを使用して処理され、UAVベースのLiDARおよび地上レーザースキャン(TLS)から生成されたグランドトゥルースモデルと比較して評価された。実験の結果、GSDを0.75~1.26cmの範囲に設定し、画像のオーバーラップを85%に設定することで、収集した画像と飛行時間を最小限に抑えながら、高いモデル精度を達成できることがわかった。これらの知見は、効率的な屋上評価のための自律型UAV飛行経路を計画するための指針を提供する。

要約(オリジナル)

Rooftop 3D reconstruction using UAV-based photogrammetry offers a promising solution for infrastructure assessment, but existing methods often require high percentages of image overlap and extended flight times to ensure model accuracy when using autonomous flight paths. This study systematically evaluates key flight parameters-ground sampling distance (GSD) and image overlap-to optimize the 3D reconstruction of complex rooftop infrastructure. Controlled UAV flights were conducted over a multi-segment rooftop at Queen’s University using a DJI Phantom 4 Pro V2, with varied GSD and overlap settings. The collected data were processed using Reality Capture software and evaluated against ground truth models generated from UAV-based LiDAR and terrestrial laser scanning (TLS). Experimental results indicate that a GSD range of 0.75-1.26 cm combined with 85% image overlap achieves a high degree of model accuracy, while minimizing images collected and flight time. These findings provide guidance for planning autonomous UAV flight paths for efficient rooftop assessments.

arxiv情報

著者 Nick Chodura,Melissa Greeff,Joshua Woods
発行日 2025-04-02 19:43:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO, eess.IV | Evaluation of Flight Parameters in UAV-based 3D Reconstruction for Rooftop Infrastructure Assessment はコメントを受け付けていません

A Chefs KISS — Utilizing semantic information in both ICP and SLAM framework

要約

都市部で自律走行車を利用するためには、信頼性の高いローカライゼーションが必要である。特にHDマップを使用する場合は、正確で再現性の高い方法を選択しなければならない。そのため、正確な地図の生成だけでなく、これらの地図に対する再定位も必要です。LiDARは周囲の3D再構築に優れているため、ローカライゼーションのための信頼できるモダリティとなっています。最新のLiDARオドメトリ推定は、反復的最近接点(ICP)アプローチ、すなわちKISS-ICPとSAGE-ICPに基づいている。我々は、最小限のパラメータチューニングで一般化可能なアプローチを用いて、点アライメントプロセスに意味情報を組み込むことにより、KISS-ICPの機能を拡張する。この機能拡張により、地図精度の主な指標である絶対軌跡誤差(ATE)の点でKISS-ICPを上回ることができる。さらに、Cartographerマッピングフレームワークを改良し、意味情報を扱えるようにしました。Cartographerは、より広いエリアでのループ閉鎖の検出を容易にし、オドメトリドリフトを緩和し、ATE精度をさらに向上させます。セマンティック情報をマッピングプロセスに統合することで、駐車車両のような特定のクラスをマップからフィルタリングすることができます。このフィルタリングにより、車両の移動などの時間的変化に対応することで、再局在化の品質が向上します。

要約(オリジナル)

For utilizing autonomous vehicle in urban areas a reliable localization is needed. Especially when HD maps are used, a precise and repeatable method has to be chosen. Therefore accurate map generation but also re-localization against these maps is necessary. Due to best 3D reconstruction of the surrounding, LiDAR has become a reliable modality for localization. The latest LiDAR odometry estimation are based on iterative closest point (ICP) approaches, namely KISS-ICP and SAGE-ICP. We extend the capabilities of KISS-ICP by incorporating semantic information into the point alignment process using a generalizable approach with minimal parameter tuning. This enhancement allows us to surpass KISS-ICP in terms of absolute trajectory error (ATE), the primary metric for map accuracy. Additionally, we improve the Cartographer mapping framework to handle semantic information. Cartographer facilitates loop closure detection over larger areas, mitigating odometry drift and further enhancing ATE accuracy. By integrating semantic information into the mapping process, we enable the filtering of specific classes, such as parked vehicles, from the resulting map. This filtering improves relocalization quality by addressing temporal changes, such as vehicles being moved.

arxiv情報

著者 Sven Ochs,Marc Heinrich,Philip Schörner,Marc René Zofka,J. Marius Zöllner
発行日 2025-04-02 19:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | A Chefs KISS — Utilizing semantic information in both ICP and SLAM framework はコメントを受け付けていません

AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World

要約

スケーラブルで再現性のある政策評価は、ロボット学習における長年の課題であった。評価は進捗を評価し、より良い方針を構築するために重要であるが、現実世界での評価、特に統計的に信頼できる結果を提供できる規模での評価は、人的時間という点でコストがかかり、入手が困難である。ますます汎用化するロボット政策の評価には、ますます多様な評価環境のレパートリーが必要となり、評価のボトルネックはさらに顕著になる。ロボットポリシーの実環境での評価をより実用的にするために、我々はAutoEvalを提案する。AutoEvalは、人間の介入を最小限に抑えながら、一般論的なロボットポリシーを24時間自律的に評価するシステムである。AutoEvalは、自動成功検出と自動シーン・リセットを提供するフレームワーク内で、評価のためのポリシーをスケジューリングする。AutoEvalは、評価プロセスにおける人間の関与をほぼ完全に排除することができ、24時間体制での評価が可能であり、評価結果は、手作業で行われたグランドトゥルース評価とほぼ一致することを示す。ロボットコミュニティにおけるジェネラリストポリシーの評価を容易にするため、WidowXロボットアームを備えた人気のあるBridgeDataロボットセットアップで、複数のAutoEvalシーンへのパブリックアクセスを提供する。将来的には、多様で分散した評価ネットワークを形成するために、AutoEvalシーンを複数の機関に設置できるようにしたいと考えています。

要約(オリジナル)

Scalable and reproducible policy evaluation has been a long-standing challenge in robot learning. Evaluations are critical to assess progress and build better policies, but evaluation in the real world, especially at a scale that would provide statistically reliable results, is costly in terms of human time and hard to obtain. Evaluation of increasingly generalist robot policies requires an increasingly diverse repertoire of evaluation environments, making the evaluation bottleneck even more pronounced. To make real-world evaluation of robotic policies more practical, we propose AutoEval, a system to autonomously evaluate generalist robot policies around the clock with minimal human intervention. Users interact with AutoEval by submitting evaluation jobs to the AutoEval queue, much like how software jobs are submitted with a cluster scheduling system, and AutoEval will schedule the policies for evaluation within a framework supplying automatic success detection and automatic scene resets. We show that AutoEval can nearly fully eliminate human involvement in the evaluation process, permitting around the clock evaluations, and the evaluation results correspond closely to ground truth evaluations conducted by hand. To facilitate the evaluation of generalist policies in the robotics community, we provide public access to multiple AutoEval scenes in the popular BridgeData robot setup with WidowX robot arms. In the future, we hope that AutoEval scenes can be set up across institutions to form a diverse and distributed evaluation network.

arxiv情報

著者 Zhiyuan Zhou,Pranav Atreya,You Liang Tan,Karl Pertsch,Sergey Levine
発行日 2025-04-02 20:24:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.RO | AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World はコメントを受け付けていません

Let’s move on: Topic Change in Robot-Facilitated Group Discussions

要約

ロボットが司会するグループディスカッションは、人間の参加者間の魅力的で生産的な交流を促進する可能性がある。会話エージェントにおけるトピック管理に関するこれまでの研究は、主に人間の参加とトピックのパーソナライゼーションに焦点を当てており、エージェントはディスカッションにおいて積極的な役割を担っている。また、ロボットをグループに参加させることの有用性が研究により示されているが、ロボットが議論を促進しながら話題を変えるタイミングを学習するためには、さらなる探求が必要である。そこで本研究では、適切な話題の変更を予測するための機械学習モデルと視聴覚的非言語的特徴の適合性を調査する。我々は、ロボットの司会者と人間の参加者の間のインタラクションを利用し、アノテーションを行い、音響と身体言語関連の特徴を抽出するために利用した。異なる特徴セットを用いて、逐次データと非逐次データを用いた機械学習アプローチの性能の詳細な分析を行う。その結果、不適切なトピック変更の分類において、ルールベースのアプローチを上回る有望な性能が示された。さらに、音響特徴量は、マルチモーダル特徴量の完全なセットと比較して、同等の性能と頑健性を示した。我々の注釈付きデータは、https://github.com/ghadj/topic-change-robot-discussions-data-2024 で公開されている。

要約(オリジナル)

Robot-moderated group discussions have the potential to facilitate engaging and productive interactions among human participants. Previous work on topic management in conversational agents has predominantly focused on human engagement and topic personalization, with the agent having an active role in the discussion. Also, studies have shown the usefulness of including robots in groups, yet further exploration is still needed for robots to learn when to change the topic while facilitating discussions. Accordingly, our work investigates the suitability of machine-learning models and audiovisual non-verbal features in predicting appropriate topic changes. We utilized interactions between a robot moderator and human participants, which we annotated and used for extracting acoustic and body language-related features. We provide a detailed analysis of the performance of machine learning approaches using sequential and non-sequential data with different sets of features. The results indicate promising performance in classifying inappropriate topic changes, outperforming rule-based approaches. Additionally, acoustic features exhibited comparable performance and robustness compared to the complete set of multimodal features. Our annotated data is publicly available at https://github.com/ghadj/topic-change-robot-discussions-data-2024.

arxiv情報

著者 Georgios Hadjiantonis,Sarah Gillet,Marynel Vázquez,Iolanda Leite,Fethiye Irmak Dogan
発行日 2025-04-02 20:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | Let’s move on: Topic Change in Robot-Facilitated Group Discussions はコメントを受け付けていません

Preference-Driven Active 3D Scene Representation for Robotic Inspection in Nuclear Decommissioning

要約

能動的な3Dシーン表現は、遠隔検査、マニピュレーション、テレプレゼンスなど、最新のロボット工学アプリケーションにおいて極めて重要です。従来の手法は、主に幾何学的忠実度やレンダリング精度を最適化しますが、安全性が重要なカバレッジやタスク主導の視点など、オペレータ固有の目的を見落とすことがよくあります。この限界は、特に原子力発電所の廃止措置のような制約のある環境において、最適とは言えない視点選択につながる。このギャップを埋めるために、我々は、アクティブな3Dシーン表現パイプラインに専門家のオペレータの嗜好を統合する新しいフレームワークを導入する。具体的には、人間のフィードバックからの強化学習(RLHF)を採用し、専門家の入力に基づいて報酬関数を再形成し、ロボットの経路計画をガイドする。オペレータ固有の優先順位を捉えるために、3Dシーン表現におけるユーザの嗜好を評価する対話型選択実験を行う。原子力発電所の廃炉シナリオにおいて、原子炉タイルの検査にUR3eロボットアームを用いて、我々のフレームワークを検証する。ベースライン手法と比較して、我々のアプローチは軌道効率を最適化しながらシーン表現を強化する。RLHFに基づく方針は、タスククリティカルな詳細を優先し、ランダム選択を常に上回る。明示的な3D幾何学モデリングと暗黙的なヒューマン・イン・ザ・ループ最適化を統合することで、本研究は、適応的でセーフティクリティカルなロボット知覚システムの基盤を確立し、原子力廃止措置、遠隔保守、およびその他の高リスク環境における自動化強化への道を開く。

要約(オリジナル)

Active 3D scene representation is pivotal in modern robotics applications, including remote inspection, manipulation, and telepresence. Traditional methods primarily optimize geometric fidelity or rendering accuracy, but often overlook operator-specific objectives, such as safety-critical coverage or task-driven viewpoints. This limitation leads to suboptimal viewpoint selection, particularly in constrained environments such as nuclear decommissioning. To bridge this gap, we introduce a novel framework that integrates expert operator preferences into the active 3D scene representation pipeline. Specifically, we employ Reinforcement Learning from Human Feedback (RLHF) to guide robotic path planning, reshaping the reward function based on expert input. To capture operator-specific priorities, we conduct interactive choice experiments that evaluate user preferences in 3D scene representation. We validate our framework using a UR3e robotic arm for reactor tile inspection in a nuclear decommissioning scenario. Compared to baseline methods, our approach enhances scene representation while optimizing trajectory efficiency. The RLHF-based policy consistently outperforms random selection, prioritizing task-critical details. By unifying explicit 3D geometric modeling with implicit human-in-the-loop optimization, this work establishes a foundation for adaptive, safety-critical robotic perception systems, paving the way for enhanced automation in nuclear decommissioning, remote maintenance, and other high-risk environments.

arxiv情報

著者 Zhen Meng,Kan Chen,Xiangmin Xu,Erwin Jose Lopez Pulgarin,Emma Li,Philip G. Zhao,David Flynn
発行日 2025-04-02 22:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO | Preference-Driven Active 3D Scene Representation for Robotic Inspection in Nuclear Decommissioning はコメントを受け付けていません

Model Predictive Control with Visibility Graphs for Humanoid Path Planning and Tracking Against Adversarial Opponents

要約

この論文では、ロボカップ2024の大人サイズの自律型ヒューマノイドサッカーリーグで優勝するのに役立った、障害物回避、経路計画、軌道追跡の方法について詳しく述べる。私たちのチームは全座席マッチで無敗、6試合で45ゴールを挙げ、優勝決定戦では6対1で勝利しました。競技中、衝突回避のための大きな課題は、二足歩行と限られた視野(FOV)から生じる計測ノイズでした。さらに、障害物が計画した軌道から散発的に飛び込んできたり、外れたりした。時には、我々の推定器がロボットをハードな制約の中に置くこともありました。このコンペティションに参加するプランナーは、リアルタイムで再計画し、反応するのに十分な計算効率も必要です。これが軌道生成と追跡に対する我々のアプローチの動機となった。多くのシナリオでは、長期的かつ短期的なプランニングが必要である。すべての障害物を回避する長期的な一般経路を効率的に見つけるために、我々はDAVG(Dynamic Augmented Visibility Graphs)を開発した。DAVGは、障害物や所望のゴールポーズに基づいて特定の領域をアクティブに設定することで、本質的な経路計画に焦点を当てる。グラフの状態を拡張することにより、旋回角度が考慮される。これは、旋回にコストがかかる可能性があるため、大型のサッカー競技用ロボットにとって極めて重要である。軌道はDAVGによって生成された離散点間を線形補間することによって形成される。この軌道を追跡するために、cf-MPC(Collision-Free MPC)と呼ばれるモデル予測制御(MPC)の改良版が用いられる。これは短期的な計画を保証する。cf-MPCは定式化を切り替えることなく、ロボットのダイナミクスと無衝突制約を考慮します。ハードスイッチなしで、制御入力は、ノイズがロボットを制約境界の内側に置く場合、スムーズに移行することができます。非線形定式化は約120Hzで実行され、2次式バージョンは約400Hzを達成します。

要約(オリジナル)

In this paper we detail the methods used for obstacle avoidance, path planning, and trajectory tracking that helped us win the adult-sized, autonomous humanoid soccer league in RoboCup 2024. Our team was undefeated for all seated matches and scored 45 goals over 6 games, winning the championship game 6 to 1. During the competition, a major challenge for collision avoidance was the measurement noise coming from bipedal locomotion and a limited field of view (FOV). Furthermore, obstacles would sporadically jump in and out of our planned trajectory. At times our estimator would place our robot inside a hard constraint. Any planner in this competition must also be be computationally efficient enough to re-plan and react in real time. This motivated our approach to trajectory generation and tracking. In many scenarios long-term and short-term planning is needed. To efficiently find a long-term general path that avoids all obstacles we developed DAVG (Dynamic Augmented Visibility Graphs). DAVG focuses on essential path planning by setting certain regions to be active based on obstacles and the desired goal pose. By augmenting the states in the graph, turning angles are considered, which is crucial for a large soccer playing robot as turning may be more costly. A trajectory is formed by linearly interpolating between discrete points generated by DAVG. A modified version of model predictive control (MPC) is used to then track this trajectory called cf-MPC (Collision-Free MPC). This ensures short-term planning. Without having to switch formulations cf-MPC takes into account the robot dynamics and collision free constraints. Without a hard switch the control input can smoothly transition in cases where the noise places our robot inside a constraint boundary. The nonlinear formulation runs at approximately 120 Hz, while the quadratic version achieves around 400 Hz.

arxiv情報

著者 Ruochen Hou,Gabriel I. Fernandez,Mingzhang Zhu,Dennis W. Hong
発行日 2025-04-03 00:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO, cs.SY, eess.SY | Model Predictive Control with Visibility Graphs for Humanoid Path Planning and Tracking Against Adversarial Opponents はコメントを受け付けていません

Designing Effective Human-Swarm Interaction Interfaces: Insights from a User Study on Task Performance

要約

本論文では、理論的な洞察と経験的な評価を組み合わせた、人間と群れのインタラクションインタフェースの体系的な設計手法を提示する。まず、既存の文献から10個のデザイン原則を導き出し、ゴール指向タスク分析によって特定された主要な情報次元に適用し、ターゲット探索タスクのためのタブレットベースのインタフェースを開発した。次に、ロボットに危険をもたらす3つのタイプの危険が存在する中で、人間がロボット群を目標に誘導することが求められるユーザー研究を31人の参加者を対象に実施した:分散型、移動型、拡散型である。ロボットがターゲットに近づいたかどうか、タスク終了時にロボットが停止しているかどうかでパフォーマンスが測定された。その結果、98%のタスクで少なくとも1台のロボットがターゲットに近づいた。さらに、約67%のタスクにおいて、50%以上のロボットが目標に到達した。さらに、移動する危険な場所でのパフォーマンスが特に優れていた。さらに、インターフェイスはロボットの活動停止を最小限に抑えるのに役立っているようで、参加者はタスクの94%近くで50%以上のロボットを活動状態に保つことができた。しかし、その効果はハザードによって異なり、ロボットの不活性化は分散ハザードのシナリオで最も低く、インターフェイスがこれらの条件下で最も大きなサポートを提供したことを示唆している。

要約(オリジナル)

In this paper, we present a systematic method of design for human-swarm interaction interfaces, combining theoretical insights with empirical evaluation. We first derive ten design principles from existing literature, apply them to key information dimensions identified through goal-directed task analysis and developed a tablet-based interface for a target search task. We then conducted a user study with 31 participants where humans were required to guide a robotic swarm to a target in the presence of three types of hazards that pose a risk to the robots: Distributed, Moving, and Spreading. Performance was measured based on the proximity of the robots to the target and the number of deactivated robots at the end of the task. Results indicate that at least one robot was bought closer to the target in 98% of tasks, demonstrating the interface’s success fulfilling the primary objective of the task. Additionally, in nearly 67% of tasks, more than 50% of the robots reached the target. Moreover, particularly better performance was noted in moving hazards. Additionally, the interface appeared to help minimize robot deactivation, as evidenced by nearly 94% of tasks where participants managed to keep more than 50% of the robots active, ensuring that most of the swarm remained operational. However, its effectiveness varied across hazards, with robot deactivation being lowest in distributed hazard scenarios, suggesting that the interface provided the most support in these conditions.

arxiv情報

著者 Wasura D. Wattearachchi,Erandi Lakshika,Kathryn Kasmarik,Michael Barlow
発行日 2025-04-03 03:38:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.RO | Designing Effective Human-Swarm Interaction Interfaces: Insights from a User Study on Task Performance はコメントを受け付けていません

Adapting World Models with Latent-State Dynamics Residuals

要約

シミュレーションから現実への強化学習(RL)は、シミュレーションと現実世界のダイナミクスの不一致を調整するという重要な課題に直面しており、これはエージェントのパフォーマンスを著しく低下させる可能性がある。有望なアプローチは、残差関数として表現されるシミュレータのフォワードダイナミクスの補正を学習することであるが、この操作は画像のような高次元の状態では実用的でない。これを克服するために、我々はReDRAWを提案する。ReDRAWはシミュレーションで事前学習された潜在状態の自己回帰ワールドモデルであり、明示的な観測状態ではなく、潜在状態のダイナミクスの残差補正によってターゲット環境に適合させる。この適応された世界モデルを用いて、ReDRAWは、補正されたダイナミクスの下で想像されたロールアウトでRLエージェントを最適化し、実世界に展開することを可能にする。複数の視覚ベースのMuJoCoドメインと物理ロボットの視覚レーン追従タスクにおいて、ReDRAWはダイナミクスの変化を効果的にモデル化し、従来の転送手法が失敗する低データ領域でのオーバーフィッティングを回避した。

要約(オリジナル)

Simulation-to-reality reinforcement learning (RL) faces the critical challenge of reconciling discrepancies between simulated and real-world dynamics, which can severely degrade agent performance. A promising approach involves learning corrections to simulator forward dynamics represented as a residual error function, however this operation is impractical with high-dimensional states such as images. To overcome this, we propose ReDRAW, a latent-state autoregressive world model pretrained in simulation and calibrated to target environments through residual corrections of latent-state dynamics rather than of explicit observed states. Using this adapted world model, ReDRAW enables RL agents to be optimized with imagined rollouts under corrected dynamics and then deployed in the real world. In multiple vision-based MuJoCo domains and a physical robot visual lane-following task, ReDRAW effectively models changes to dynamics and avoids overfitting in low data regimes where traditional transfer methods fail.

arxiv情報

著者 JB Lanier,Kyungmin Kim,Armin Karamzade,Yifei Liu,Ankita Sinha,Kat He,Davide Corsi,Roy Fox
発行日 2025-04-03 03:41:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO | Adapting World Models with Latent-State Dynamics Residuals はコメントを受け付けていません