Identifying and Addressing Delusions for Target-Directed Decision-Making

要約

私たちは、意思決定時の計画中に目標を生成し、行動を導き、評価中により良い一般化を達成する、目標指向エージェントに興味を持っています。
これらのエージェントの不適切なトレーニングは妄想を引き起こす可能性があります。エージェントはターゲットについて誤った信念を持つようになる可能性があり、それを適切に拒否することができず、望ましくない行動を引き起こし、分布外の一般化に損害を与えます。
注意深く管理された環境で直感的な例を使用してさまざまな種類の妄想を特定し、その原因を調査します。
私たちは、目標指向の RL エージェントを訓練するための主流のアプローチである後知恵の再ラベル付けによって訓練されたエージェントの妄想にどのように対処できるかを示します。
私たちは、妄想的行動を修正し、分布外の一般化を改善する上で、提案された解決策の有効性を経験的に検証します。

要約(オリジナル)

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Doina Precup,Yoshua Bengio
発行日 2024-10-10 16:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Identifying and Addressing Delusions for Target-Directed Decision-Making はコメントを受け付けていません

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

要約

近年、トレーニング データ アトリビューション (TDA) 手法が、ニューラル ネットワークの解釈可能性の有望な方向性として浮上しています。
TDA に関する研究は盛んですが、帰属の評価には限られた労力が費やされています。
従来の特徴帰属アプローチの評価指標の開発と同様に、さまざまなコンテキストにわたる TDA 手法の品質を評価するために、いくつかの独立した指標が提案されています。
しかし、体系的な比較を可能にする統一フレームワークの欠如により、TDA 手法への信頼が制限され、その広範な採用が妨げられています。
この研究ギャップに対処するために、TDA 手法の評価を容易にするために設計された Python ツールキットである Quanda を紹介します。
Quanda は、包括的な評価メトリクスのセットを提供するだけでなく、さまざまなリポジトリにわたる既存の TDA 実装とシームレスに統合するための統一インターフェイスを提供し、体系的なベンチマークを可能にします。
このツールキットはユーザーフレンドリーで、徹底的にテストされ、十分に文書化されており、PyPi および https://github.com/dilyabareeva/quanda でオープンソース ライブラリとして利用できます。

要約(オリジナル)

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.

arxiv情報

著者 Dilyara Bareeva,Galip Ümit Yolcu,Anna Hedström,Niklas Schmolenski,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-10-10 16:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond はコメントを受け付けていません

Context-Aware Command Understanding for Tabletop Scenarios

要約

この論文では、卓上シナリオで人間の自然なコマンドを解釈するように設計された新しいハイブリッド アルゴリズムを紹介します。
音声、ジェスチャー、シーンのコンテキストなどの複数の情報ソースを統合することで、システムはロボットに対する実行可能な指示を抽出し、関連するオブジェクトとアクションを識別します。
このシステムは、事前定義されたオブジェクト モデルに依存せずにゼロショット方式で動作するため、さまざまな環境での柔軟で適応的な使用が可能になります。
複数の深層学習モデルの統合を評価し、現実世界のロボット設定への展開への適合性を評価します。
私たちのアルゴリズムは、言語処理と視覚的根拠を組み合わせて、さまざまなタスクにわたって堅牢に実行します。
さらに、システムの評価に使用されるビデオ録画の小規模なデータセットをリリースします。
このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャしており、人間とロボットのインタラクションに関する将来の研究に貢献します。
このシステムの長所と限界について、特にマルチモーダルなコマンド解釈を処理する方法と、安全で説明可能な意思決定を実現するための記号ロボット フレームワークに統合できる機能に焦点を当てて説明します。

要約(オリジナル)

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.

arxiv情報

著者 Paul Gajewski,Antonio Galiza Cerdeira Gonzalez,Bipin Indurkhya
発行日 2024-10-10 10:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Context-Aware Command Understanding for Tabletop Scenarios はコメントを受け付けていません

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications

要約

車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションのために、周囲の物体の将来の位置と動きに関する初期情報を得るために、信頼性が高く、正確で、高速で、リソース効率が高く、スケーラブルで低遅延の軌道予測が必要です。
さらに、安全な経路計画を提供するために、リスク評価の予測の不確実性を知る必要があります。
この論文では、長期短期記憶と混合密度ネットワークを組み合わせて、これらの要件に対処する軽量な方法を紹介します。
私たちの方法は、後続のリスク管理アプリケーションをサポートするために、位置の不確実性の信頼レベル推定を含む確率分布を予測し、低電力組み込みプラットフォーム上で実行されます。
自動運転車アプリケーションにおける人間の軌跡予測の必須要件について議論し、複数の交通関連データセットを使用して手法のパフォーマンスを実証します。
さらに、信頼性と鮮明さのメトリクスについて説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証するためにそれらがいかに重要であるかを示します。
これらの重要な評価は、これまでのところ正当な理由もなくほとんど注目されていません。
私たちのアプローチは、現実世界への適用性に完全に焦点を当てています。
予測の不確実性とモデルの信頼性を検証することは、自律的な現実世界のアプリケーションの中心です。
私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting から入手できます。

要約(オリジナル)

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method’s performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model’s predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model’s reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.

arxiv情報

著者 Manuel Hetzel,Hannes Reichert,Konrad Doll,Bernhard Sick
発行日 2024-10-10 07:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications はコメントを受け付けていません

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約

視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。

要約(オリジナル)

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu
発行日 2024-10-10 05:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology はコメントを受け付けていません

An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems

要約

この論文では、無向の定常グラフ上で対話するマルチエージェント システム (MAS) の分散到達可能集合計算の問題を検討します。
このような MAS に対する完全な状態フィードバック制御入力は、現在のエージェントの状態だけでなく、その隣接エージェントの状態にも依存します。
ただし、ほとんどの MAS アプリケーションでは、ダイナミクスは個々のエージェントによって隠蔽されます。
このため、完全に分散された方法での到達可能な集合の計算は困難な問題になります。
ポリトピック到達可能集合近似のアイデアを利用し、それを MAS セットアップに一般化します。
結果として生じる部分問題を完全に分散された方法で定式化し、関連する計算の収束保証を提供します。
提案されたアルゴリズムの収束は、静的 MAS グラフと特定の制限の下での時間変化グラフの 2 つのケースで証明されます。

要約(オリジナル)

In this paper, we consider the problem of distributed reachable set computation for multi-agent systems (MASs) interacting over an undirected, stationary graph. A full state-feedback control input for such MASs depends no only on the current agent’s state, but also of its neighbors. However, in most MAS applications, the dynamics are obscured by individual agents. This makes reachable set computation, in a fully distributed manner, a challenging problem. We utilize the ideas of polytopic reachable set approximation and generalize it to a MAS setup. We formulate the resulting sub-problems in a fully distributed manner and provide convergence guarantees for the associated computations. The proposed algorithm’s convergence is proved for two cases: static MAS graphs, and time-varying graphs under certain restrictions.

arxiv情報

著者 Omanshu Thapliyal,Shanelle Clarke,Inseok Hwang
発行日 2024-10-10 02:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems はコメントを受け付けていません

Grounding Robot Policies with Visuomotor Language Guidance

要約

自然言語処理とコンピューター ビジョンの分野における最近の進歩により、大規模なインターネット データから世界の根底にある力学を理解する上で大きな可能性が示されています。
しかし、人間とロボットのインタラクションが不足していることと、現実世界のロボット データの大規模なデータセットが不足していることを考慮すると、この知識をロボット システムに変換することは依然として未解決の課題です。
行動クローニングや強化学習などのこれまでのロボット学習アプローチは、人間のデモンストレーションから、または特定の環境でゼロからロボットのスキルを学習する優れた能力を示してきました。
ただし、これらのアプローチでは、タスク固有のデモンストレーションや複雑なシミュレーション環境の設計が必要になることが多く、新しい設定に対する一般化可能で堅牢なポリシーの開発が制限されます。
これらの制限に対処することを目的として、視覚運動に基づいた言語ガイダンスを使用して現在のロボットとその環境の制約を考慮し、現在のコンテキストにロボットのポリシーを根付かせるためのエージェントベースのフレームワークを提案します。
提案されたフレームワークは、特定の役割、つまり高レベルのアドバイザー、視覚的グラウンディング、モニタリング、ロボット エージェント向けに設計された一連の会話型エージェントで構成されています。
基本ポリシーが与えられると、エージェントは実行時に集合的にガイダンスを生成し、基本ポリシーのアクション分布をより望ましい将来の状態に向けてシフトします。
私たちのアプローチは、人間による追加のデモンストレーションや広範な調査を必要とせずに、シミュレーションと現実世界の実験の両方で大幅に高い成功率を達成するために操作ポリシーを効果的に導くことができることを実証します。
https://sites.google.com/view/motorcortex/home でビデオを投影します。

要約(オリジナル)

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles — namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.

arxiv情報

著者 Arthur Bucker,Pablo Ortega-Kral,Jonathan Francis,Jean Oh
発行日 2024-10-10 04:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Grounding Robot Policies with Visuomotor Language Guidance はコメントを受け付けていません

HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning

要約

ビヘイビア ツリー (BT) は、そのモジュール性、反応性、堅牢性により、ロボット工学における制御構造としてますます人気が高まっています。
BT 生成方法に関しては、BT 計画は信頼性の高い BT を生成する可能性を示しています。
ただし、BT 計画のスケーラビリティは、主にドメイン知識の不足が原因で、複雑なシナリオでの計画時間が長くなることで制限されることがよくあります。
対照的に、事前トレーニングされた大規模言語モデル (LLM) は、さまざまなドメインにわたってタスク推論機能を実証していますが、その計画の正確さと安全性は依然として不確実です。
この論文では、BT 計画を LLM 推論と統合し、BT 生成のための信頼性が高く効率的なフレームワークであるヒューリスティック動作ツリー計画 (HBTP) を導入することを提案します。
HBTP の重要なアイデアは、タスク固有の推論に LLM を活用してヒューリスティック パスを生成し、BT 計画がそのパスに従って効率的に拡張できるようにすることです。
まず、ヒューリスティック BT 拡張プロセスと、それぞれ最適な計画と満足のいく計画のために設計された 2 つのヒューリスティック バリアントを紹介します。
次に、アクション空間の枝刈りや反射フィードバックなど、LLM 推論の不正確さに対処し、推論の精度と計画効率の両方をさらに向上させる方法を提案します。
実験では HBTP の理論的限界を実証し、4 つのデータセットの結果により、日常のサービス ロボット アプリケーションにおけるその実際の有効性が確認されています。

要約(オリジナル)

Behavior Trees (BTs) are increasingly becoming a popular control structure in robotics due to their modularity, reactivity, and robustness. In terms of BT generation methods, BT planning shows promise for generating reliable BTs. However, the scalability of BT planning is often constrained by prolonged planning times in complex scenarios, largely due to a lack of domain knowledge. In contrast, pre-trained Large Language Models (LLMs) have demonstrated task reasoning capabilities across various domains, though the correctness and safety of their planning remain uncertain. This paper proposes integrating BT planning with LLM reasoning, introducing Heuristic Behavior Tree Planning (HBTP)-a reliable and efficient framework for BT generation. The key idea in HBTP is to leverage LLMs for task-specific reasoning to generate a heuristic path, which BT planning can then follow to expand efficiently. We first introduce the heuristic BT expansion process, along with two heuristic variants designed for optimal planning and satisficing planning, respectively. Then, we propose methods to address the inaccuracies of LLM reasoning, including action space pruning and reflective feedback, to further enhance both reasoning accuracy and planning efficiency. Experiments demonstrate the theoretical bounds of HBTP, and results from four datasets confirm its practical effectiveness in everyday service robot applications.

arxiv情報

著者 Yishuai Cai,Xinglin Chen,Yunxin Mao,Minglong Li,Shaowu Yang,Wenjing Yang,Ji Wang
発行日 2024-10-10 02:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning はコメントを受け付けていません

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

要約

生成モデルの最近の進歩により、素晴らしいコンテンツを生成する際の顕著な機能が実証されました。
ただし、そのほとんどは独自の高品質データでトレーニングされており、一部のモデルはパラメーターを差し控え、アクセス可能なアプリケーション プログラミング インターフェイス (API) のみを提供するため、下流タスクでの利点が制限されます。
公開されているリソースを使用して、高度なモデルに匹敵するテキストから画像への生成モデルをトレーニングする実現可能性を検討するために、EvolveDirector を紹介します。
このフレームワークは、パブリック API を通じて高度なモデルと対話し、基本モデルをトレーニングするためのテキストと画像のデータのペアを取得します。
広範なデータを用いた実験により、高度なモデルの生成データでトレーニングされたモデルがその生成能力を近似できることが示されました。
ただし、1,000万以上の大規模サンプルが必要です。
これにより、時間、計算リソース、特に有料 API の呼び出しに関連するコストが大幅に増加します。
この問題に対処するために、事前トレーニングされた大規模ビジョン言語モデル (VLM) を活用して、基本モデルの進化をガイドします。
VLM はトレーニング中にベース モデルを継続的に評価し、識別、拡張、削除、突然変異の操作によってトレーニング データセットを動的に更新および改良します。
実験結果は、このパラダイムにより必要なデータ量が大幅に削減されることを示しています。
さらに、複数の高度なモデルに近づくと、EvolveDirector はそれらのモデルによって生成された最良のサンプルを選択して、強力でバランスのとれた能力を学習できます。
最終的にトレーニングされたモデル Edgen は、これらの高度なモデルよりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルの重みは https://github.com/showlab/EvolveDirector で入手できます。

要約(オリジナル)

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

arxiv情報

著者 Rui Zhao,Hangjie Yuan,Yujie Wei,Shiwei Zhang,Yuchao Gu,Lingmin Ran,Xiang Wang,Zhangjie Wu,Junhao Zhang,Yingya Zhang,Mike Zheng Shou
発行日 2024-10-10 04:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models はコメントを受け付けていません

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity

要約

物理的な人間とロボットの相互作用 (pHRI) の場合、ロボットは対象者の正確な体の姿勢を推定する必要があります。
ただし、これらの pHRI シナリオでは、対象者は物理的な相互作用のためにロボットの近くにいる必要があるため、ロボットは装備されたカメラで対象者の身体を完全に観察することはできません。
この距離が近いと、深刻な切断やオクルージョンが発生し、人間の姿勢推定の精度が低下します。
この困難な環境での精度を向上させるために、2D LiDAR などのタッチ センサーや測距センサーを備えたカメラのアクティブ測定およびセンサー フュージョン フレームワークを提案します。
タッチセンサーと測距センサーの測定値はまばらですが、人体の部位の位置を特定するための信頼性が高く有益な手がかりとなります。
当社のアクティブな測定プロセスでは、カメラの視点とセンサーの配置が動的に最適化され、切断や閉塞と密接に関係する推定の不確実性が高い身体部位を測定します。
センサー フュージョン プロセスでは、タッチ センサーと測距センサーの測定値がカメラ ベースの推定値よりも信頼性が高いと仮定して、推定された姿勢を測定点に向けて位置合わせすることで、センサーの測定値をカメラ ベースの推定された姿勢に融合します。
私たちが提案した方法は、シミュレートされたアクティブな測定を使用した標準的なオクルージョンベンチマークで以前の方法を上回りました。
さらに、私たちの方法は、毛布による遮蔽などの実際的な制約がある場合でも、実際のロボットを使用して人間のポーズを確実に推定しました。

要約(オリジナル)

For physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose of a target person. However, in these pHRI scenarios, the robot cannot fully observe the target person’s body with equipped cameras because the target person must be close to the robot for physical interaction. This close distance leads to severe truncation and occlusions and thus results in poor accuracy of human pose estimation. For better accuracy in this challenging environment, we propose an active measurement and sensor fusion framework of the equipped cameras with touch and ranging sensors such as 2D LiDAR. Touch and ranging sensor measurements are sparse but reliable and informative cues for localizing human body parts. In our active measurement process, camera viewpoints and sensor placements are dynamically optimized to measure body parts with higher estimation uncertainty, which is closely related to truncation or occlusion. In our sensor fusion process, assuming that the measurements of touch and ranging sensors are more reliable than the camera-based estimations, we fuse the sensor measurements to the camera-based estimated pose by aligning the estimated pose towards the measured points. Our proposed method outperformed previous methods on the standard occlusion benchmark with simulated active measurement. Furthermore, our method reliably estimated human poses using a real robot, even with practical constraints such as occlusion by blankets.

arxiv情報

著者 Takahiro Maeda,Keisuke Takeshita,Norimichi Ukita,Kazuhito Tanaka
発行日 2024-10-08 19:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Multimodal Active Measurement for Human Mesh Recovery in Close Proximity はコメントを受け付けていません