要約
自律エージェントを産業、国内、およびその他の毎日のタスクに適応させることは、現在勢いを増しています。
ただし、グローバルまたは横断的アプリケーションのコンテキストでは、環境との効果的な相互作用を確保し、無制限の人間のタスク指定された指示を多様な言語で実行することは未解決の問題です。
この課題に対処するために、自律的なエージェントが自然に会話できるように設計された言語に依存しないフレームワークであるReliを提案します。タスク命令の言語起源に関係なく、自律的なエージェントが環境について意味的に推論し、下流のタスクを実行することを提案します。
第一に、大規模な事前訓練を受けた基礎モデルを接地し、それらを言語から行動モデルに変換し、自然なフリーフローの人間ロボット会話相互作用を通じて、常識的な推論と高レベルのロボット制御を直接提供できます。
さらに、モデルの横断的な接地を実行して、グローバル言語全体で信頼を一般化することを保証します。
Reliの堅牢性を実証するために、ゼロショットや少数のショットの空間ナビゲーション、シーン情報の検索、クエリ指向のタスクなど、さまざまな短いホリゾンタスクおよびクエリ指向のタスクを含む、さまざまな短いホリゾンタスクで広範なシミュレーションおよび実世界の実験を実施しました。
70K以上のマルチターン会話を含む140の言語でのパフォーマンスをベンチマークしました。
平均して、Reliは90%を超える$ \ PMを超えて達成しました。違反の指示の解析とタスク実行の成功率の精度は0.2 $ 0.2でした。
これらの結果は、言語の多様性を擁護しながら、現実の世界での自然な人間とロボットの相互作用を強化する信頼の可能性を示しています。
デモンストレーションとリソースは、https://linusnep.github.io/reli/で公開されます。
要約(オリジナル)
Adapting autonomous agents to industrial, domestic, and other daily tasks is currently gaining momentum. However, in the global or cross-lingual application contexts, ensuring effective interaction with the environment and executing unrestricted human task-specified instructions in diverse languages remains an unsolved problem. To address this challenge, we propose ReLI, a language-agnostic framework designed to enable autonomous agents to converse naturally, semantically reason about the environment, and to perform downstream tasks, regardless of the task instruction’s linguistic origin. First, we ground large-scale pre-trained foundation models and transform them into language-to-action models that can directly provide common-sense reasoning and high-level robot control through natural, free-flow human-robot conversational interactions. Further, we perform cross-lingual grounding of the models to ensure that ReLI generalises across the global languages. To demonstrate the ReLI’s robustness, we conducted extensive simulated and real-world experiments on various short- and long-horizon tasks, including zero-shot and few-shot spatial navigation, scene information retrieval, and query-oriented tasks. We benchmarked the performance on 140 languages involving over 70K multi-turn conversations. On average, ReLI achieved over 90%$\pm$0.2 accuracy in cross-lingual instruction parsing and task execution success rates. These results demonstrate the ReLI’s potential to enhance natural human-robot interaction in the real world while championing linguistic diversity. Demonstrations and resources will be publicly available at https://linusnep.github.io/ReLI/.
arxiv情報
著者 | Linus Nwankwo,Bjoern Ellensohn,Ozan Özdenizci,Elmar Rueckert |
発行日 | 2025-05-06 13:46:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google