TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction

要約

エッジクライアント全体で非依存性と同一に分散された(非IID)データは、エッジコンピューティング環境でのフェデレートラーニング(FL)トレーニングに重大な課題をもたらしてきました。
以前の作品は、この統計的不均一性を軽減するためのさまざまな方法を提案しています。
これらの作品は優れた理論的パフォーマンスを実現できますが、この作業では、既存の方法で採用されたクライアント全体で均一なモデル補正係数によってもたらされる隠された過補正現象に関する最初の調査を提供します。
このような過補正は、モデルのパフォーマンスを低下させ、モデルの収束に障害を引き起こす可能性さえあります。
これに対処するために、クライアント固有の勾配補正とモデル集約を実装することにより、クライアントのデータの非IID性に対処する新しいアルゴリズムであるTacoを提案し、ローカルモデルをより正確なグローバルオプティムに向けて操縦します。
さらに、主要なFLアルゴリズムは、クライアントに課される追加の計算オーバーヘッドに起因する、壁1杯ではなく、通信ラウンドに関して一般にモデルの精度が優れていることを確認します。
トレーニング効率を向上させるために、Tacoは、最小計算オーバーヘッドと同期モデルパラメーターを超えた追加情報を必要としない軽量モデルの補正とテーラード集約アプローチを展開します。
Tacoの有効性を検証するために、過補正の根本原因を明らかにする最初のFL収束分析を提示します。
さまざまなデータセットにわたる広範な実験では、実際のタコスの優れたパフォーマンスと安定したパフォーマンスが確認されています。

要約(オリジナル)

Non-independent and identically distributed (Non-IID) data across edge clients have long posed significant challenges to federated learning (FL) training in edge computing environments. Prior works have proposed various methods to mitigate this statistical heterogeneity. While these works can achieve good theoretical performance, in this work we provide the first investigation into a hidden over-correction phenomenon brought by the uniform model correction coefficients across clients adopted by existing methods. Such over-correction could degrade model performance and even cause failures in model convergence. To address this, we propose TACO, a novel algorithm that addresses the non-IID nature of clients’ data by implementing fine-grained, client-specific gradient correction and model aggregation, steering local models towards a more accurate global optimum. Moreover, we verify that leading FL algorithms generally have better model accuracy in terms of communication rounds rather than wall-clock time, resulting from their extra computation overhead imposed on clients. To enhance the training efficiency, TACO deploys a lightweight model correction and tailored aggregation approach that requires minimum computation overhead and no extra information beyond the synchronized model parameters. To validate TACO’s effectiveness, we present the first FL convergence analysis that reveals the root cause of over-correction. Extensive experiments across various datasets confirm TACO’s superior and stable performance in practice.

arxiv情報

著者 Weijie Liu,Ziwei Zhan,Carlee Joe-Wong,Edith Ngai,Jingpu Duan,Deke Guo,Xu Chen,Xiaoxi Zhang
発行日 2025-04-24 13:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | TACO: Tackling Over-correction in Federated Learning with Tailored Adaptive Correction はコメントを受け付けていません

Towards Machine-Generated Code for the Resolution of User Intentions

要約

人工知能(AI)の成長能力、特に大規模な言語モデル(LLM)は、ユーザーとそのデバイス間の相互作用メカニズムの再評価を促します。
現在、ユーザーは一連の高レベルアプリケーションを使用して、望ましい結果を達成する必要があります。
ただし、AIの出現は、その能力がモデル生成コードの展開を通じてユーザーが提供する意図解像度の新しい見通しを生み出したため、多数の相互依存ステップを含むワークフローの生成に相当するため、ユーザーが提供する意図解像度の新しい見込みを生み出したためです。
この開発は、ハイブリッドワークフローの領域における大幅な進行を表しています。ハイブリッドワークフローは、人間と人工知能が協力してユーザーの意図に対処し、前者はこれらの意図を定義する責任を負い、後者はそれらに対処するためのソリューションを実装する責任があります。
このホワイトペーパーでは、コード生成を通じてワークフローを生成および実行する可能性を調査します。これは、\ emphing {私の保険会社に車のタイトルを送信してください}などの具体的なユーザーの意図でLLMを促したことから生じることがあります。
さまざまなユーザー意図、結果のコード、およびその実行の詳細な分析と比較を提供します。
調査結果は、私たちのアプローチの一般的な実現可能性を示しており、採用されたLLMであるGPT-4O-MINIが、提供されたユーザーの意図に従ってコード指向のワークフローの生成において顕著な習熟度を示していることを示しています。

要約(オリジナル)

The growing capabilities of Artificial Intelligence (AI), particularly Large Language Models (LLMs), prompt a reassessment of the interaction mechanisms between users and their devices. Currently, users are required to use a set of high-level applications to achieve their desired results. However, the advent of AI may signal a shift in this regard, as its capabilities have generated novel prospects for user-provided intent resolution through the deployment of model-generated code, which is tantamount to the generation of workflows comprising a multitude of interdependent steps. This development represents a significant progression in the realm of hybrid workflows, where human and artificial intelligence collaborate to address user intentions, with the former responsible for defining these intentions and the latter for implementing the solutions to address them. In this paper, we investigate the feasibility of generating and executing workflows through code generation that results from prompting an LLM with a concrete user intention, such as \emph{Please send my car title to my insurance company}, and a simplified application programming interface for a GUI-less operating system. We provide in-depth analysis and comparison of various user intentions, the resulting code, and its execution. The findings demonstrate a general feasibility of our approach and that the employed LLM, GPT-4o-mini, exhibits remarkable proficiency in the generation of code-oriented workflows in accordance with provided user intentions.

arxiv情報

著者 Justus Flerlage,Ilja Behnke,Odej Kao
発行日 2025-04-24 13:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Towards Machine-Generated Code for the Resolution of User Intentions はコメントを受け付けていません

Learning Isometric Embeddings of Road Networks using Multidimensional Scaling

要約

学習ベースの自律運転アプリケーションの一般化の欠如は、車両が現在カバーできる狭い範囲の道路シナリオによって示されています。
一般化可能なアプローチでは、多くの異なる道路構造とトポロジーをキャプチャするだけでなく、トラフィック参加者、および環境の動的な変化を検討して、車両が最も困難な状況でもモーション計画タスクをナビゲートおよび実行できるようにする必要があります。
あらゆる種類の道路シナリオをカプセル化するニューラルネットワークベースのモーションプレーナーに適した機能スペースを設計することは、依然としてオープンな研究の課題です。
このペーパーは、この学習ベースの一般化課題に取り組み、そのような特徴スペースを取得するために多次元スケーリング(MDS)技術を使用して道路ネットワークのグラフ表現をどのように活用できるかを示しています。
最先端のグラフ表現とMDSアプローチは、自律運転のユースケースについて分析されます。
最後に、グラフノードを埋め込むオプションについて説明し、より簡単な学習手順を実行し、次元の削減を得るために説明します。

要約(オリジナル)

The lack of generalization in learning-based autonomous driving applications is shown by the narrow range of road scenarios that vehicles can currently cover. A generalizable approach should capture many distinct road structures and topologies, as well as consider traffic participants, and dynamic changes in the environment, so that vehicles can navigate and perform motion planning tasks even in the most difficult situations. Designing suitable feature spaces for neural network-based motion planers that encapsulate all kinds of road scenarios is still an open research challenge. This paper tackles this learning-based generalization challenge and shows how graph representations of road networks can be leveraged by using multidimensional scaling (MDS) techniques in order to obtain such feature spaces. State-of-the-art graph representations and MDS approaches are analyzed for the autonomous driving use case. Finally, the option of embedding graph nodes is discussed in order to perform easier learning procedures and obtain dimensionality reduction.

arxiv情報

著者 Juan Carlos Climent Pardo
発行日 2025-04-24 13:20:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.SC | Learning Isometric Embeddings of Road Networks using Multidimensional Scaling はコメントを受け付けていません

ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation

要約

人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)アプリケーションに力を与えるための極めて重要な手法です。
LLMSの監視されたトレーニングプロセスと比較して、RLHFトレーニングプロセスははるかに洗練されており、複数のLLMインスタンス間の複雑な依存関係を備えた多様な計算ワークロードが必要です。
したがって、LLMSの監視されたトレーニングから固定並列化戦略を単に採用するだけでは、RLHFにとって不十分であり、トレーニング効率が低くなる可能性があります。
この制限を克服するために、Parameter Reallocationという名前の新しい手法を提案します。これは、トレーニングクラスター全体でLLMパラメーターを再配布することにより、トレーニング中にさまざまなワークロードの並列化戦略を動的に適合させます。
このアイデアに基づいて、効率的なRLHFトレーニングのための先駆的なシステムであるRealを紹介します。
Realは、RLHFトレーニングのために特に設計された微調整されたリソース割り当てと並列化戦略を定義する実行計画の概念を紹介します。
この概念に基づいて、Realは軽量の実行時間推定器を備えたテーラード検索アルゴリズムを採用して、RLHF実験のインスタンスの効率的な実行計画を自動的に発見します。
その後、ランタイムエンジンは、計算を効果的に並列化し、パラメーターを再配布することにより、選択した計画を展開します。
最大700億パラメーターと128 GPUを持つLlamaモデルでRealを評価します。
実験結果は、Realがベースラインメソッドと比較して最大$ 3.58 \ Times $のスピードアップを達成することを示しています。
さらに、Realによって生成された実行計画は、長いコンテキストシナリオのMegatron-LMに基づくヒューリスティックアプローチよりも平均81ドルのパフォーマンス改善を示しています。
REALソースコードは、https://github.com/openpsi-project/realhfで公開されています。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is a pivotal technique for empowering large language model (LLM) applications. Compared with the supervised training process of LLMs, the RLHF training process is much more sophisticated, requiring a diverse range of computation workloads with intricate dependencies between multiple LLM instances. Therefore, simply adopting the fixed parallelization strategies from supervised training for LLMs can be insufficient for RLHF and result in low training efficiency. To overcome this limitation, we propose a novel technique named parameter ReaLlocation, which dynamically adapts the parallelization strategies for different workloads during training by redistributing LLM parameters across the training cluster. Building upon this idea, we introduce ReaL, a pioneering system for efficient RLHF training. ReaL introduces the concept of an execution plan, which defines a fine-grained resource allocation and parallelization strategy particularly designed for RLHF training. Based on this concept, ReaL employs a tailored search algorithm with a lightweight run-time estimator to automatically discover an efficient execution plan for an instance of RLHF experiment. Subsequently, the runtime engine deploys the selected plan by effectively parallelizing computations and redistributing parameters. We evaluate ReaL on the LLaMA models with up to 70 billion parameters and 128 GPUs. The experimental results demonstrate that ReaL achieves speedups of up to $3.58\times$ compared to baseline methods. Furthermore, the execution plans generated by ReaL exhibit an average of $81\%$ performance improvement over heuristic approaches based on Megatron-LM in the long-context scenario. The source code of ReaL is publicly available at https://github.com/openpsi-project/ReaLHF .

arxiv情報

著者 Zhiyu Mei,Wei Fu,Kaiwei Li,Guangju Wang,Huanchen Zhang,Yi Wu
発行日 2025-04-24 13:24:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG | ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation はコメントを受け付けていません

Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste

要約

ブロックチェーンテクノロジーにより、分散型システムで安全で透明なデータ管理が可能になり、ビットコインなどの暗号通貨からプロパティなどの現実世界資産のトークン化までのアプリケーションをサポートできます。
セキュリティと効率のバランスをとるコンセンサスメカニズムにかかるスケーラビリティと持続可能性。
Bitcoinが使用する作業証明(POW)は、エネルギー集約型の計算を通じてセキュリティを保証しますが、重要なリソースを要求します。
登録後のイーサリアムのように、ステークの証明(POS)は、染色された暗号通貨に基づいてバリデーターを選択し、エネルギー効率を提供しますが、富の集中から集中化を危険にさらします。
AIモデルが計算リソースを緊張させると、ハイブリッドコンセンサスメカニズムである有用なインテリジェンス(POUI)の証明を提案します。
POUIでは、労働者は言語処理や画像分析などのAIタスクを実行してコインを獲得します。コインは、ネットワークを確保するために賭けられ、セキュリティと実用的なユーティリティをブレンドします。
分散型ノード – ジョブポスター、市場コーディネーター、ワーカー、およびバリデーター – タスクと報酬を管理するためのスマートコントラクトを介して協力します。

要約(オリジナル)

Blockchain technology enables secure, transparent data management in decentralized systems, supporting applications from cryptocurrencies like Bitcoin to tokenizing real-world assets like property. Its scalability and sustainability hinge on consensus mechanisms balancing security and efficiency. Proof of Work (PoW), used by Bitcoin, ensures security through energy-intensive computations but demands significant resources. Proof of Stake (PoS), as in Ethereum post-Merge, selects validators based on staked cryptocurrency, offering energy efficiency but risking centralization from wealth concentration. With AI models straining computational resources, we propose Proof of Useful Intelligence (PoUI), a hybrid consensus mechanism. In PoUI, workers perform AI tasks like language processing or image analysis to earn coins, which are staked to secure the network, blending security with practical utility. Decentralized nodes–job posters, market coordinators, workers, and validators –collaborate via smart contracts to manage tasks and rewards.

arxiv情報

著者 Zan-Kai Chong,Hiroyuki Ohsaki,Bryan Ng
発行日 2025-04-24 13:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste はコメントを受け付けていません

Auditing the Ethical Logic of Generative AI Models

要約

生成AIモデルがハイステークスドメインにますます統合されるようになるにつれて、倫理的推論を評価するための堅牢な方法の必要性がますます重要になります。
このペーパーでは、主要な大手言語モデル(LLMS)の倫理論理を評価するために、分析品質、倫理的考慮事項の幅、説明の深さ、一貫性、決定性の評価 – 5次元監査モデルを紹介します。
応用倫理と高次の思考からの伝統を利用して、私たちは、多様な文脈にわたるモデルの推論を調査するために、新しい倫理的ジレンマを含む多ぶらぶら迅速なアプローチを提示します。
7つの主要なLLMSベンチマークでは、モデルは一般に倫理的決定に収束しますが、説明的な厳密さと道徳的優先順位が異なることを発見しました。
考えのチェーンプロンプトと推論が最適化されたモデルは、監査メトリックのパフォーマンスを大幅に向上させます。
この研究では、AIシステムの倫理的ベンチマークのためのスケーラブルな方法論を紹介し、AIが複雑な意思決定の文脈で人間の道徳的推論を補完する可能性を強調しています。

要約(オリジナル)

As generative AI models become increasingly integrated into high-stakes domains, the need for robust methods to evaluate their ethical reasoning becomes increasingly important. This paper introduces a five-dimensional audit model — assessing Analytic Quality, Breadth of Ethical Considerations, Depth of Explanation, Consistency, and Decisiveness — to evaluate the ethical logic of leading large language models (LLMs). Drawing on traditions from applied ethics and higher-order thinking, we present a multi-battery prompt approach, including novel ethical dilemmas, to probe the models’ reasoning across diverse contexts. We benchmark seven major LLMs finding that while models generally converge on ethical decisions, they vary in explanatory rigor and moral prioritization. Chain-of-Thought prompting and reasoning-optimized models significantly enhance performance on our audit metrics. This study introduces a scalable methodology for ethical benchmarking of AI systems and highlights the potential for AI to complement human moral reasoning in complex decision-making contexts.

arxiv情報

著者 W. Russell Neuman,Chad Coleman,Ali Dasdan,Safinah Ali,Manan Shah
発行日 2025-04-24 13:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Auditing the Ethical Logic of Generative AI Models はコメントを受け付けていません

HalluLens: LLM Hallucination Benchmark

要約

大規模な言語モデル(LLM)は、多くの場合、ユーザーの入力またはトレーニングデータから逸脱する応答を生成します。これは、「幻覚」として知られる現象です。
これらの幻覚は、ユーザーの信頼を損ない、生成AIシステムの採用を妨げます。
LLMSの進歩には幻覚に対処することが不可欠です。
このペーパーでは、幻覚の明確な分類法に基づいて構築された、新しい外因性評価タスクと既存の本質的な評価タスクの両方を組み込んだ包括的な幻覚ベンチマークを紹介します。
ベンチマークの幻覚の主な課題は、一貫性のない定義と分類により、統一されたフレームワークがないことです。
LLMの幻覚を「事実」から解き放ち、一貫性を促進し、研究を促進するために、外因性と固有の幻覚を区別する明確な分類法を提案します。
生成されたコンテンツがトレーニングデータと一致していない外因性の幻覚は、LLMSが進化するにつれてますます重要になっています。
私たちのベンチマークには、データの漏れを軽減し、そのような漏れに対する堅牢性を確保するための動的テストセットの生成が含まれます。
また、既存のベンチマークを分析し、それらの制限と飽和を強調します。
(1)幻覚の明確な分類法を確立することを目的としています。(2)漏れによる飽和を防ぐために動的に再生できる新しい外因性幻覚タスクを導入します。

要約(オリジナル)

Large language models (LLMs) often generate responses that deviate from user input or training data, a phenomenon known as ‘hallucination.’ These hallucinations undermine user trust and hinder the adoption of generative AI systems. Addressing hallucinations is essential for the advancement of LLMs. This paper introduces a comprehensive hallucination benchmark, incorporating both new extrinsic and existing intrinsic evaluation tasks, built upon clear taxonomy of hallucination. A major challenge in benchmarking hallucinations is the lack of a unified framework due to inconsistent definitions and categorizations. We disentangle LLM hallucination from ‘factuality,’ proposing a clear taxonomy that distinguishes between extrinsic and intrinsic hallucinations, to promote consistency and facilitate research. Extrinsic hallucinations, where the generated content is not consistent with the training data, are increasingly important as LLMs evolve. Our benchmark includes dynamic test set generation to mitigate data leakage and ensure robustness against such leakage. We also analyze existing benchmarks, highlighting their limitations and saturation. The work aims to: (1) establish a clear taxonomy of hallucinations, (2) introduce new extrinsic hallucination tasks, with data that can be dynamically regenerated to prevent saturation by leakage, (3) provide a comprehensive analysis of existing benchmarks, distinguishing them from factuality evaluations.

arxiv情報

著者 Yejin Bang,Ziwei Ji,Alan Schelten,Anthony Hartshorn,Tara Fowler,Cheng Zhang,Nicola Cancedda,Pascale Fung
発行日 2025-04-24 13:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HalluLens: LLM Hallucination Benchmark はコメントを受け付けていません

Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks

要約

目的:このレビューでは、マルチモーダル人工知能(AI)システムの信頼性を調査し、特にビジョン言語タスクに焦点を当てています。
これらのシステムにおける公平性、透明性、および倫理的意味に関連する重要な課題に対処し、視覚的な質問応答(VQA)、画像キャプション、視覚対話などの重要なタスクの比較分析を提供します。
背景:マルチモーダルモデル、特にビジョン言語モデルは、視覚データとテキストデータを統合し、人間の学習プロセスを模倣することにより、人工知能(AI)機能を強化します。
重要な進歩にもかかわらず、これらのモデルの信頼性は、特にAIシステムが公平性、透明性、倫理に関する問題にますます直面しているため、重要な懸念のままです。
方法:このレビューでは、2017年から2024年までに実施された研究を検討して、前提条件のコアビジョン言語タスクに焦点を当てています。
比較アプローチを採用して、信頼性のレンズを介してこれらのタスクを分析し、公平性、説明、倫理を強調しています。
この研究では、最近の文献からの調査結果を統合して、傾向、課題、および最先端のソリューションを特定しています。
結果:いくつかの重要な調査結果が強調されました。
透明性:ビジョン言語タスクの説明可能性は、ユーザーの信頼にとって重要です。
注意マップやグラデーションベースの方法などの手法は、この問題に成功裏に対処しました。
公平性:VQAおよび視覚対話システムのバイアス緩和は、多様な人口統計グループ全体で公平な結果を確保するために不可欠です。
倫理的意味:多言語モデルのバイアスに対処し、視覚言語システムの責任ある展開にとって倫理的データ処理を確保することが重要です。
結論:この研究では、統一されたフレームワーク内で視覚言語モデルの開発において、公平性、透明性、倫理的考慮事項を統合することの重要性を強調しています。

要約(オリジナル)

Objective: This review explores the trustworthiness of multimodal artificial intelligence (AI) systems, specifically focusing on vision-language tasks. It addresses critical challenges related to fairness, transparency, and ethical implications in these systems, providing a comparative analysis of key tasks such as Visual Question Answering (VQA), image captioning, and visual dialogue. Background: Multimodal models, particularly vision-language models, enhance artificial intelligence (AI) capabilities by integrating visual and textual data, mimicking human learning processes. Despite significant advancements, the trustworthiness of these models remains a crucial concern, particularly as AI systems increasingly confront issues regarding fairness, transparency, and ethics. Methods: This review examines research conducted from 2017 to 2024 focusing on forenamed core vision-language tasks. It employs a comparative approach to analyze these tasks through the lens of trustworthiness, underlining fairness, explainability, and ethics. This study synthesizes findings from recent literature to identify trends, challenges, and state-of-the-art solutions. Results: Several key findings were highlighted. Transparency: Explainability of vision language tasks is important for user trust. Techniques, such as attention maps and gradient-based methods, have successfully addressed this issue. Fairness: Bias mitigation in VQA and visual dialogue systems is essential for ensuring unbiased outcomes across diverse demographic groups. Ethical Implications: Addressing biases in multilingual models and ensuring ethical data handling is critical for the responsible deployment of vision-language systems. Conclusion: This study underscores the importance of integrating fairness, transparency, and ethical considerations in developing vision-language models within a unified framework.

arxiv情報

著者 Mohammad Saleh,Azadeh Tabatabaei
発行日 2025-04-24 13:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks はコメントを受け付けていません

To Help or Not to Help: LLM-based Attentive Support for Human-Robot Group Interactions

要約

ロボットは、人間のグループ内で控えめな物理的サポートをどのように提供できますか?
私たちは、人間のグループをサポートするためのロボットの新しい相互作用概念であるAttentive Supportを提示します。
シーンの認識、対話の習得、状況理解、および行動生成と、大規模な言語モデル(LLM)の常識的な推論能力を組み合わせています。
ユーザーの指示に加えて、注意深いサポートは、人間をいつ、どのようにサポートするか、そしてグループを邪魔しないためにいつ沈黙を保つかを決定することができます。
多様なシナリオのセットを使用して、必要に応じて人間をサポートおよび支援するロボットの丁寧な行動を示し、評価しますが、助けが必要ない場合は邪魔をしません。

要約(オリジナル)

How can a robot provide unobtrusive physical support within a group of humans? We present Attentive Support, a novel interaction concept for robots to support a group of humans. It combines scene perception, dialogue acquisition, situation understanding, and behavior generation with the common-sense reasoning capabilities of Large Language Models (LLMs). In addition to following user instructions, Attentive Support is capable of deciding when and how to support the humans, and when to remain silent to not disturb the group. With a diverse set of scenarios, we show and evaluate the robot’s attentive behavior, which supports and helps the humans when required, while not disturbing if no help is needed.

arxiv情報

著者 Daniel Tanneberg,Felix Ocker,Stephan Hasler,Joerg Deigmoeller,Anna Belardinelli,Chao Wang,Heiko Wersing,Bernhard Sendhoff,Michael Gienger
発行日 2025-04-24 14:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.8 | To Help or Not to Help: LLM-based Attentive Support for Human-Robot Group Interactions はコメントを受け付けていません

CoPAL: Corrective Planning of Robot Actions with Large Language Models

要約

人間が伝統的に実行するタスクを引き継ぐことができる完全に自律的なロボットシステムを追求することで、オープンワールド環境の複雑さはかなりの課題をもたらします。
この命令に対処すると、この研究は、ロボットのタスクとモーション計画に適用される大規模な言語モデル(LLM)の分野に貢献しています。
推論、計画、およびモーション生成を含む、複数の認知レベルの間のシームレスな相互作用を調整するシステムアーキテクチャを提案します。
その中心には、生成された計画の物理的、論理的、意味的エラーを処理する新しい再生戦略があります。
提案されたフィードバックアーキテクチャの有効性、特にシミュレーションと2つの複雑な実世界のシナリオのコンテキストでの経験的評価による実行可能性、正確性、および時間の複雑さへの影響を実証します。

要約(オリジナル)

In the pursuit of fully autonomous robotic systems capable of taking over tasks traditionally performed by humans, the complexity of open-world environments poses a considerable challenge. Addressing this imperative, this study contributes to the field of Large Language Models (LLMs) applied to task and motion planning for robots. We propose a system architecture that orchestrates a seamless interplay between multiple cognitive levels, encompassing reasoning, planning, and motion generation. At its core lies a novel replanning strategy that handles physically grounded, logical, and semantic errors in the generated plans. We demonstrate the efficacy of the proposed feedback architecture, particularly its impact on executability, correctness, and time complexity via empirical evaluation in the context of a simulation and two intricate real-world scenarios: blocks world, barman and pizza preparation.

arxiv情報

著者 Frank Joublin,Antonello Ceravola,Pavel Smirnov,Felix Ocker,Joerg Deigmoeller,Anna Belardinelli,Chao Wang,Stephan Hasler,Daniel Tanneberg,Michael Gienger
発行日 2025-04-24 14:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CoPAL: Corrective Planning of Robot Actions with Large Language Models はコメントを受け付けていません