An Empirical Study of the Impact of Federated Learning on Machine Learning Model Accuracy

要約

Federated Learning(FL)は、グローバルスケールでのプライベートユーザーデータに関する分散MLモデルトレーニングを可能にします。
多くのドメインで実証されたFLの可能性にもかかわらず、モデルの精度への影響の詳細なビューは不明のままです。
この論文では、この学習パラダイムがさまざまなMLタスクの最先端のMLモデルの精度にどのように影響するかを体系的に調査します。
テキスト、画像、オーディオ、ビデオ、およびFL構成ノブのさまざまなデータ型を含む経験的研究を提示します:データ分布、FLスケール、クライアントサンプリング、ローカルおよびグローバル計算。
私たちの実験は、統一されたFLフレームワークで行われ、高い忠実度を達成し、実質的な人間の努力と資源投資を伴います。
結果に基づいて、FLの影響の定量分析を実行し、FLを適用することでモデルの精度が大幅に低下し、影響が無視できるケースを特定する挑戦的なシナリオを強調します。
詳細かつ広範な調査結果は、実用的な展開とFLの将来の開発に役立つ可能性があります。

要約(オリジナル)

Federated Learning (FL) enables distributed ML model training on private user data at the global scale. Despite the potential of FL demonstrated in many domains, an in-depth view of its impact on model accuracy remains unclear. In this paper, we investigate, systematically, how this learning paradigm can affect the accuracy of state-of-the-art ML models for a variety of ML tasks. We present an empirical study that involves various data types: text, image, audio, and video, and FL configuration knobs: data distribution, FL scale, client sampling, and local and global computations. Our experiments are conducted in a unified FL framework to achieve high fidelity, with substantial human efforts and resource investments. Based on the results, we perform a quantitative analysis of the impact of FL, and highlight challenging scenarios where applying FL degrades the accuracy of the model drastically and identify cases where the impact is negligible. The detailed and extensive findings can benefit practical deployments and future development of FL.

arxiv情報

著者 Haotian Yang,Zhuoran Wang,Benson Chou,Sophie Xu,Hao Wang,Jingxian Wang,Qizhen Zhang
発行日 2025-03-27 02:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.DC, cs.LG | An Empirical Study of the Impact of Federated Learning on Machine Learning Model Accuracy はコメントを受け付けていません

Beyond Believability: Accurate Human Behavior Simulation with Fine-Tuned LLMs

要約

最近の調査によると、LLMは「信頼できる」人間の行動を、プロンプトのみの方法を介してLLMエージェントをパワーすることができることが示されています。
この作業では、Webアクション生成タスクの主観的な「信じる性」ではなく、LLMの客観的な「精度」の評価と改善に焦点を当て、オンラインショッピングの人間アクションから収集された大規模で実世界のデータセットを活用しています。
Webアクション生成のタスクに関する最先端のLLMS(Deepseek-R1、Llama、Claudeなど)の最初の包括的な定量的評価を提示します。
私たちの結果は、実際の行動データのLLMを微調整すると、プロンプトのみの方法と比較してアクションを生成する能力が大幅に向上することを示しています。
さらに、合成された推論トレースをモデルトレーニングに組み込むと、パフォーマンスが追加の向上につながり、行動モデリングにおける明示的な理論的根拠の価値が示されます。
この作業は、行動シミュレーションでLLMを評価するための新しいベンチマークを確立し、実際のアクションデータと推論増強がLLMエージェントの忠実度を高める方法についての実用的な洞察を提供します。

要約(オリジナル)

Recent research shows that LLMs can simulate “believable” human behaviors to power LLM agents via prompt-only methods. In this work, we focus on evaluating and improving LLM’s objective “accuracy” rather than the subjective “believability” in the web action generation task, leveraging a large-scale, real-world dataset collected from online shopping human actions. We present the first comprehensive quantitative evaluation of state-of-the-art LLMs (e.g., DeepSeek-R1, Llama, and Claude) on the task of web action generation. Our results show that fine-tuning LLMs on real-world behavioral data substantially improves their ability to generate actions compared to prompt-only methods. Furthermore, incorporating synthesized reasoning traces into model training leads to additional performance gains, demonstrating the value of explicit rationale in behavior modeling. This work establishes a new benchmark for evaluating LLMs in behavior simulation and offers actionable insights into how real-world action data and reasoning augmentation can enhance the fidelity of LLM agents.

arxiv情報

著者 Yuxuan Lu,Jing Huang,Yan Han,Bennet Bei,Yaochen Xie,Dakuo Wang,Jessie Wang,Qi He
発行日 2025-03-27 02:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Believability: Accurate Human Behavior Simulation with Fine-Tuned LLMs はコメントを受け付けていません

Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy

要約

マルチモーダルの大規模な言語モデルの急速な発展により、視覚的な認識と理解において顕著な進歩がもたらされ、いくつかのタスクを単一の視覚的な質問をするフレームワークに統合しました。
ただし、これらのモデルは幻覚を起こしやすく、人工知能システムとしての信頼性を制限しています。
この問題は自然言語処理と画像キャプションで広く研究されていますが、特に画質評価タスクのコンテキストでは、低レベルの視覚的知覚と理解(HLPU)の幻覚の調査が不足しています。
これらの幻覚は、モデル内の明確な自己認識がないことから生じると考えています。
この問題に対処するために、最初にHLPU命令データベースを紹介します。これは、低レベルの視覚タスクの幻覚に特に焦点を当てた最初の命令データベースです。
このデータベースには約200kの質問回答ペアが含まれており、それぞれが異なる種類の命令をカバーしている4つのサブセットで構成されています。
その後、画像機能、顕著な領域機能、品質機能を利用して、低レベルの視覚タスクでモデルの知覚と理解能力を向上させる自己認識の故障排除(SAFEQA)モデルを提案します。
さらに、モデルの知識境界に対する認識を高め、それによって幻覚の発生率を軽減するために、自己認識の好みの最適化(ESA-PO)フレームワークの強化を提案します。
最後に、低レベルの視覚タスクに関する包括的な実験を実施し、結果は、提案された方法がこれらのタスクのモデルの自己認識を大幅に高め、幻覚を減らすことを実証します。
特に、提案された方法は、提案されたモデルの精度と自己認識の両方を改善し、さまざまな評価メトリックの観点から密集モデルを上回ることです。

要約(オリジナル)

The rapid development of multimodal large language models has resulted in remarkable advancements in visual perception and understanding, consolidating several tasks into a single visual question-answering framework. However, these models are prone to hallucinations, which limit their reliability as artificial intelligence systems. While this issue is extensively researched in natural language processing and image captioning, there remains a lack of investigation of hallucinations in Low-level Visual Perception and Understanding (HLPU), especially in the context of image quality assessment tasks. We consider that these hallucinations arise from an absence of clear self-awareness within the models. To address this issue, we first introduce the HLPU instruction database, the first instruction database specifically focused on hallucinations in low-level vision tasks. This database contains approximately 200K question-answer pairs and comprises four subsets, each covering different types of instructions. Subsequently, we propose the Self-Awareness Failure Elimination (SAFEQA) model, which utilizes image features, salient region features and quality features to improve the perception and comprehension abilities of the model in low-level vision tasks. Furthermore, we propose the Enhancing Self-Awareness Preference Optimization (ESA-PO) framework to increase the model’s awareness of knowledge boundaries, thereby mitigating the incidence of hallucination. Finally, we conduct comprehensive experiments on low-level vision tasks, with the results demonstrating that our proposed method significantly enhances self-awareness of the model in these tasks and reduces hallucinations. Notably, our proposed method improves both accuracy and self-awareness of the proposed model and outperforms close-source models in terms of various evaluation metrics.

arxiv情報

著者 Yinan Sun,Xiongkuo Min,Zicheng Zhang,Yixuan Gao,Yuqin Cao,Guangtao Zhai
発行日 2025-03-27 02:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy はコメントを受け付けていません

Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning

要約

視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たし、ドメイン固有のアプリケーションと人工的な一般情報(AGI)の両方を進めます。
既存の方法は、視覚的な推論機能を強化するために細心の注意を払って注釈付きトレーニングデータを使用して、チェーンオブ思考(COT)の監視微調整を介してVLMの推論を改善します。
ただし、このトレーニングパラダイムは、過剰適合および認知的剛性につながり、視覚的推論スキルをドメイン間で転送する能力を制限し、実際の適用性を制限する可能性があります。
これらの制限に対処するために、Reason-RFTを提案します。これは、視覚的推論タスクの一般化能力を大幅に強化する新しい強化微調整フレームワークです。
REASON-RFTは、視覚的推論のための2フェーズトレーニングフレームワークを導入します:(1)キュレーションされたチェーン(COT)データを使用した監視付き微調整(SFT)は、視覚言語モデル(VLMS)の推論の可能性をアクティブにし、その後、(2)グループ相対政策最適化(GRPO)ベースの補強学習が視覚化の視覚化を拡大する視覚化を促進する補強学習を生成します。
Reason-RFTの視覚的推論機能を評価するために、視覚カウント、構造知覚、および空間変換にまたがる包括的なデータセットを再構築しました。
実験結果は、推論RFTの3つの重要な利点を示しています。(1)パフォーマンスの強化:複数のタスクにわたって最先端の結果を達成し、ほとんどの主流のオープンソースと独自のモデルを上回ります。
(2)一般化の優位性:多様なタスクとドメイン全体で堅牢なパフォーマンスを一貫して維持し、代替トレーニングパラダイムを上回る。
(3)データ効率:フルデータセットSFTベースラインを上回りながら、少数のショット学習シナリオで優れています。
プロジェクトWebサイト:https://tanhuajie.github.io/ReasonRft

要約(オリジナル)

Visual reasoning abilities play a crucial role in understanding complex multimodal data, advancing both domain-specific applications and artificial general intelligence (AGI). Existing methods improve VLM reasoning via Chain-of-Thought (CoT) supervised fine-tuning, using meticulously annotated training data to enhance visual reasoning capabilities. However, this training paradigm may lead to overfitting and cognitive rigidity, restricting the model’s ability to transfer visual reasoning skills across domains and limiting its real-world applicability. To address these limitations, we propose Reason-RFT, a novel reinforcement fine-tuning framework that significantly enhances generalization capabilities in visual reasoning tasks. Reason-RFT introduces a two-phase training framework for visual reasoning: (1) Supervised Fine-Tuning (SFT) with curated Chain-of-Thought (CoT) data activates the reasoning potential of Vision-Language Models (VLMs), followed by (2) Group Relative Policy Optimization (GRPO)-based reinforcement learning that generates multiple reasoning-response pairs, significantly enhancing generalization in visual reasoning tasks. To evaluate Reason-RFT’s visual reasoning capabilities, we reconstructed a comprehensive dataset spanning visual counting, structure perception, and spatial transformation. Experimental results demonstrate Reasoning-RFT’s three key advantages: (1) Performance Enhancement: achieving state-of-the-art results across multiple tasks, outperforming most mainstream open-source and proprietary models; (2) Generalization Superiority: consistently maintaining robust performance across diverse tasks and domains, outperforming alternative training paradigms; (3) Data Efficiency: excelling in few-shot learning scenarios while surpassing full-dataset SFT baselines. Project website: https://tanhuajie.github.io/ReasonRFT

arxiv情報

著者 Huajie Tan,Yuheng Ji,Xiaoshuai Hao,Minglan Lin,Pengwei Wang,Zhongyuan Wang,Shanghang Zhang
発行日 2025-03-27 03:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning はコメントを受け付けていません

Learning Scene-Level Signed Directional Distance Function with Ellipsoidal Priors and Neural Residuals

要約

密集した幾何学的環境表現は、自律的なモバイルロボットナビゲーションと探索にとって重要です。
最近の研究は、ニューラルネットワークを使用して学習した占有、署名距離、または放射線の暗黙の連続表現が、メッシュ、ポイントクラウド、ボクセルに基づいた明示的な離散表現における再構築の忠実度、効率、および差別化の利点を提供することを示しています。
この作業では、署名された方向距離関数(SDDF)と呼ばれる署名された距離の方向定式化を探ります。
署名された距離関数(SDF)とは異なり、ニューラル放射輝度フィールド(NERF)と同様に、SDDFには入力としての位置と表示方向があります。
SDFと同様に、NERFとは異なり、SDDFはビューレイに沿って積分するのではなく、観測された表面に沿って観測された表面に距離を直接提供し、効率的なビュー合成を可能にします。
シーンレベルのSDDFを効率的に学習して予測するために、明示的な楕円形の前処理と暗黙の神経残差を組み合わせた微分可能なハイブリッド表現を開発します。
このアプローチにより、モデルは障害物の境界周辺の遠くの距離の不連続性を効果的に処理しながら、密集した高忠実度予測の能力を維持することができます。
SDDFは、再構成の精度とレンダリング効率の観点から、最先端の神経暗黙のシーンモデルと競合し、ロボット軌道最適化の微分可能なビュー予測を可能にすることを示します。

要約(オリジナル)

Dense geometric environment representations are critical for autonomous mobile robot navigation and exploration. Recent work shows that implicit continuous representations of occupancy, signed distance, or radiance learned using neural networks offer advantages in reconstruction fidelity, efficiency, and differentiability over explicit discrete representations based on meshes, point clouds, and voxels. In this work, we explore a directional formulation of signed distance, called signed directional distance function (SDDF). Unlike signed distance function (SDF) and similar to neural radiance fields (NeRF), SDDF has a position and viewing direction as input. Like SDF and unlike NeRF, SDDF directly provides distance to the observed surface along the direction, rather than integrating along the view ray, allowing efficient view synthesis. To learn and predict scene-level SDDF efficiently, we develop a differentiable hybrid representation that combines explicit ellipsoid priors and implicit neural residuals. This approach allows the model to effectively handle large distance discontinuities around obstacle boundaries while preserving the ability for dense high-fidelity prediction. We show that SDDF is competitive with the state-of-the-art neural implicit scene models in terms of reconstruction accuracy and rendering efficiency, while allowing differentiable view prediction for robot trajectory optimization.

arxiv情報

著者 Zhirui Dai,Hojoon Shin,Yulun Tian,Ki Myung Brian Lee,Nikolay Atanasov
発行日 2025-03-25 21:01:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Learning Scene-Level Signed Directional Distance Function with Ellipsoidal Priors and Neural Residuals はコメントを受け付けていません

Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion

要約

このペーパーは、拡張可能な長期の長期計画対象のエージェントである新しい問題に取り組んでおり、エラーを複利なしでトレーニングデータの軌跡よりも長く計画しています。
これに取り組むために、短いものを縫うことでより長い軌道を繰り返し生成する増強方法である階層的マルチスケールディフューザー(HMディフューザー)とプログレッシブ軌道拡張(PTE)を提案します。
HM-Diffuserは、階層構造を使用してこれらの拡張された軌跡を訓練し、複数の時間スケールでタスクを効率的に処理します。
さらに、階層層を単一のモデルに統合して時間的スケールを再帰的に処理する適応計画と再帰的なHMディフューザーを導入します。
実験結果は、私たちのアプローチの有効性を示しており、スケーラブルな長期計画のために拡散ベースのプランナーを進めています。

要約(オリジナル)

This paper tackles a novel problem, extendable long-horizon planning-enabling agents to plan trajectories longer than those in training data without compounding errors. To tackle this, we propose the Hierarchical Multiscale Diffuser (HM-Diffuser) and Progressive Trajectory Extension (PTE), an augmentation method that iteratively generates longer trajectories by stitching shorter ones. HM-Diffuser trains on these extended trajectories using a hierarchical structure, efficiently handling tasks across multiple temporal scales. Additionally, we introduce Adaptive Plan Pondering and the Recursive HM-Diffuser, which consolidate hierarchical layers into a single model to process temporal scales recursively. Experimental results demonstrate the effectiveness of our approach, advancing diffusion-based planners for scalable long-horizon planning.

arxiv情報

著者 Chang Chen,Hany Hamed,Doojin Baek,Taegu Kang,Yoshua Bengio,Sungjin Ahn
発行日 2025-03-25 22:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Extendable Long-Horizon Planning via Hierarchical Multiscale Diffusion はコメントを受け付けていません

Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations

要約

LLMの最近の進歩は、具体化されたアプリケーションでモーション生成モデルに革命をもたらしました。
LLMタイプの自動回帰モーション生成モデルは、トレーニングスケーラビリティの恩恵を受けますが、トークン予測目標と人間の好みの間には矛盾があります。
その結果、トークン予測の目的でのみ事前に訓練されたモデルは、人間が好むものから逸脱する行動を生成し、トレーニング後の選好アラインメントを人間が優先する動きを生成するために重要になります。
残念ながら、トレーニング後のアライメントには、特にマルチエージェント設定では、注釈を付けるのに費用がかかる、事前に訓練されたモデルによって生成される動きの広範な優先ランキングが必要です。
最近、トレーニング前のデモンストレーションを活用して、トレーニング後のアラインメントの優先データを拡大できるように生成することに関心が高まっています。
ただし、これらの方法はしばしば敵対的な仮定を採用し、事前に訓練されたすべてのモデル生成サンプルを未処理の例として扱います。
この敵対的なアプローチは、モデル自身の世代間の優先ランキングによって提供される貴重な信号を見落とし、最終的にアライメントの有効性を低下させ、潜在的に整合した行動につながる可能性があります。
この作業では、生成されたすべてのサンプルを等しく悪いと扱う代わりに、トレーニング前のデモンストレーションにエンコードされた暗黙の好みを活用して、事前に訓練されたモデルの世代間で優先ランキングを構築し、より微妙な優先選好アライメントガイダンスをゼロの人間コストで提供します。
大規模なトラフィックシミュレーションにアプローチを適用し、事前に訓練されたモデルの生成された動作のリアリズムを改善する上でその有効性を実証します。

要約(オリジナル)

Recent advancements in LLMs have revolutionized motion generation models in embodied applications. While LLM-type auto-regressive motion generation models benefit from training scalability, there remains a discrepancy between their token prediction objectives and human preferences. As a result, models pre-trained solely with token-prediction objectives often generate behaviors that deviate from what humans would prefer, making post-training preference alignment crucial for producing human-preferred motions. Unfortunately, post-training alignment requires extensive preference rankings of motions generated by the pre-trained model, which are costly to annotate, especially in multi-agent settings. Recently, there has been growing interest in leveraging pre-training demonstrations to scalably generate preference data for post-training alignment. However, these methods often adopt an adversarial assumption, treating all pre-trained model-generated samples as unpreferred examples. This adversarial approach overlooks the valuable signal provided by preference rankings among the model’s own generations, ultimately reducing alignment effectiveness and potentially leading to misaligned behaviors. In this work, instead of treating all generated samples as equally bad, we leverage implicit preferences encoded in pre-training demonstrations to construct preference rankings among the pre-trained model’s generations, offering more nuanced preference alignment guidance with zero human cost. We apply our approach to large-scale traffic simulation and demonstrate its effectiveness in improving the realism of pre-trained model’s generated behaviors, making a lightweight 1M motion generation model comparable to SOTA large imitation-based models by relying solely on implicit feedback from pre-training demonstrations, without additional post-training human preference annotations or high computational costs.

arxiv情報

著者 Ran Tian,Kratarth Goel
発行日 2025-03-25 23:02:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Direct Post-Training Preference Alignment for Multi-Agent Motion Generation Models Using Implicit Feedback from Pre-training Demonstrations はコメントを受け付けていません

TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models

要約

計画ドメイン定義言語(PDDL)などの古典的な計画の定式化が可能な場合は、初期状態を考慮して目標状態を達成することが保証されたアクションシーケンスを認めます。
ただし、PDDLで定義されている推論の問題は、既存のPDDLドメインの大幅な変更と定義なしに、競合する条件がない場合の2つのエージェント間の同時アクションなど、アクションテイクの時間的側面をキャプチャしません。
そのような制約を認識している人間の専門家は、それぞれが単一のエージェント計画を通じて到達可能なサブゴールに目標を分解し、同時の行動を利用することができます。
古典的な計画とは対照的に、プランステップを推測するために直接使用される大規模な言語モデル(LLM)は、実行の成功を保証することはめったにありませんが、アクションシーケンスを組み立てるための共同推論を活用することができます。
マルチエージェント計画目標分解のために人間の直観を近似することにより、古典的な計画とLLMの両方の強度を組み合わせます。
LLMベースの目標分解は、マルチエージェントPDDLの問題を直接解決しながら、単一のエージェントプランだけでなく、ほとんどのマルチエージェントプランよりもプランの実行ステップが少なく、実行の成功を保証するよりも、計画時間が速くなることを実証します。
さらに、LLMベースのサブゴールの近似は、人間の専門家が指定したものと同様のマルチエージェント実行長をもたらすことがわかります。
https://glamer-usc.github.io/twostepのウェブサイトとリソース

要約(オリジナル)

Classical planning formulations like the Planning Domain Definition Language (PDDL) admit action sequences guaranteed to achieve a goal state given an initial state if any are possible. However, reasoning problems defined in PDDL do not capture temporal aspects of action taking, such as concurrent actions between two agents when there are no conflicting conditions, without significant modification and definition to existing PDDL domains. A human expert aware of such constraints can decompose a goal into subgoals, each reachable through single agent planning, to take advantage of simultaneous actions. In contrast to classical planning, large language models (LLMs) directly used for inferring plan steps rarely guarantee execution success, but are capable of leveraging commonsense reasoning to assemble action sequences. We combine the strengths of both classical planning and LLMs by approximating human intuitions for multi-agent planning goal decomposition. We demonstrate that LLM-based goal decomposition leads to faster planning times than solving multi-agent PDDL problems directly while simultaneously achieving fewer plan execution steps than a single agent plan alone, as well as most multiagent plans, while guaranteeing execution success. Additionally, we find that LLM-based approximations of subgoals result in similar multi-agent execution lengths to those specified by human experts. Website and resources at https://glamor-usc.github.io/twostep

arxiv情報

著者 David Bai,Ishika Singh,David Traum,Jesse Thomason
発行日 2025-03-25 23:39:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, cs.RO | TwoStep: Multi-agent Task Planning using Classical Planners and Large Language Models はコメントを受け付けていません

AO-Grasp: Articulated Object Grasp Generation

要約

AO-Graspは、ロボットがキャビネットや閉鎖などの明確なオブジェクトと対話できるようにする6つのDOFグラップを生成する把握提案方法を紹介します。
AO-GRASPは、AO-GRASPモデルとAO-GRASPデータセットの2つの主な貢献で構成されています。
単一の明確なオブジェクトのセグメント化された部分ポイントクラウドを考えると、AO-GRASPモデルは、実行可能な把握ポイント予測子を使用して、オブジェクトの最適な把握ポイントを予測します。
次に、これらの各ポイントに対応する把握オリエンテーションを見つけ、安定した実用的な把握提案をもたらします。
合成された明確なオブジェクトに78kの実用的な並列ヨウの握りを含む新しいAO-GRASPデータセットでAO-GRASPモデルを訓練します。
シミュレーションでは、AO-Graspは45.0%の成功率を達成しますが、最高のパフォーマンスのベースラインは35.0%の成功率を達成します。
さらに、さまざまな幾何学、関節軸、および共同状態を持つオブジェクトの120の実際のシーンでAO-GRASPを評価します。AO-GRASPはシーンの67.5%で成功したグラスプを生成しますが、ベースラインはシーンの33.3%で成功した把握のみを生成します。
私たちの知る限り、AO-GRASPは、部分検出や手本の把握ヒューリスティックを必要とせずに、部分的なポイント雲から直接明確なオブジェクトで6つのDOFグラップを生成する最初の方法です。
プロジェクトWebサイト:https://stanford-iprl-lab.github.io/ao-grasp

要約(オリジナル)

We introduce AO-Grasp, a grasp proposal method that generates 6 DoF grasps that enable robots to interact with articulated objects, such as opening and closing cabinets and appliances. AO-Grasp consists of two main contributions: the AO-Grasp Model and the AO-Grasp Dataset. Given a segmented partial point cloud of a single articulated object, the AO-Grasp Model predicts the best grasp points on the object with an Actionable Grasp Point Predictor. Then, it finds corresponding grasp orientations for each of these points, resulting in stable and actionable grasp proposals. We train the AO-Grasp Model on our new AO-Grasp Dataset, which contains 78K actionable parallel-jaw grasps on synthetic articulated objects. In simulation, AO-Grasp achieves a 45.0 % grasp success rate, whereas the highest performing baseline achieves a 35.0% success rate. Additionally, we evaluate AO-Grasp on 120 real-world scenes of objects with varied geometries, articulation axes, and joint states, where AO-Grasp produces successful grasps on 67.5% of scenes, while the baseline only produces successful grasps on 33.3% of scenes. To the best of our knowledge, AO-Grasp is the first method for generating 6 DoF grasps on articulated objects directly from partial point clouds without requiring part detection or hand-designed grasp heuristics. Project website: https://stanford-iprl-lab.github.io/ao-grasp

arxiv情報

著者 Carlota Parés Morlans,Claire Chen,Yijia Weng,Michelle Yi,Yuying Huang,Nick Heppert,Linqi Zhou,Leonidas Guibas,Jeannette Bohg
発行日 2025-03-25 23:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AO-Grasp: Articulated Object Grasp Generation はコメントを受け付けていません

Bandwidth Allocation for Cloud-Augmented Autonomous Driving

要約

自律車両(AV)制御システムは、知覚や計画などのタスクについてMLモデルにますます依存しています。
現在の慣行は、リアルタイムのレイテンシの制約と信頼性の懸念により、モデルのサイズと精度を制限するため、これらのモデルを車のローカルハードウェアで実行することです。
以前の作業では、クラウド内でより大きなモデルを実行して、より速いクラウドランタイムに依存してセルラーネットワークの遅延を相殺することで現在のシステムを増強できることが観察されています。
ただし、以前の作業では、重要な実際的な制約:限られた細胞帯域幅を説明していません。
典型的な帯域幅レベルでは、クラウド増強AVモデルの提案された手法がデータを転送するのに時間がかかりすぎるため、主にオンカーモデルに戻り、正確な改善が行われないことを示しています。
この作業では、Cloud-Augmented AVモデルを実現するには、この希少な帯域幅のインテリジェントな使用、つまりタスク全体で帯域幅を慎重に割り当て、複数のデータ圧縮とモデルオプションを提供する必要があることを示します。
これをリソース割り当ての問題として策定して、自動車のユーティリティを最大化し、Waymo Open Datasetからの運転シナリオで平均モデルの精度を最大15パーセントポイント増加させるシステム\ sysNameを提示します。

要約(オリジナル)

Autonomous vehicle (AV) control systems increasingly rely on ML models for tasks such as perception and planning. Current practice is to run these models on the car’s local hardware due to real-time latency constraints and reliability concerns, which limits model size and thus accuracy. Prior work has observed that we could augment current systems by running larger models in the cloud, relying on faster cloud runtimes to offset the cellular network latency. However, prior work does not account for an important practical constraint: limited cellular bandwidth. We show that, for typical bandwidth levels, proposed techniques for cloud-augmented AV models take too long to transfer data, thus mostly falling back to the on-car models and resulting in no accuracy improvement. In this work, we show that realizing cloud-augmented AV models requires intelligent use of this scarce bandwidth, i.e. carefully allocating bandwidth across tasks and providing multiple data compression and model options. We formulate this as a resource allocation problem to maximize car utility, and present our system \sysname which achieves an increase in average model accuracy by up to 15 percentage points on driving scenarios from the Waymo Open Dataset.

arxiv情報

著者 Peter Schafhalter,Alexander Krentsel,Joseph E. Gonzalez,Sylvia Ratnasamy,Scott Shenker,Ion Stoica
発行日 2025-03-26 00:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | Bandwidth Allocation for Cloud-Augmented Autonomous Driving はコメントを受け付けていません