dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約

Federated Learningは、医療分野で幅広い用途を持っています。
これにより、患者のプライバシーを保護しながら、さまざまな医療機関間で知識共有を可能にします。
ただし、既存のフェデレーション学習システムは通常集中化されており、クライアントが集合のためにクライアント固有の知識を中央サーバーにアップロードする必要があります。
この集中化されたアプローチは、各クライアントの知識を集中サーバーに統合し、各クライアントに戻る前に集中統合中に知識がすでに損なわれています。
また、集中化されたアプローチは、セントラルサーバーへの依存性も生成します。これは、サーバーの誤動作または接続が不安定な場合のトレーニングの安定性に影響を与える可能性があります。
これらの問題に対処するために、DFLMOEという名前の分散化された連邦学習フレームワークを提案します。
私たちのフレームワークでは、クライアントは軽量のヘッドモデルを互いに直接交換します。
交換後、各クライアントはローカルモデルと受信したヘッドモデルの両方を個々の専門家として扱い、クライアント固有の専門家(MOE)アプローチの混合物を利用して、集合的な決定を下します。
この設計により、クライアント固有の集約による知識のダメージが軽減されるだけでなく、フレームワークの堅牢性を高めるために中央サーバーへの依存性を削除します。
複数の医療タスクに関するフレームワークを検証し、モデルの均一性と不均一性の両方の設定の下で、この方法が最先端のアプローチを明らかに上回ることを実証します。

要約(オリジナル)

Federated learning has wide applications in the medical field. It enables knowledge sharing among different healthcare institutes while protecting patients’ privacy. However, existing federated learning systems are typically centralized, requiring clients to upload client-specific knowledge to a central server for aggregation. This centralized approach would integrate the knowledge from each client into a centralized server, and the knowledge would be already undermined during the centralized integration before it reaches back to each client. Besides, the centralized approach also creates a dependency on the central server, which may affect training stability if the server malfunctions or connections are unstable. To address these issues, we propose a decentralized federated learning framework named dFLMoE. In our framework, clients directly exchange lightweight head models with each other. After exchanging, each client treats both local and received head models as individual experts, and utilizes a client-specific Mixture of Experts (MoE) approach to make collective decisions. This design not only reduces the knowledge damage with client-specific aggregations but also removes the dependency on the central server to enhance the robustness of the framework. We validate our framework on multiple medical tasks, demonstrating that our method evidently outperforms state-of-the-art approaches under both model homogeneity and heterogeneity settings.

arxiv情報

著者 Luyuan Xie,Tianyu Luan,Wenyuan Cai,Guochen Yan,Zhaoyu Chen,Nan Xi,Yuejian Fang,Qingni Shen,Zhonghai Wu,Junsong Yuan
発行日 2025-03-14 05:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約

感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピューターの相互作用体験を強化するための重要な技術として機能します。ここでは、コアチャレンジは動的相関モデリングとマルチモーダル時間信号の堅牢な融合にあります。
モーダルの相乗効果、ノイズ感度、限られた微調整されたアライメント機能の不十分な活用における既存の方法の制限に対処するために、このペーパーでは、デュアルステージクロスモーダルアライメントフレームワークを提案します。
まず、改良されたクリップアーキテクチャに基づいてビジョンテキストとオーディオテキストのコントラスト学習ネットワークを構築し、モダリティ分離前トレーニングを通じて機能空間で予備的な調整を実現します。
その後、一時的な畳み込みネットワーク(TCN)とゲートの双方向LSTMを組み合わせた一時的に認識された動的融合モジュールを設計して、それぞれ表情のマクロ進化パターンと音響特徴の局所的なダイナミクスをキャプチャします。
革新的には、輝く重みの割り当てを通じて、閉塞および騒々しいシナリオの下でモダリティ補正を可能にする品質誘導モダリティ融合戦略を導入します。
Hume-Vidmimic2データセットの実験結果は、私たちの方法が6つの感情次元にわたって0.35の平均ピアソン相関係数を達成し、最高のベースラインを40 \%上に上回ることを示しています。
アブレーション研究は、デュアルステージトレーニング戦略と動的融合メカニズムの有効性をさらに検証し、オープン環境で微調整された感情分析のための新しい技術的経路を提供します。

要約(オリジナル)

Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.

arxiv情報

著者 Jun Yu,Lingsi Zhu,Yanjun Chi,Yunxiang Zhang,Yang Zheng,Yongqi Wang,Xilong Lu
発行日 2025-03-14 09:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません

The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation

要約

ミニバッチ最適な輸送カップリングは、無条件のフローマッチングでパスをまっすぐにします。
これにより、テスト時に通常の微分方程式を数値的に解くと、統合ステップが少なくなり、複雑でない数値ソルバーが使用できるため、計算的に要求の少ない推論につながります。
ただし、条件付き設定では、ミニバッチ最適輸送は不足しています。
これは、デフォルトの最適な輸送マッピングが条件を無視し、トレーニング中に条件付きでゆがんだ事前分布をもたらすためです。
対照的に、テスト時には、歪んだ事前に歪んだものにはアクセスできず、代わりに完全な、偏りのない事前分布からサンプリングします。
トレーニングとテストの間のこのギャップは、サブパフォーマンスにつながります。
このギャップを埋めるために、最適な輸送割り当てを計算するときにコストマトリックスに条件付き重み付け項を追加する条件付き最適輸送c^2otを提案します。
実験では、この単純な修正は、8gaussians-to moons、Cifar-10、Imagenet-32×32、およびImagenet-256×256の個別の条件と連続条件の両方で機能することを示しています。
私たちの方法は、異なる関数評価予算にわたる既存のベースラインと比較して、全体的に優れたパフォーマンスを発揮します。
コードはhttps://hkchengrex.github.io/c2otで入手できます

要約(オリジナル)

Minibatch optimal transport coupling straightens paths in unconditional flow matching. This leads to computationally less demanding inference as fewer integration steps and less complex numerical solvers can be employed when numerically solving an ordinary differential equation at test time. However, in the conditional setting, minibatch optimal transport falls short. This is because the default optimal transport mapping disregards conditions, resulting in a conditionally skewed prior distribution during training. In contrast, at test time, we have no access to the skewed prior, and instead sample from the full, unbiased prior distribution. This gap between training and testing leads to a subpar performance. To bridge this gap, we propose conditional optimal transport C^2OT that adds a conditional weighting term in the cost matrix when computing the optimal transport assignment. Experiments demonstrate that this simple fix works with both discrete and continuous conditions in 8gaussians-to-moons, CIFAR-10, ImageNet-32×32, and ImageNet-256×256. Our method performs better overall compared to the existing baselines across different function evaluation budgets. Code is available at https://hkchengrex.github.io/C2OT

arxiv情報

著者 Ho Kei Cheng,Alexander Schwing
発行日 2025-03-14 06:35:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | The Curse of Conditions: Analyzing and Improving Optimal Transport for Conditional Flow-Based Generation はコメントを受け付けていません

Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles

要約

地震などの自然災害に対する迅速な対応は、民事インフラの安全性を確保し、犠牲者を最小限に抑えるための重要な要素です。
従来の手動検査は労働集約的で、時間がかかり、検査官や救助隊員にとって危険な場合があります。
このホワイトペーパーでは、自律的なナビゲーション法、ディープラーニングベースの損傷と生存者検出方法、およびオンボードセンサーを備えたカスタマイズされた低コストのマイクロ航空車両(MAV)を組み込んだ、災害後の建物の屋内シナリオにおける構造的損傷検査と生存者検出のための自律検査アプローチを提案しました。
擬似ポスト災害オフィスビルでの実験的研究では、提案された方法論が構造的損傷検査と生存者の検出において高い精度を達成できることが示されています。
全体として、提案された検査アプローチは、既存の手動で災害後の建物検査の効率を改善する大きな可能性を示しています。

要約(オリジナル)

Rapid response to natural disasters such as earthquakes is a crucial element in ensuring the safety of civil infrastructures and minimizing casualties. Traditional manual inspection is labour-intensive, time-consuming, and can be dangerous for inspectors and rescue workers. This paper proposed an autonomous inspection approach for structural damage inspection and survivor detection in the post-disaster building indoor scenario, which incorporates an autonomous navigation method, deep learning-based damage and survivor detection method, and a customized low-cost micro aerial vehicle (MAV) with onboard sensors. Experimental studies in a pseudo-post-disaster office building have shown the proposed methodology can achieve high accuracy in structural damage inspection and survivor detection. Overall, the proposed inspection approach shows great potential to improve the efficiency of existing manual post-disaster building inspection.

arxiv情報

著者 Xiao Pan,Sina Tavasoli,T. Y. Yang,Sina Poorghasem
発行日 2025-03-13 04:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Post-disaster building indoor damage and survivor detection using autonomous path planning and deep learning with unmanned aerial vehicles はコメントを受け付けていません

LEVA: A high-mobility logistic vehicle with legged suspension

要約

挑戦的な地形に対する材料の自律的な輸送は、大きな経済的影響を伴う挑戦であり、未解決のままです。
このペーパーでは、農業、建設、捜索救助活動に典型的なものを含む、さまざまな地形で自律的な物流のために設計された、高給の高度で高モビリティロボットであるLevaを紹介します。
Levaは、並列運動学を使用して高度な脚のサスペンションシステムをユニークに統合します。
RLコントローラーを使用して階段を通過でき、操縦可能なホイールを備えており、自律的なペイロードの荷重と、不均一な表面全体で最大85 kgの正確で信頼できる貨物輸送を可能にする特殊なボックスピックアップメカニズムが含まれています。
LEVAは、広範な実験的検証を通じて、ペイロードの負荷と輸送に関するオフロードの能力と信頼性を実証します。

要約(オリジナル)

The autonomous transportation of materials over challenging terrain is a challenge with major economic implications and remains unsolved. This paper introduces LEVA, a high-payload, high-mobility robot designed for autonomous logistics across varied terrains, including those typical in agriculture, construction, and search and rescue operations. LEVA uniquely integrates an advanced legged suspension system using parallel kinematics. It is capable of traversing stairs using a rl controller, has steerable wheels, and includes a specialized box pickup mechanism that enables autonomous payload loading as well as precise and reliable cargo transportation of up to 85 kg across uneven surfaces, steps and inclines while maintaining a cot of as low as 0.15. Through extensive experimental validation, LEVA demonstrates its off-road capabilities and reliability regarding payload loading and transport.

arxiv情報

著者 Marco Arnold,Lukas Hildebrandt,Kaspar Janssen,Efe Ongan,Pascal Bürge,Ádám Gyula Gábriel,James Kennedy,Rishi Lolla,Quanisha Oppliger,Micha Schaaf,Joseph Church,Michael Fritsche,Victor Klemm,Turcan Tuna,Giorgio Valsecchi,Cedric Weibel,Marco Hutter
発行日 2025-03-13 04:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LEVA: A high-mobility logistic vehicle with legged suspension はコメントを受け付けていません

V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality

要約

車両からすべての(v2x)コミュニケーションによって可能になった協調的認識は、自律車両の認識能力を高めるために大きな約束を抱いており、閉塞を克服し、視野を拡大することができます。
ただし、既存の研究は主にシミュレートされた環境または静的データセットに依存しており、特に実際のシナリオでは主に未開拓の中間融合のためのV2X協調的認識の実現可能性と有効性を残しています。
この作業では、統一されたパイプライン内に早期、後期、および中級の融合方法を統合し、真の実質条件下でのオンライン中間融合の実現可能性とパフォーマンスの最初の実用的なデモを提供する、実際の車両とスマートインフラストラクチャに展開されたオープンなオンライン協同組合の認識フレームワークであるV2X-Realoを紹介します。
さらに、オンライン協同組合の認識システムのパフォーマンスを評価するために特別に設計されたオープンベンチマークデータセットを提示します。
この新しいデータセットは、V2X-Realデータセットを動的で同期したROSバッグに拡張し、都市のシナリオに挑戦する6,850の注釈付きキーフレームを備えた25,028のテストフレームを提供します。
動的な条件下での知覚精度と通信の遅刻のリアルタイム評価を可能にすることにより、V2X-Realoは、実際のアプリケーションで協同知覚システムを進めて最適化するための新しいベンチマークを設定します。
コードとデータセットはリリースされ、フィールドをさらに進めます。

要約(オリジナル)

Cooperative perception enabled by Vehicle-to-Everything (V2X) communication holds significant promise for enhancing the perception capabilities of autonomous vehicles, allowing them to overcome occlusions and extend their field of view. However, existing research predominantly relies on simulated environments or static datasets, leaving the feasibility and effectiveness of V2X cooperative perception especially for intermediate fusion in real-world scenarios largely unexplored. In this work, we introduce V2X-ReaLO, an open online cooperative perception framework deployed on real vehicles and smart infrastructure that integrates early, late, and intermediate fusion methods within a unified pipeline and provides the first practical demonstration of online intermediate fusion’s feasibility and performance under genuine real-world conditions. Additionally, we present an open benchmark dataset specifically designed to assess the performance of online cooperative perception systems. This new dataset extends V2X-Real dataset to dynamic, synchronized ROS bags and provides 25,028 test frames with 6,850 annotated key frames in challenging urban scenarios. By enabling real-time assessments of perception accuracy and communication lantency under dynamic conditions, V2X-ReaLO sets a new benchmark for advancing and optimizing cooperative perception systems in real-world applications. The codes and datasets will be released to further advance the field.

arxiv情報

著者 Hao Xiang,Zhaoliang Zheng,Xin Xia,Seth Z. Zhao,Letian Gao,Zewei Zhou,Tianhui Cai,Yun Zhang,Jiaqi Ma
発行日 2025-03-13 04:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | V2X-ReaLO: An Open Online Framework and Dataset for Cooperative Perception in Reality はコメントを受け付けていません

SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation

要約

継続的な環境でのビジョンと言語のナビゲーション(VLN)には、制約のない3Dスペースをナビゲートしながら、エージェントが自然言語の指示を解釈する必要があります。
既存のVLN-CEフレームワークは、2段階のアプローチ、次の2段階のアプローチに依存しています。ウェイポイントを生成するウェイポイント予測子と、動きを実行するナビゲーターです。
ただし、現在のウェイポイント予測因子は空間的認識と闘っていますが、ナビゲーターは歴史的な推論とバックトラッキング機能を欠いており、適応性を制限しています。
拡張されたウェイポイント予測子をマルチモーダル大手言語モデル(MLLM)ベースのナビゲーターと統合するゼロショットVLN-CEフレームワークを提案します。
予測因子は、より強力なビジョンエンコーダー、マスクされたクロスアテンション融合、およびウェイポイント品質の向上のために占有認識の損失を採用しています。
ナビゲーターは、バックトラッキングを備えた歴史を意識した推論と適応パス計画を組み込み、堅牢性を向上させます。
R2R-CEおよびMP3Dベンチマークでの実験は、メソッドがゼロショット設定で最先端の(SOTA)パフォーマンスを達成し、完全に監視された方法と比較して競争結果を示していることを示しています。
TurtleBot 4の実際の検証は、その適応性をさらに強調しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) in continuous environments requires agents to interpret natural language instructions while navigating unconstrained 3D spaces. Existing VLN-CE frameworks rely on a two-stage approach: a waypoint predictor to generate waypoints and a navigator to execute movements. However, current waypoint predictors struggle with spatial awareness, while navigators lack historical reasoning and backtracking capabilities, limiting adaptability. We propose a zero-shot VLN-CE framework integrating an enhanced waypoint predictor with a Multi-modal Large Language Model (MLLM)-based navigator. Our predictor employs a stronger vision encoder, masked cross-attention fusion, and an occupancy-aware loss for better waypoint quality. The navigator incorporates history-aware reasoning and adaptive path planning with backtracking, improving robustness. Experiments on R2R-CE and MP3D benchmarks show our method achieves state-of-the-art (SOTA) performance in zero-shot settings, demonstrating competitive results compared to fully supervised methods. Real-world validation on Turtlebot 4 further highlights its adaptability.

arxiv情報

著者 Xiangyu Shi,Zerui Li,Wenqi Lyu,Jiatong Xia,Feras Dayoub,Yanyuan Qiao,Qi Wu
発行日 2025-03-13 05:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation はコメントを受け付けていません

AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI

要約

オープンワールド環境でのナビゲーションと操作は、具体化されたAIにおける未解決の課題のままです。
商用モバイル操作ロボットの高コストは、実際のシーンの研究を大幅に制限しています。
この問題に対処するために、ハードウェアコストがわずか1,000ドル(オプションの計算リソースを除く)の低コストで完全にオープンソースのデュアルアームモバイル操作ロボットシステムであるAharobotを提案します。これは、人気のあるモバイルロボットのコストの1/15未満です。
Aharobotシステムは、3つのコンポーネントで構成されています。(1)主に既製のコンポーネントで構成される新しい低コストのハードウェアアーキテクチャ、(2)デュアルモーターバックラッシュコントロールと静的摩擦補償を統合する動作精度を強化する最適化された制御ソリューション、および(3)単純なリモートテレオペレーション方法Lobopilot。
ハンドルを使用して、全身の動きのためにデュアルアームとペダルを制御します。
遠隔操作プロセスは、パイロットと同じように、低燃焼で操作が容易です。
RoboPilotは、具体化されたシナリオでリモートデータ収集用に設計されています。
実験結果は、ロボピロットが複雑な操作タスクのデータ収集効率を大幅に向上させ、3Dマウスおよびリーダーフォロワーシステムを使用した方法と比較して30%の増加を達成することを示しています。
また、一度に非常に長期のタスクを完了することに優れています。
さらに、アハロボットを使用してエンドツーエンドのポリシーを学習し、ペン挿入や床のクリーンアップなどの複雑な操作タスクを自律的に実行できます。
私たちは、実際のデバイスで具体化されたタスクの開発を促進し、より堅牢で信頼できる具体化されたAIを進めるための手頃な価格で強力なプラットフォームを構築することを目指しています。
すべてのハードウェアおよびソフトウェアシステムは、https://aha-robot.github.ioで入手できます。

要約(オリジナル)

Navigation and manipulation in open-world environments remain unsolved challenges in the Embodied AI. The high cost of commercial mobile manipulation robots significantly limits research in real-world scenes. To address this issue, we propose AhaRobot, a low-cost and fully open-source dual-arm mobile manipulation robot system with a hardware cost of only $1,000 (excluding optional computational resources), which is less than 1/15 of the cost of popular mobile robots. The AhaRobot system consists of three components: (1) a novel low-cost hardware architecture primarily composed of off-the-shelf components, (2) an optimized control solution to enhance operational precision integrating dual-motor backlash control and static friction compensation, and (3) a simple remote teleoperation method RoboPilot. We use handles to control the dual arms and pedals for whole-body movement. The teleoperation process is low-burden and easy to operate, much like piloting. RoboPilot is designed for remote data collection in embodied scenarios. Experimental results demonstrate that RoboPilot significantly enhances data collection efficiency in complex manipulation tasks, achieving a 30% increase compared to methods using 3D mouse and leader-follower systems. It also excels at completing extremely long-horizon tasks in one go. Furthermore, AhaRobot can be used to learn end-to-end policies and autonomously perform complex manipulation tasks, such as pen insertion and cleaning up the floor. We aim to build an affordable yet powerful platform to promote the development of embodied tasks on real devices, advancing more robust and reliable embodied AI. All hardware and software systems are available at https://aha-robot.github.io.

arxiv情報

著者 Haiqin Cui,Yifu Yuan,Yan Zheng,Jianye Hao
発行日 2025-03-13 05:34:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI はコメントを受け付けていません

LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner

要約

言語モデル(LMS)は、自然言語を理解するための強力な能力を備えており、人間の指示を単純なロボットタスクの詳細な計画に変換するのに効果的です。
それにもかかわらず、特に協同組合の異種ロボットチームのサブタスクの識別と割り当てにおいて、長老様式のタスクを処理することは重要な課題です。
この問題に対処するために、言語モデル駆動型のマルチエージェントPDDLプランナー(LAMMA-P)を提案します。これは、長距離タスクで最先端のパフォーマンスを達成する新しいマルチエージェントタスク計画フレームワークです。
LAMMA-Pは、LMSの推論能力と従来のヒューリスティック検索プランナーの強みを統合して、タスク全体で強力な一般化を実証しながら、高い成功率と効率を達成します。
さらに、AI2-THOR環境に基づいて2つの異なるレベルの複雑さを持つ家庭用タスクを備えた包括的なベンチマークであるMat-Thorを作成します。
実験結果は、LAMMA-Pが既存のLMベースのマルチエージェントプランナーよりも105%高い成功率と36%高い効率を達成することを示しています。
各モジュールで使用される実験ビデオ、コード、データセット、および詳細なプロンプトは、プロジェクトWebサイトhttps://lamma-p.github.ioで見つけることができます。

要約(オリジナル)

Language models (LMs) possess a strong capability to comprehend natural language, making them effective in translating human instructions into detailed plans for simple robot tasks. Nevertheless, it remains a significant challenge to handle long-horizon tasks, especially in subtask identification and allocation for cooperative heterogeneous robot teams. To address this issue, we propose a Language Model-Driven Multi-Agent PDDL Planner (LaMMA-P), a novel multi-agent task planning framework that achieves state-of-the-art performance on long-horizon tasks. LaMMA-P integrates the strengths of the LMs’ reasoning capability and the traditional heuristic search planner to achieve a high success rate and efficiency while demonstrating strong generalization across tasks. Additionally, we create MAT-THOR, a comprehensive benchmark that features household tasks with two different levels of complexity based on the AI2-THOR environment. The experimental results demonstrate that LaMMA-P achieves a 105% higher success rate and 36% higher efficiency than existing LM-based multiagent planners. The experimental videos, code, datasets, and detailed prompts used in each module can be found on the project website: https://lamma-p.github.io.

arxiv情報

著者 Xiaopan Zhang,Hao Qin,Fuquan Wang,Yue Dong,Jiachen Li
発行日 2025-03-13 06:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MA, cs.RO | LaMMA-P: Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner はコメントを受け付けていません

ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation

要約

現実的な手操作は、没入型仮想現実(VR)の重要なコンポーネントですが、既存の方法は、接触力や指のトルクなどの重要な物理的属性を省略する運動学的アプローチまたはモーションキャプチャデータセットに依存することがよくあります。
その結果、これらのアプローチは、ユーザーの意図した力レベルを反映するのではなく、タイトでワンサイズに適合するグリップを優先します。
私たちは、ユーザーのグリップ力の意図を忠実に反映して、現実的な手操作の動きを統合する深い学習エージェントであるForceGripを提示します。
事前定義されたモーションデータセットを模倣する代わりに、ForceGripは、生成されたトレーニングシナリオを使用して、オブジェクトの形状、手首の動き、および入力フローをトリガーして、幅広い物理的相互作用でエージェントに挑戦します。
これらの複雑なタスクから効果的に学ぶために、指の位置付け、意図適応、および動的安定化を含む3フェーズカリキュラム学習フレームワークを採用しています。
このプログレッシブ戦略により、安定した手観オブジェクトの接触、ユーザー入力に基づいた適応力制御、動的条件下での堅牢な処理が保証されます。
さらに、近接報酬関数は自然な指の動きを強化し、トレーニングの収束を加速します。
定量的および定性的評価により、最先端の方法と比較して、forcegripの優れた力の制御性と妥当性が明らかになります。
私たちの論文のビデオプレゼンテーションには、https://youtu.be/lr-yafninjwにアクセスできます。

要約(オリジナル)

Realistic hand manipulation is a key component of immersive virtual reality (VR), yet existing methods often rely on a kinematic approach or motion-capture datasets that omit crucial physical attributes such as contact forces and finger torques. Consequently, these approaches prioritize tight, one-size-fits-all grips rather than reflecting users’ intended force levels. We present ForceGrip, a deep learning agent that synthesizes realistic hand manipulation motions, faithfully reflecting the user’s grip force intention. Instead of mimicking predefined motion datasets, ForceGrip uses generated training scenarios-randomizing object shapes, wrist movements, and trigger input flows-to challenge the agent with a broad spectrum of physical interactions. To effectively learn from these complex tasks, we employ a three-phase curriculum learning framework comprising Finger Positioning, Intention Adaptation, and Dynamic Stabilization. This progressive strategy ensures stable hand-object contact, adaptive force control based on user inputs, and robust handling under dynamic conditions. Additionally, a proximity reward function enhances natural finger motions and accelerates training convergence. Quantitative and qualitative evaluations reveal ForceGrip’s superior force controllability and plausibility compared to state-of-the-art methods. The video presentation of our paper is accessible at https://youtu.be/lR-YAfninJw.

arxiv情報

著者 DongHeun Han,Byungmin Kim,RoUn Lee,KyeongMin Kim,Hyoseok Hwang,HyeongYeop Kang
発行日 2025-03-13 06:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.HC, cs.LG, cs.RO | ForceGrip: Data-Free Curriculum Learning for Realistic Grip Force Control in VR Hand Manipulation はコメントを受け付けていません