Survey on Vision-Language-Action Models

要約

このペーパーでは、Vision-Language-action(VLA)モデルのAIが生成したレビューを紹介し、重要な方法論、調査結果、および将来の方向性を要約しています。
コンテンツは、大規模な言語モデル(LLMS)を使用して生成され、デモンストレーション目的のみを目的としています。
この作業は、元の研究を表しているわけではありませんが、AIが文献レビューの自動化にどのように役立つかを強調しています。
AIに生成されたコンテンツがより一般的になるにつれて、精度、信頼性、適切な合成を確保することは依然として課題です。
将来の研究では、AI支援文献レビューの構造化されたフレームワークの開発、引用の正確性、ソースの信頼性、および文脈的理解を高めるための技術の探索に焦点を当てます。
アカデミックライティングにおけるLLMの潜在的と制限を調べることにより、この研究は、AIを研究ワークフローに統合するというより広範な議論に貢献することを目的としています。
この作業は、文献レビュー生成においてAIを活用し、学術知識の統合をより効率的かつスケーラブルにするための体系的なアプローチを確立するための予備的なステップとして機能します。

要約(オリジナル)

This paper presents an AI-generated review of Vision-Language-Action (VLA) models, summarizing key methodologies, findings, and future directions. The content is produced using large language models (LLMs) and is intended only for demonstration purposes. This work does not represent original research, but highlights how AI can help automate literature reviews. As AI-generated content becomes more prevalent, ensuring accuracy, reliability, and proper synthesis remains a challenge. Future research will focus on developing a structured framework for AI-assisted literature reviews, exploring techniques to enhance citation accuracy, source credibility, and contextual understanding. By examining the potential and limitations of LLM in academic writing, this study aims to contribute to the broader discussion of integrating AI into research workflows. This work serves as a preliminary step toward establishing systematic approaches for leveraging AI in literature review generation, making academic knowledge synthesis more efficient and scalable.

arxiv情報

著者 Adilzhan Adilkhanov,Amir Yelenov,Assylkhan Seitzhanov,Ayan Mazhitov,Azamat Abdikarimov,Danissa Sandykbayeva,Daryn Kenzhebek,Dinmukhammed Mukashev,Ilyas Umurbekov,Jabrail Chumakov,Kamila Spanova,Karina Burunchina,Madina Yergibay,Margulan Issa,Moldir Zabirova,Nurdaulet Zhuzbay,Nurlan Kabdyshev,Nurlan Zhaniyar,Rasul Yermagambet,Rustam Chibar,Saltanat Seitzhan,Soibkhon Khajikhanov,Tasbolat Taunyazov,Temirlan Galimzhanov,Temirlan Kaiyrbay,Tleukhan Mussin,Togzhan Syrymova,Valeriya Kostyukova,Yerkebulan Massalim,Yermakhan Kassym,Zerde Nurbayeva,Zhanat Kappassov
発行日 2025-06-02 14:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Survey on Vision-Language-Action Models はコメントを受け付けていません

I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue

要約

対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情報を伝え、オブジェクトへの参照を解決します。
ただし、代表的な共和状態のジェスチャーがオブジェクトをどのように参照するかは、計算の観点からは理解されたままです。
この作業では、表現ジェスチャーを中心としたマルチモーダル参照解像度タスクを導入すると同時に、堅牢なジェスチャーの埋め込みを学習するという課題に取り組むことにより、このギャップに対処します。
私たちは、話された言語で身体の動きを根拠とするジェスチャー表現学習に対する自己監督の事前訓練アプローチを提案します。
私たちの実験は、学習した埋め込みが専門家の注釈と整合し、有意な予測力を持っていることを示しています。
さらに、参照解像度の精度は、(1)推論時に音声が利用できない場合でも、マルチモーダルジェスチャー表現を使用し、(2)対話履歴を活用するとさらに改善されます。
全体として、私たちの調査結果は、参照解決におけるジェスチャーとスピーチの補完的な役割を強調し、ヒューマンマシン相互作用のより自然主義的なモデルへの一歩を提供します。

要約(オリジナル)

In face-to-face interaction, we use multiple modalities, including speech and gestures, to communicate information and resolve references to objects. However, how representational co-speech gestures refer to objects remains understudied from a computational perspective. In this work, we address this gap by introducing a multimodal reference resolution task centred on representational gestures, while simultaneously tackling the challenge of learning robust gesture embeddings. We propose a self-supervised pre-training approach to gesture representation learning that grounds body movements in spoken language. Our experiments show that the learned embeddings align with expert annotations and have significant predictive power. Moreover, reference resolution accuracy further improves when (1) using multimodal gesture representations, even when speech is unavailable at inference time, and (2) leveraging dialogue history. Overall, our findings highlight the complementary roles of gesture and speech in reference resolution, offering a step towards more naturalistic models of human-machine interaction.

arxiv情報

著者 Esam Ghaleb,Bulat Khaertdinov,Aslı Özyürek,Raquel Fernández
発行日 2025-06-02 14:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM | I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue はコメントを受け付けていません

Guiding Generative Storytelling with Knowledge Graphs

要約

大規模な言語モデル(LLM)は、自動化されたストーリー生成に大きな可能性を示していますが、長い形式の一貫性を維持し、ユーザーに直感的で効果的な制御を提供することに課題が残っています。
検索された生成(RAG)は、テキスト生成の幻覚を減らすのに効果的であることが証明されています。
ただし、生成的なストーリーテリングをサポートするために構造化されたデータを使用することは、未定のままです。
このホワイトペーパーでは、ナレーションの品質を向上させ、ユーザー駆動型の変更を可能にすることにより、知識グラフ(KG)がLLMベースのストーリーテリングをどのように強化できるかを調査します。
KG支援のストーリーテリングパイプラインを提案し、15人の参加者を含むユーザー調査を通じてその有効性を評価します。
参加者は、物語を形作るために独自のストーリープロンプト、生成されたストーリー、編集された知識グラフを作成しました。
定量的および定性的分析を通じて、我々の調査結果は、知識グラフがシステム設定内のアクション指向および構造化された物語のストーリー品質を大幅に向上させることを示しています。
さらに、ナレッジグラフを編集すると、ユーザーの制御感が向上し、ストーリーテリングがより魅力的でインタラクティブで遊び心があります。

要約(オリジナル)

Large Language Models (LLMs) have shown great potential in automated story generation, but challenges remain in maintaining long-form coherence and providing users with intuitive and effective control. Retrieval-Augmented Generation (RAG) has proven effective in reducing hallucinations in text generation; however, the use of structured data to support generative storytelling remains underexplored. This paper investigates how knowledge graphs (KGs) can enhance LLM-based storytelling by improving narrative quality and enabling user-driven modifications. We propose a KG-assisted storytelling pipeline and evaluate its effectiveness through a user study with 15 participants. Participants created their own story prompts, generated stories, and edited knowledge graphs to shape their narratives. Through quantitative and qualitative analysis, our findings demonstrate that knowledge graphs significantly enhance story quality in action-oriented and structured narratives within our system settings. Additionally, editing the knowledge graph increases users’ sense of control, making storytelling more engaging, interactive, and playful.

arxiv情報

著者 Zhijun Pan,Antonios Andronis,Eva Hayek,Oscar AP Wilkinson,Ilya Lasy,Annette Parry,Guy Gadney,Tim J. Smith,Mick Grierson
発行日 2025-06-02 17:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Guiding Generative Storytelling with Knowledge Graphs はコメントを受け付けていません

How much do language models memorize?

要約

データポイントについてモデルがどれだけ「知っている」かを推定するための新しい方法を提案し、それを使用して現代のモデルの能力を測定します。
言語モデルの暗記に関する以前の研究は、一般化から暗記を解くのに苦労してきました。
記憶を正式に2つのコンポーネントに分けます:\ textit {意図しない暗記}、モデルに特定のデータセットに関する情報、\ textit {generalization}、モデルが真のデータ生成プロセスに関する情報を含む情報。
一般化を完全に排除すると、モデル容量の推定値を提供する完全な暗記を計算できます。測定では、GPTスタイルモデルのパラメーターあたり約3.6ビットの容量があると推定します。
サイズの増加のデータセットで言語モデルを訓練し、容量が満たされるまでモデルが記憶されることを観察します。
50万ドルから15億ドルのパラメーターから15億ドルのパラメーターまでの数百のトランス語モデルをトレーニングし、モデルの容量とデータサイズをメンバーシップ推論に関連付ける一連のスケーリング法則を作成します。

要約(オリジナル)

We propose a new method for estimating how much a model “knows” about a datapoint and use it to measure the capacity of modern language models. Prior studies of language model memorization have struggled to disentangle memorization from generalization. We formally separate memorization into two components: \textit{unintended memorization}, the information a model contains about a specific dataset, and \textit{generalization}, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter. We train language models on datasets of increasing size and observe that models memorize until their capacity fills, at which point “grokking” begins, and unintended memorization decreases as models begin to generalize. We train hundreds of transformer language models ranging from $500K$ to $1.5B$ parameters and produce a series of scaling laws relating model capacity and data size to membership inference.

arxiv情報

著者 John X. Morris,Chawin Sitawarin,Chuan Guo,Narine Kokhlikyan,G. Edward Suh,Alexander M. Rush,Kamalika Chaudhuri,Saeed Mahloujifar
発行日 2025-06-02 14:13:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How much do language models memorize? はコメントを受け付けていません

Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images

要約

スーパー解像度の目的は、高周波の詳細を再構築することにより、衛星画像の解像度を増やすことを目的としています。
これは、Sentinel-2のような地球観測ミッションに特に関連性があり、頻繁に定期的に補償されています。
しかし、粗い解像度で。
そのピクセルのフットプリントは、家、通り、生垣などの小さな機能をキャプチャするには大きすぎます。
これに対処するために、シングルイメージとマルチイメージ技術の利点を組み合わせたハイブリッドスーパー解像度アーキテクチャであるSen4Xを提示します。
繰り返しのセンチネル-2の獲得からの時間的オーバーサンプリングと、高解像度のpl \ ‘eiades Neoデータから学習した以前のデータを組み合わせています。
そうすることで、Sen4xはSentinel-2画像を2.5 mの地上サンプリング距離にアップグレードします。
ベトナムのハノイにある都市の土地被覆分類に関する超解凍画像をテストします。
それらは、最先端の超解像度のベースラインよりも大幅なパフォーマンス改善につながることがわかりました。

要約(オリジナル)

Super-resolution aims to increase the resolution of satellite images by reconstructing high-frequency details, which go beyond na\’ive upsampling. This has particular relevance for Earth observation missions like Sentinel-2, which offer frequent, regular coverage at no cost; but at coarse resolution. Its pixel footprint is too large to capture small features like houses, streets, or hedge rows. To address this, we present SEN4X, a hybrid super-resolution architecture that combines the advantages of single-image and multi-image techniques. It combines temporal oversampling from repeated Sentinel-2 acquisitions with a learned prior from high-resolution Pl\’eiades Neo data. In doing so, SEN4X upgrades Sentinel-2 imagery to 2.5 m ground sampling distance. We test the super-resolved images on urban land-cover classification in Hanoi, Vietnam. We find that they lead to a significant performance improvement over state-of-the-art super-resolution baselines.

arxiv情報

著者 Aditya Retnanto,Son Le,Sebastian Mueller,Armin Leitner,Michael Riffler,Konrad Schindler,Yohan Iddawela
発行日 2025-06-02 15:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Beyond Pretty Pictures: Combined Single- and Multi-Image Super-resolution for Sentinel-2 Images はコメントを受け付けていません

Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs

要約

大規模な言語モデルは、微調整を通じてタスク固有のアプリケーションで顕著な能力を示していますが、さまざまな言語全体にこれらの利点を拡大することが幅広いアクセシビリティに不可欠です。
ただし、言語間のLLMパフォーマンスのギャップと、多くの言語での微調整データの希少性によって、効果的な横断転送が妨げられています。
1,000以上の言語ペアからのLLM内部表現の分析を通じて、中間層が横断的なアライメントの最も強力な可能性を示すことがわかります。
この発見に基づいて、タスク固有のトレーニングに統合された中間層アライメント目標を提案します。
スロットの充填、機械翻訳、および構造化されたテキスト生成に関する実験は、特にリソース言語の低い言語に対する一貫した改善を示しています。
この方法は、アライメント言語の選択に堅牢であり、アラインメント中に目にされていない言語に一般化します。
さらに、個別にトレーニングされたアライメントモジュールを既存のタスク固有のモジュールと統合して、完全な再トレーニングなしで横断的機能を改善できることを示します。
私たちのコードは公開されています(https://github.com/dannigt/mid-align)。

要約(オリジナル)

While large language models demonstrate remarkable capabilities at task-specific applications through fine-tuning, extending these benefits across diverse languages is essential for broad accessibility. However, effective cross-lingual transfer is hindered by LLM performance gaps across languages and the scarcity of fine-tuning data in many languages. Through analysis of LLM internal representations from over 1,000+ language pairs, we discover that middle layers exhibit the strongest potential for cross-lingual alignment. Building on this finding, we propose a middle-layer alignment objective integrated into task-specific training. Our experiments on slot filling, machine translation, and structured text generation show consistent improvements in cross-lingual transfer, especially to lower-resource languages. The method is robust to the choice of alignment languages and generalizes to languages unseen during alignment. Furthermore, we show that separately trained alignment modules can be merged with existing task-specific modules, improving cross-lingual capabilities without full re-training. Our code is publicly available (https://github.com/dannigt/mid-align).

arxiv情報

著者 Danni Liu,Jan Niehues
発行日 2025-06-02 09:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs はコメントを受け付けていません

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

要約

強化学習(RL)はロボット工学の大きな進歩を遂げていますが、その複雑さと長いトレーニング時間は大きなボトルネックのままです。
このレポートでは、ヒューマノイドベンチ、イサクラブ、ムジョコプレイグラウンドなどの人気スイートでヒューマノイドロボットのトレーニングを大幅に高速化するシンプルで高速で有能なRLアルゴリズムであるFASTTD3を導入します。
私たちのレシピは非常に簡単です。並列シミュレーション、大型バッチアップデート、流通批評家、慎重に調整されたハイパーパラメーターなど、いくつかの変更を加えたオフポリシーTD3エージェントをトレーニングします。
FASTTD3は、トレーニング中は安定したままで、1つのA100 GPUで3時間以内にヒューマノイドベンチの範囲を3時間以内に解決します。
また、FASTTD3の軽量で使いやすい実装を提供して、ロボット工学のRL研究を加速します。

要約(オリジナル)

Reinforcement learning (RL) has driven significant progress in robotics, but its complexity and long training times remain major bottlenecks. In this report, we introduce FastTD3, a simple, fast, and capable RL algorithm that significantly speeds up training for humanoid robots in popular suites such as HumanoidBench, IsaacLab, and MuJoCo Playground. Our recipe is remarkably simple: we train an off-policy TD3 agent with several modifications — parallel simulation, large-batch updates, a distributional critic, and carefully tuned hyperparameters. FastTD3 solves a range of HumanoidBench tasks in under 3 hours on a single A100 GPU, while remaining stable during training. We also provide a lightweight and easy-to-use implementation of FastTD3 to accelerate RL research in robotics.

arxiv情報

著者 Younggyo Seo,Carmelo Sferrazza,Haoran Geng,Michal Nauman,Zhao-Heng Yin,Pieter Abbeel
発行日 2025-06-01 22:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control はコメントを受け付けていません

EXP-Bench: Can AI Conduct AI Research Experiments?

要約

AIの研究を自動化することは、科学的進歩を加速するための計り知れない可能性を秘めていますが、現在のAIエージェントは、厳密でエンドツーエンドの実験の複雑さと闘っています。
影響力のあるAI出版物から調達された完全な研究実験でAIエージェントを体系的に評価するように設計された新しいベンチマークであるExp-Benchを紹介します。
研究の質問と不完全なスターターコードを考慮して、Exp-benchはAIエージェントに課題であり、仮説を策定し、実験手順を設計および実装し、それらを実行し、結果を分析します。
このような忠実度を持つこのような複雑で本物のタスクの作成を可能にするために、これらの研究論文とそれに関連するオープンソースコードから重要な実験的詳細を抽出および構築するために、半自律パイプラインを設計します。
パイプラインにより、Exp-benchは51の最高層AI研究論文から461 AI研究タスクをキュレーションしました。
Exp-benchでのOpenHandsやIterativeagentなどの主要なLLMベースのエージェントの評価は部分的な能力を示しています。設計や実装の正しさなどの個々の実験的側面のスコアは20〜35%に達しますが、完全な実行可能な実験の成功率はわずか0.5%でした。
これらのボトルネックを特定し、現実的な段階的な実験手順を提供することにより、Exp-benchは、将来のAIエージェントがAI研究実験を実施する能力を向上させるための重要なツールとして機能します。
exp-benchはhttps://github.com/just-curious/curie/tree/main/benchmark/exp_benchでオープンソーシングされています。

要約(オリジナル)

Automating AI research holds immense potential for accelerating scientific progress, yet current AI agents struggle with the complexities of rigorous, end-to-end experimentation. We introduce EXP-Bench, a novel benchmark designed to systematically evaluate AI agents on complete research experiments sourced from influential AI publications. Given a research question and incomplete starter code, EXP-Bench challenges AI agents to formulate hypotheses, design and implement experimental procedures, execute them, and analyze results. To enable the creation of such intricate and authentic tasks with high-fidelity, we design a semi-autonomous pipeline to extract and structure crucial experimental details from these research papers and their associated open-source code. With the pipeline, EXP-Bench curated 461 AI research tasks from 51 top-tier AI research papers. Evaluations of leading LLM-based agents, such as OpenHands and IterativeAgent on EXP-Bench demonstrate partial capabilities: while scores on individual experimental aspects such as design or implementation correctness occasionally reach 20-35%, the success rate for complete, executable experiments was a mere 0.5%. By identifying these bottlenecks and providing realistic step-by-step experiment procedures, EXP-Bench serves as a vital tool for future AI agents to improve their ability to conduct AI research experiments. EXP-Bench is open-sourced at https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.

arxiv情報

著者 Patrick Tser Jern Kon,Jiachen Liu,Xinyi Zhu,Qiuyi Ding,Jingjia Peng,Jiarong Xing,Yibo Huang,Yiming Qiu,Jayanth Srinivasa,Myungjin Lee,Mosharaf Chowdhury,Matei Zaharia,Ang Chen
発行日 2025-06-02 01:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | EXP-Bench: Can AI Conduct AI Research Experiments? はコメントを受け付けていません

Dexterous Control of an 11-DOF Redundant Robot for CT-Guided Needle Insertion With Task-Oriented Weighted Policies

要約

コンピューター断層撮影(CT)誘導針生検は、肺がんを含むさまざまな状態を診断するために重要ですが、限られた内部空間、長期の手順、放射線曝露などの課題を呈します。
ロボット支援は、針の軌道精度を改善し、放射線被曝を減らし、リアルタイム調整を可能にすることにより、有望なソリューションを提供します。
以前の作業では、制限付きCTボア内に柔軟な針挿入用に設計された冗長なロボットプラットフォームを導入しました。
ただし、ベースモビリティが限られているため、臨床環境での柔軟な展開が制限されます。
この研究では、6-DOFロボットベースを5ドーフ駆動型のエンドエフェクターと統合し、ワークスペースの柔軟性と精度を大幅に向上させる改善された11度(Freedom(DOF)ロボットシステムを提示します。
自由度の多い自由度により、大規模な動きと微細な骨内調整のための2段階の優先度スキームを備えた加重逆運動コントローラーと、器用さを最適化するためのヌル空間制御戦略を導入します。
シミュレーションと現実世界の両方の実験を通じてシステムを検証し、CT誘導手順の優れた追跡精度と操作性の向上を実証します。
この研究は、ロボット支援の針生検シナリオのための過剰な冗長性とヌル空間制御の定式化の強力なケースを提供します。

要約(オリジナル)

Computed tomography (CT)-guided needle biopsies are critical for diagnosing a range of conditions, including lung cancer, but present challenges such as limited in-bore space, prolonged procedure times, and radiation exposure. Robotic assistance offers a promising solution by improving needle trajectory accuracy, reducing radiation exposure, and enabling real-time adjustments. In our previous work, we introduced a redundant robotic platform designed for dexterous needle insertion within the confined CT bore. However, its limited base mobility restricts flexible deployment in clinical settings. In this study, we present an improved 11-degree-of-freedom (DOF) robotic system that integrates a 6-DOF robotic base with a 5-DOF cable-driven end-effector, significantly enhancing workspace flexibility and precision. With the hyper-redundant degrees of freedom, we introduce a weighted inverse kinematics controller with a two-stage priority scheme for large-scale movement and fine in-bore adjustments, along with a null-space control strategy to optimize dexterity. We validate our system through both simulation and real-world experiments, demonstrating superior tracking accuracy and enhanced manipulability in CT-guided procedures. The study provides a strong case for hyper-redundancy and null-space control formulations for robot-assisted needle biopsy scenarios.

arxiv情報

著者 Peihan Zhang,Florian Richter,Ishan Duriseti,Albert Hsiao,Sean Tutton,Alexander Norbash,Michael Yip
発行日 2025-05-29 18:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Dexterous Control of an 11-DOF Redundant Robot for CT-Guided Needle Insertion With Task-Oriented Weighted Policies はコメントを受け付けていません

Large-Scale Multi-Robot Coverage Path Planning on Grids with Path Deconfliction

要約

4-neighbor 2DグリッドGでマルチロボットカバレッジパス計画(MCPP)を研究します。これは、Gのすべてのセルをカバーするための複数のロボットのパスを計算することを目的としています。従来のアプローチは、象限の粗いグリッドで最初にカバレッジツリーを計算し、次にスパニングツリーカバレッジ(STC)パラダイムを採用してGradiableを使用してパスを生成します。
ブロック。
この制限に対処するために、Gの問題を直接再定式化し、グリッドベースのMCPP解決に革命をもたらし、新しいNP-Hardnessの結果を確立します。
Hが部分的に妨害されたブロックを含む場合でも、STCを拡張するためにSTCを拡張して境界のあるサブプチマリティで完全なカバレッジを確保する新しいパラダイムである拡張STC(ESTC)を導入します。
さらに、ESTCをローカル検索戦略内に3つの新しいタイプの近隣オペレーターと統合する新しいアルゴリズムフレームワークであるLS-MCPPをGで直接カバレッジパスを最適化する新しいアルゴリズムフレームワークを提示します。
マルチロボット調整。
この手順は、MAPFバリアントを解決することにより、ロボット間の競合を効果的に解決し、回転コストに対応し、MCPPソリューションを実際のアプリケーションでより実用的にします。
広範な実験は、私たちのアプローチがソリューションの品質と効率を大幅に改善し、ランタイムから数分以内に256×256のグリッド上で最大100個のロボットを管理することを示しています。
物理ロボットによる検証は、実際の条件下でのソリューションの実現可能性を確認します。

要約(オリジナル)

We study Multi-Robot Coverage Path Planning (MCPP) on a 4-neighbor 2D grid G, which aims to compute paths for multiple robots to cover all cells of G. Traditional approaches are limited as they first compute coverage trees on a quadrant coarsened grid H and then employ the Spanning Tree Coverage (STC) paradigm to generate paths on G, making them inapplicable to grids with partially obstructed 2×2 blocks. To address this limitation, we reformulate the problem directly on G, revolutionizing grid-based MCPP solving and establishing new NP-hardness results. We introduce Extended-STC (ESTC), a novel paradigm that extends STC to ensure complete coverage with bounded suboptimality, even when H includes partially obstructed blocks. Furthermore, we present LS-MCPP, a new algorithmic framework that integrates ESTC with three novel types of neighborhood operators within a local search strategy to optimize coverage paths directly on G. Unlike prior grid-based MCPP work, our approach also incorporates a versatile post-processing procedure that applies Multi-Agent Path Finding (MAPF) techniques to MCPP for the first time, enabling a fusion of these two important fields in multi-robot coordination. This procedure effectively resolves inter-robot conflicts and accommodates turning costs by solving a MAPF variant, making our MCPP solutions more practical for real-world applications. Extensive experiments demonstrate that our approach significantly improves solution quality and efficiency, managing up to 100 robots on grids as large as 256×256 within minutes of runtime. Validation with physical robots confirms the feasibility of our solutions under real-world conditions.

arxiv情報

著者 Jingtao Tang,Zining Mao,Hang Ma
発行日 2025-05-29 19:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Large-Scale Multi-Robot Coverage Path Planning on Grids with Path Deconfliction はコメントを受け付けていません