opXRD: Open Experimental Powder X-ray Diffraction Database

要約

粉末X線回折(PXRD)実験は、材料構造の特性評価の基礎です。
それらの広範なアプリケーションにもかかわらず、PXRDの回折グラムの分析は、自動運転ラボでのハイスループット発見における自動化とボトルネックに依然として大きな課題を提示しています。
機械学習は、自動化された粉末回折分析を可能にすることにより、このボトルネックを解決することを約束します。
このドメインに機械学習を適用する際の顕著な困難は、十分にサイズの実験データセットがないことです。これにより、研究者は主にシミュレートされたデータをトレーニングすることが制約されています。
ただし、シミュレートされたPXRDパターンでトレーニングされたモデルは、特に高いノイズレベルと背景の上昇を伴う低品質の実験パターンについて、実験パターンへの一般化が限られていることを示しました。
Open Experimental Powder X-Ray回折データベース(OPXRD)を使用すると、ラベル付きおよび非標識実験粉末回折のオープンに利用可能で簡単にアクセス可能なデータセットを提供します。
ラベル付きOPXRDデータを使用して、実験データ上のモデルのパフォーマンスを評価できます。
転送学習方法を通じて。
幅広い材料クラスから、2179のラベルが付けられた92552の回折グラムを収集しました。
この継続的な取り組みが、PXRDデータの完全に自動化された分析に向けて機械学習研究を導き、将来の自動運転材料ラボを可能にすることを願っています。

要約(オリジナル)

Powder X-ray diffraction (pXRD) experiments are a cornerstone for materials structure characterization. Despite their widespread application, analyzing pXRD diffractograms still presents a significant challenge to automation and a bottleneck in high-throughput discovery in self-driving labs. Machine learning promises to resolve this bottleneck by enabling automated powder diffraction analysis. A notable difficulty in applying machine learning to this domain is the lack of sufficiently sized experimental datasets, which has constrained researchers to train primarily on simulated data. However, models trained on simulated pXRD patterns showed limited generalization to experimental patterns, particularly for low-quality experimental patterns with high noise levels and elevated backgrounds. With the Open Experimental Powder X-Ray Diffraction Database (opXRD), we provide an openly available and easily accessible dataset of labeled and unlabeled experimental powder diffractograms. Labeled opXRD data can be used to evaluate the performance of models on experimental data and unlabeled opXRD data can help improve the performance of models on experimental data, e.g. through transfer learning methods. We collected 92552 diffractograms, 2179 of them labeled, from a wide spectrum of materials classes. We hope this ongoing effort can guide machine learning research toward fully automated analysis of pXRD data and thus enable future self-driving materials labs.

arxiv情報

著者 Daniel Hollarek,Henrik Schopmans,Jona Östreicher,Jonas Teufel,Bin Cao,Adie Alwen,Simon Schweidler,Mriganka Singh,Tim Kodalle,Hanlin Hu,Gregoire Heymans,Maged Abdelsamie,Arthur Hardiagon,Alexander Wieczorek,Siarhei Zhuk,Ruth Schwaiger,Sebastian Siol,François-Xavier Coudert,Moritz Wolf,Carolin M. Sutter-Fella,Ben Breitung,Andrea M. Hodge,Tong-yi Zhang,Pascal Friederich
発行日 2025-03-10 07:35:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG | opXRD: Open Experimental Powder X-ray Diffraction Database はコメントを受け付けていません

Strategy Coopetition Explains the Emergence and Transience of In-Context Learning

要約

コンテキスト内学習(ICL)は、変圧器モデルに現れる強力な能力であり、重量の更新なしでコンテキストから学習できるようにします。
最近の研究により、緊急のICLは一時的な現象として確立されており、長いトレーニング時間の後に時々消える可能性があります。
この作業では、これらの一時的なダイナミクスの機械的理解を求めました。
第一に、ICLの消失後、漸近戦略は重量とコンテキスト内学習の間の顕著なハイブリッドであり、「コンテキストに制約のない重量学習」(CIWL)と呼ばれることがわかります。
CIWLはICLと競合しており、最終的にはモデルの支配的な戦略として置き換えられます(したがって、ICLのトランシエンスにつながります)。
ただし、2つの競合する戦略は実際にサブサーキットを共有しており、これにより協力的なダイナミクスも生じます。
たとえば、セットアップでは、ICLはそれ自体で迅速に出現することができず、漸近CIWLの同時ゆっくりした発達によってのみ有効にすることができます。
したがって、CIWLは、「戦略の共同協力」と呼ばれる現象であるICLと協力し、競合しています。
これらの重要なダイナミクスと相互作用を再現する最小限の数学モデルを提案します。
このモデルから通知を受けて、ICLが本当に出現し、永続的であるセットアップを特定することができました。

要約(オリジナル)

In-context learning (ICL) is a powerful ability that emerges in transformer models, enabling them to learn from context without weight updates. Recent work has established emergent ICL as a transient phenomenon that can sometimes disappear after long training times. In this work, we sought a mechanistic understanding of these transient dynamics. Firstly, we find that, after the disappearance of ICL, the asymptotic strategy is a remarkable hybrid between in-weights and in-context learning, which we term ‘context-constrained in-weights learning’ (CIWL). CIWL is in competition with ICL, and eventually replaces it as the dominant strategy of the model (thus leading to ICL transience). However, we also find that the two competing strategies actually share sub-circuits, which gives rise to cooperative dynamics as well. For example, in our setup, ICL is unable to emerge quickly on its own, and can only be enabled through the simultaneous slow development of asymptotic CIWL. CIWL thus both cooperates and competes with ICL, a phenomenon we term ‘strategy coopetition.’ We propose a minimal mathematical model that reproduces these key dynamics and interactions. Informed by this model, we were able to identify a setup where ICL is truly emergent and persistent.

arxiv情報

著者 Aaditya K. Singh,Ted Moskovitz,Sara Dragutinovic,Felix Hill,Stephanie C. Y. Chan,Andrew M. Saxe
発行日 2025-03-10 07:13:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Strategy Coopetition Explains the Emergence and Transience of In-Context Learning はコメントを受け付けていません

Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks

要約

特にGANおよび拡散モデルの出現による画像統合の最近の進歩は、偽情報の普及に関する一般的な懸念を増幅しました。
このような懸念に対処するために、多くのAIに生成された画像(AIGI)検出器が提案され、偽の画像を特定する上で有望なパフォーマンスを達成しました。
しかし、AIGI検出器の敵対的な堅牢性についての体系的な理解はまだありません。
この論文では、ホワイトボックスおよびブラックボックスの設定での敵対的攻撃に対する最先端のAIGI検出器の脆弱性を調べます。これはこれまで調査されていません。
この目的のために、AIGI検出器を攻撃する新しい方法を提案します。
まず、周波数ドメイン内の実際の画像と偽の画像の明らかな違いに触発されて、周波数ドメインの下に摂動を追加して、元の頻度分布から画像を押しのけます。
第二に、代理モデルの完全な後方分布を調査して、不均一なAIGI検出器間のこのギャップをさらに狭める、例えば
CNNとvitsに敵対例を転送します。
これは、単一の代理をベイジアンの代理人に変える新しいトレイン後のベイジアン戦略を導入することで達成され、再トレーニングを必要とせずに、1つの事前訓練を受けた代理を使用して多様な犠牲者モデルをシミュレートできます。
この方法では、周波数ベースのトレイン後のベイジアン攻撃、またはFPBAと名付けます。
FPBAを通じて、FPBAはAIGI検出器に対する真の脅威であることを示しています。FPBAは、モデル、ジェネレーター、防御方法を越えて成功したブラックボックス攻撃を提供し、重要な現実世界の検出シナリオであるクロスジェネレーター検出を回避できることを示しています。
コードは受け入れられると共有されます。

要約(オリジナル)

Recent advancements in image synthesis, particularly with the advent of GAN and Diffusion models, have amplified public concerns regarding the dissemination of disinformation. To address such concerns, numerous AI-generated Image (AIGI) Detectors have been proposed and achieved promising performance in identifying fake images. However, there still lacks a systematic understanding of the adversarial robustness of AIGI detectors. In this paper, we examine the vulnerability of state-of-the-art AIGI detectors against adversarial attack under white-box and black-box settings, which has been rarely investigated so far. To this end, we propose a new method to attack AIGI detectors. First, inspired by the obvious difference between real images and fake images in the frequency domain, we add perturbations under the frequency domain to push the image away from its original frequency distribution. Second, we explore the full posterior distribution of the surrogate model to further narrow this gap between heterogeneous AIGI detectors, e.g. transferring adversarial examples across CNNs and ViTs. This is achieved by introducing a novel post-train Bayesian strategy that turns a single surrogate into a Bayesian one, capable of simulating diverse victim models using one pre-trained surrogate, without the need for re-training. We name our method as Frequency-based Post-train Bayesian Attack, or FPBA. Through FPBA, we show that adversarial attack is truly a real threat to AIGI detectors, because FPBA can deliver successful black-box attacks across models, generators, defense methods, and even evade cross-generator detection, which is a crucial real-world detection scenario. The code will be shared upon acceptance.

arxiv情報

著者 Yunfeng Diao,Naixin Zhai,Changtao Miao,Zitong Yu,Xingxing Wei,Xun Yang,Meng Wang
発行日 2025-03-10 06:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks はコメントを受け付けていません

GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving

要約

高品質のマルチモーダル軌道を生成するためのエンドツーエンドの自律運転方法であるGoalFlowを提案します。
自律運転シナリオでは、適切な軌跡が1つあることはめったにありません。
最近の方法は、マルチモーダル軌道分布のモデリングにますます焦点を当てています。
しかし、それらは、軌道の多様性とガイダンスとシーン情報の間の矛盾のために、軌道選択の複雑さと軌跡の質の低下に苦しんでいます。
これらの問題に対処するために、高品質のマルチモーダル軌跡を生成するために生成プロセスを効果的に制約する新しい方法であるGoalFlowを導入します。
拡散ベースの方法に固有の軌跡の発散問題を解決するために、GoalFlowは、ゴールポイントを導入することにより、生成された軌跡を制約します。
GoalFlowは、シーン情報に基づいて候補ポイントから最も適切なゴールポイントを選択する新しいスコアリングメカニズムを確立します。
さらに、GoalFlowは効率的な生成方法であるフローマッチングを採用してマルチモーダル軌道を生成し、洗練されたスコアリングメカニズムを組み込んで、候補者から最適な軌道を選択します。
NAVSIM \ Cite {Dauner2024_Navsim}で検証された実験結果は、GoalFlowが最先端のパフォーマンスを達成し、自律運転のための堅牢なマルチモーダル軌跡を提供することを示しています。
GoalFlowは90.3のPDMSを達成し、他の方法を大幅に超えました。
他の拡散ポリシーベースの方法と比較して、私たちのアプローチでは、優れたパフォーマンスを得るために単一の除去ステップのみが必要です。
このコードはhttps://github.com/yvanyin/goalflowで入手できます。

要約(オリジナル)

We propose GoalFlow, an end-to-end autonomous driving method for generating high-quality multimodal trajectories. In autonomous driving scenarios, there is rarely a single suitable trajectory. Recent methods have increasingly focused on modeling multimodal trajectory distributions. However, they suffer from trajectory selection complexity and reduced trajectory quality due to high trajectory divergence and inconsistencies between guidance and scene information. To address these issues, we introduce GoalFlow, a novel method that effectively constrains the generative process to produce high-quality, multimodal trajectories. To resolve the trajectory divergence problem inherent in diffusion-based methods, GoalFlow constrains the generated trajectories by introducing a goal point. GoalFlow establishes a novel scoring mechanism that selects the most appropriate goal point from the candidate points based on scene information. Furthermore, GoalFlow employs an efficient generative method, Flow Matching, to generate multimodal trajectories, and incorporates a refined scoring mechanism to select the optimal trajectory from the candidates. Our experimental results, validated on the Navsim\cite{Dauner2024_navsim}, demonstrate that GoalFlow achieves state-of-the-art performance, delivering robust multimodal trajectories for autonomous driving. GoalFlow achieved PDMS of 90.3, significantly surpassing other methods. Compared with other diffusion-policy-based methods, our approach requires only a single denoising step to obtain excellent performance. The code is available at https://github.com/YvanYin/GoalFlow.

arxiv情報

著者 Zebin Xing,Xingyu Zhang,Yang Hu,Bo Jiang,Tong He,Qian Zhang,Xiaoxiao Long,Wei Yin
発行日 2025-03-10 06:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GoalFlow: Goal-Driven Flow Matching for Multimodal Trajectories Generation in End-to-End Autonomous Driving はコメントを受け付けていません

QueryCAD: Grounded Question Answering for CAD Models

要約

CADモデルは業界で広く使用されており、ロボット自動化プロセスに不可欠です。
ただし、これらのモデルは、情報の分析、解釈、または抽出のためにCADモデルを組み込むことを可能にする容易に利用可能な方法がないため、ロボットプログラムの自動合成など、新しいAIベースのアプローチではめったに考慮されません。
これらの制限に対処するために、CAD質問の回答用に設計された最初のシステムであるQueryCadを提案し、自然言語クエリを使用してCADモデルからの正確な情報を抽出できるようにします。
QueryCadには、パーツの説明に基づいてCADモデルの特定の部分を識別および選択するために開発したオープンボキャブラリーインスタンスセグメンテーションモデルであるSegcadが組み込まれています。
さらに、QueryCadを評価し、将来の研究の基盤を確立するために、CAD質問に応答するベンチマークを提案します。
最後に、QueryCadを自動ロボットプログラム合成フレームワークに統合し、CADモデル(https://claudius-kienle.github.com/querycad)を処理できるようにすることで、ロボット工学の深い学習ソリューションを強化する能力を検証します。

要約(オリジナル)

CAD models are widely used in industry and are essential for robotic automation processes. However, these models are rarely considered in novel AI-based approaches, such as the automatic synthesis of robot programs, as there are no readily available methods that would allow CAD models to be incorporated for the analysis, interpretation, or extraction of information. To address these limitations, we propose QueryCAD, the first system designed for CAD question answering, enabling the extraction of precise information from CAD models using natural language queries. QueryCAD incorporates SegCAD, an open-vocabulary instance segmentation model we developed to identify and select specific parts of the CAD model based on part descriptions. We further propose a CAD question answering benchmark to evaluate QueryCAD and establish a foundation for future research. Lastly, we integrate QueryCAD within an automatic robot program synthesis framework, validating its ability to enhance deep-learning solutions for robotics by enabling them to process CAD models (https://claudius-kienle.github.com/querycad).

arxiv情報

著者 Claudius Kienle,Benjamin Alt,Darko Katic,Rainer Jäkel,Jan Peters
発行日 2025-03-07 08:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | QueryCAD: Grounded Question Answering for CAD Models はコメントを受け付けていません

Reward-Centered ReST-MCTS: A Robust Decision-Making Framework for Robotic Manipulation in High Uncertainty Environments

要約

モンテカルロツリー検索(MCTS)は、ロボット工学での意思決定のための強力なツールとして浮上し、大きな検索スペースを効率的に探索できるようになりました。
ただし、従来のMCTSメソッドは、最終段階の報酬評価に依存しているため、高い不確実性とノイズの多いデータを特徴とする環境での闘争です。
検索中の中間フィードバックの欠如は、しばしば最適ではない意思決定と計算の非効率性をもたらします。
このペーパーでは、報酬中心のREST-MCTSを紹介します。これは、中間報酬形状を組み込むことでMCTを強化する新しいフレームワークです。
私たちのアプローチの中核は、ルールベースの検証、ヒューリスティックガイダンス、ニューラル推定を使用して部分的な報酬を動的に割り当てることにより、検索軌道を改良する報酬センターです。
これらのメカニズムを統合することにより、この方法により、検索パスのリアルタイム最適化が可能になり、エラー伝播の効果が軽減されます。
高い不確実性の下でロボット操作タスクにおける報酬中心のREST-MCTを評価し、意思決定の正確性の一貫した改善を示します。
チェーンオブシャーチ(COT)プロンプトおよびバニラREST-MCTを含むベースライン方法と比較して、私たちのフレームワークは、計算の実現可能性を維持しながら2〜4%の精度の向上を達成します。
アブレーション研究では、特に誤った決定パスを早期に剪定する際の検索洗練における中間フィードバックの有効性を確認します。
さらに、堅牢性テストは、私たちの方法がさまざまなレベルの不確実性にわたって高性能を保持することを示しています。

要約(オリジナル)

Monte Carlo Tree Search (MCTS) has emerged as a powerful tool for decision-making in robotics, enabling efficient exploration of large search spaces. However, traditional MCTS methods struggle in environments characterized by high uncertainty and noisy data due to their reliance on final-step reward evaluation. The lack of intermediate feedback during search often results in suboptimal decision-making and computational inefficiencies. This paper introduces Reward-Centered ReST-MCTS, a novel framework that enhances MCTS by incorporating intermediate reward shaping. The core of our approach is the Rewarding Center, which refines search trajectories by dynamically assigning partial rewards using rule-based validation, heuristic guidance, and neural estimation. By integrating these mechanisms, our method enables real-time optimization of search paths, mitigating the effects of error propagation. We evaluate Reward-Centered ReST-MCTS in robotic manipulation tasks under high uncertainty, demonstrating consistent improvements in decision accuracy. Compared to baseline methods, including Chain-of-Thought (CoT) prompting and Vanilla ReST-MCTS, our framework achieves a 2-4% accuracy improvement while maintaining computational feasibility. Ablation studies confirm the effectiveness of intermediate feedback in search refinement, particularly in pruning incorrect decision paths early. Furthermore, robustness tests show that our method retains high performance across varying levels of uncertainty.

arxiv情報

著者 Xibai Wang
発行日 2025-03-07 08:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Reward-Centered ReST-MCTS: A Robust Decision-Making Framework for Robotic Manipulation in High Uncertainty Environments はコメントを受け付けていません

Discrete Contrastive Learning for Diffusion Policies in Autonomous Driving

要約

自律的な車両テストのためのデータからの人間の運転行動の正確で豊富なシミュレーションを実行することを学ぶことは、人間の運転スタイルの高い多様性と差異のために依然として困難です。
既存の人間の運転データから運転スタイルの辞書を抽出するために対照的な学習を活用する新しいアプローチを提案することにより、この課題に対処します。
これらのスタイルを量子化で離散化し、スタイルを使用して、人間のドライバーをシミュレートするための条件付き拡散ポリシーを学習します。
私たちの経験的評価は、私たちのアプローチによって生成された動作が、機械学習ベースのベースライン法よりも安全で人間のようなものであることを確認しています。
これは、自動運転車のパフォーマンスを評価および改善するためのより高いリアリズムとより効果的な技術を可能にする可能性があると考えています。

要約(オリジナル)

Learning to perform accurate and rich simulations of human driving behaviors from data for autonomous vehicle testing remains challenging due to human driving styles’ high diversity and variance. We address this challenge by proposing a novel approach that leverages contrastive learning to extract a dictionary of driving styles from pre-existing human driving data. We discretize these styles with quantization, and the styles are used to learn a conditional diffusion policy for simulating human drivers. Our empirical evaluation confirms that the behaviors generated by our approach are both safer and more human-like than those of the machine-learning-based baseline methods. We believe this has the potential to enable higher realism and more effective techniques for evaluating and improving the performance of autonomous vehicles.

arxiv情報

著者 Kalle Kujanpää,Daulet Baimukashev,Farzeen Munir,Shoaib Azam,Tomasz Piotr Kucner,Joni Pajarinen,Ville Kyrki
発行日 2025-03-07 08:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Discrete Contrastive Learning for Diffusion Policies in Autonomous Driving はコメントを受け付けていません

HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning

要約

動作ツリー(BTS)は、モジュール性、反応性、堅牢性により、ロボット工学の一般的な制御構造になりつつあります。
BT生成方法に関しては、BT計画は信頼できるBTを生成することを約束しています。
ただし、BT計画のスケーラビリティは、主にドメインの知識の不足による複雑なシナリオでの長期にわたる計画時間によって制約されることがよくあります。
対照的に、事前に訓練された大規模な言語モデル(LLM)は、さまざまなドメインにわたってタスク推論機能を実証していますが、計画の正確性と安全性は不確実なままです。
このペーパーでは、BT計画をLLMの推論と統合し、BT世代の信頼できる効率的なフレームワークであるヒューリスティックな行動ツリープランニング(HBTP)を導入することを提案しています。
HBTPの重要なアイデアは、タスク固有の推論のためにLLMSを活用してヒューリスティックパスを生成することです。BT計画は、効率的に拡大するために従うことができます。
まず、ヒューリスティックBT拡張プロセスを紹介し、それぞれ最適な計画と満足の計画のために設計された2つのヒューリスティックバリアントを紹介します。
次に、推論の正確性と計画効率の両方をさらに強化するために、アクションスペースの剪定や反射フィードバックを含むLLM推論の不正確さに対処する方法を提案します。
実験はHBTPの理論的境界を示し、4つのデータセットからの結果は、日常のサービスロボットアプリケーションにおける実際の有効性を確認します。

要約(オリジナル)

Behavior Trees (BTs) are increasingly becoming a popular control structure in robotics due to their modularity, reactivity, and robustness. In terms of BT generation methods, BT planning shows promise for generating reliable BTs. However, the scalability of BT planning is often constrained by prolonged planning times in complex scenarios, largely due to a lack of domain knowledge. In contrast, pre-trained Large Language Models (LLMs) have demonstrated task reasoning capabilities across various domains, though the correctness and safety of their planning remain uncertain. This paper proposes integrating BT planning with LLM reasoning, introducing Heuristic Behavior Tree Planning (HBTP)-a reliable and efficient framework for BT generation. The key idea in HBTP is to leverage LLMs for task-specific reasoning to generate a heuristic path, which BT planning can then follow to expand efficiently. We first introduce the heuristic BT expansion process, along with two heuristic variants designed for optimal planning and satisficing planning, respectively. Then, we propose methods to address the inaccuracies of LLM reasoning, including action space pruning and reflective feedback, to further enhance both reasoning accuracy and planning efficiency. Experiments demonstrate the theoretical bounds of HBTP, and results from four datasets confirm its practical effectiveness in everyday service robot applications.

arxiv情報

著者 Yishuai Cai,Xinglin Chen,Yunxin Mao,Minglong Li,Shaowu Yang,Wenjing Yang,Ji Wang
発行日 2025-03-07 08:27:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning はコメントを受け付けていません

Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction

要約

基礎モデルや模倣学習を含む最先端のロボット学習技術はすべて、一般的なインテリジェントロボットフィールドのボトルネックの1つを構成する大規模で高品質のデータセットに大きな要求をもたらします。
このペーパーでは、Kaiwu Multimodal Datasetを紹介して、特にダイナミクス情報とその細粒ラベリングを使用して、洗練された組み立てシナリオで、欠落している実世界の同期されたマルチモーダルデータの問題に対処します。
データセットは、最初に、20人の被験者と30の相互作用オブジェクトを備えた人間、環境、ロボットのデータ収集フレームワークの統合を提供し、統合されたアクションの完全に11,664のインスタンスをもたらします。
デモ、手の動き、操作の圧力、組み立てプロセスの音、マルチビュービデオ、高精度モーションキャプチャ情報、ファーストパーソンビデオとの視線、筋電図信号がすべて記録されています。
絶対タイムスタンプに基づいたファイングレインマルチレベルの注釈、およびセマンティックセグメンテーションラベルが実行されます。
Kaiwu Datasetは、ロボット学習、器用な操作、人間の意図調査、人間のロボットコラボレーション研究を促進することを目指しています。

要約(オリジナル)

Cutting-edge robot learning techniques including foundation models and imitation learning from humans all pose huge demands on large-scale and high-quality datasets which constitute one of the bottleneck in the general intelligent robot fields. This paper presents the Kaiwu multimodal dataset to address the missing real-world synchronized multimodal data problems in the sophisticated assembling scenario,especially with dynamics information and its fine-grained labelling. The dataset first provides an integration of human,environment and robot data collection framework with 20 subjects and 30 interaction objects resulting in totally 11,664 instances of integrated actions. For each of the demonstration,hand motions,operation pressures,sounds of the assembling process,multi-view videos, high-precision motion capture information,eye gaze with first-person videos,electromyography signals are all recorded. Fine-grained multi-level annotation based on absolute timestamp,and semantic segmentation labelling are performed. Kaiwu dataset aims to facilitate robot learning,dexterous manipulation,human intention investigation and human-robot collaboration research.

arxiv情報

著者 Shuo Jiang,Haonan Li,Ruochen Ren,Yanmin Zhou,Zhipeng Wang,Bin He
発行日 2025-03-07 08:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction はコメントを受け付けていません

Budget-optimal multi-robot layout design for box sorting

要約

ロボットシステムは、運用効率を向上させるためにロジスティクス業界で日常的に使用されていますが、ロボットワークスペースの設計は複雑で手動タスクのままであり、システムの柔軟性を変化する需要に対する柔軟性を制限しています。
このペーパーは、計算フレームワークを提案して、特定の入力場所と出力位置からパッケージを並べ替えるために固定ロボットをフロアグリッドに選択的に配置することにより、予算最大化レイアウトを生成するための計算フレームワークを提案することにより、ロボットワークスペースの設計を自動化することを目的としています。
モーションの実現可能性を確保しながらハードウェアの予算を最小限に抑える適切なレイアウトを見つけることは、非凸モーションの制約を伴う挑戦的な組み合わせの問題です。
ネットワークフローの制約を条件として、レイアウト計画をサブグラフ最適化問題としてモデル化する新しい最適化ベースのアプローチを提案します。
私たちの中心的な洞察は、運動学的到達可能性グラフを事前に計算して、このグラウンドグラフに最適なレイアウトを抽出することにより、レイアウト最適化からのモーションの制約を抽象化することです。
簡単なタスクの割り当てとモーション計画手法を提案することにより、アプローチのモーションの実現可能性を検証します。
さまざまなグリッド解像度と出力の数の問題に関するアルゴリズムをベンチマークし、ヒューリスティック検索アルゴリズムよりもメモリ効率の改善を示します。

要約(オリジナル)

Robotic systems are routinely used in the logistics industry to enhance operational efficiency, but the design of robot workspaces remains a complex and manual task, which limits the system’s flexibility to changing demands. This paper aims to automate robot workspace design by proposing a computational framework to generate a budget-minimizing layout by selectively placing stationary robots on a floor grid to sort packages from given input and output locations. Finding a good layout that minimizes the hardware budget while ensuring motion feasibility is a challenging combinatorial problem with nonconvex motion constraints. We propose a new optimization-based approach that models layout planning as a subgraph optimization problem subject to network flow constraints. Our core insight is to abstract away motion constraints from the layout optimization by precomputing a kinematic reachability graph and then extract the optimal layout on this ground graph. We validate the motion feasibility of our approach by proposing a simple task assignment and motion planning technique. We benchmark our algorithm on problems with various grid resolutions and number of outputs and show improvements in memory efficiency over a heuristic search algorithm.

arxiv情報

著者 Peiyu Zeng,Yijiang Huang,Simon Huber,Stelian Coros
発行日 2025-03-07 08:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Budget-optimal multi-robot layout design for box sorting はコメントを受け付けていません