UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

要約

模倣は人間の基本的な学習メカニズムであり、個人が専門家を観察し模倣することで新しいタスクを学ぶことができます。
ただし、ロボットにこの能力を適用すると、視覚的外観と物理的能力の両方において、人間とロボットの実施形態の固有の違いがあるため、重要な課題があります。
以前の方法は、共有シーンやタスクを使用して交差体拡大データセットを使用してこのギャップを埋めますが、人間とロボットの間にこのような整合したデータを大規模に収集することは些細なことではありません。
このホワイトペーパーでは、ラベルなしで大規模なクロスエンボジメントビデオデータから具体化されたスキル表現を学習する新しいフレームワークであるUniskillを提案し、ヒューマンビデオプロンプトから抽出されたスキルを可能にし、ロボットデータでのみトレーニングされたロボットポリシーに効果的に転送できます。
シミュレーションと現実世界の両方の環境での実験は、目に見えないビデオプロンプトがあっても、適切なアクションの選択にロボットを採用することに成功していることを示しています。
プロジェクトのWebサイトは、https://kimhanjung.github.io/uniskillにあります。

要約(オリジナル)

Mimicry is a fundamental learning mechanism in humans, enabling individuals to learn new tasks by observing and imitating experts. However, applying this ability to robots presents significant challenges due to the inherent differences between human and robot embodiments in both their visual appearance and physical capabilities. While previous methods bridge this gap using cross-embodiment datasets with shared scenes and tasks, collecting such aligned data between humans and robots at scale is not trivial. In this paper, we propose UniSkill, a novel framework that learns embodiment-agnostic skill representations from large-scale cross-embodiment video data without any labels, enabling skills extracted from human video prompts to effectively transfer to robot policies trained only on robot data. Our experiments in both simulation and real-world environments show that our cross-embodiment skills successfully guide robots in selecting appropriate actions, even with unseen video prompts. The project website can be found at: https://kimhanjung.github.io/UniSkill.

arxiv情報

著者 Hanjung Kim,Jaehyun Kang,Hyolim Kang,Meedeum Cho,Seon Joo Kim,Youngwoon Lee
発行日 2025-05-15 17:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations はコメントを受け付けていません

Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data

要約

光リアリックな拡散モデルの開発により、合成データで部分的または完全にトレーニングされたモデルは、徐々により良い結果を達成します。
ただし、拡散モデルは、地上に浮かぶ犬や非現実的なテクスチャアーティファクトなど、現実には存在しない画像を日常的に生成します。
実現可能性の概念を、合成画像内の属性が現実世界のドメインに現実的に存在できるかどうかとして定義します。
この基準に違反する属性を含む合成画像は、実行不可能と見なされます。
直感的には、実行不可能な画像は通常、分散除外と見なされます。
したがって、このような画像のトレーニングは、実際のデータに一般化するモデルの能力を妨げることが期待されているため、可能な限りトレーニングセットから除外する必要があります。
しかし、実現可能性は本当に重要ですか?
この論文では、クリップベースの分類子の合成トレーニングデータを生成するときに実行可能性を施行する必要があるかどうかを調査し、背景、色、テクスチャの3つのターゲット属性に焦点を当てています。
特定のソースイメージを最小限に編集して、大規模な言語モデルによって生成されたテキストプロンプトによって提供される実行可能または実行可能な属性を含むパイプラインであるVariealを紹介します。
私たちの実験では、実現可能性がLORA-Fine-Fineチューニングされたクリップパフォーマンスに影響を及ぼし、3つのきめの細かいデータセットでトップ1の精度がほとんど0.3%未満であることが示されています。
また、属性は、実行可能/実行可能な画像が分類パフォーマンスに敵対的に影響するかどうかについて重要です。
最後に、トレーニングデータセットで実行可能な画像と実行不可能な画像を混合しても、純粋に実行可能または実行可能なデータセットを使用することと比較して、パフォーマンスに大きな影響を与えません。

要約(オリジナル)

With the development of photorealistic diffusion models, models trained in part or fully on synthetic data achieve progressively better results. However, diffusion models still routinely generate images that would not exist in reality, such as a dog floating above the ground or with unrealistic texture artifacts. We define the concept of feasibility as whether attributes in a synthetic image could realistically exist in the real-world domain; synthetic images containing attributes that violate this criterion are considered infeasible. Intuitively, infeasible images are typically considered out-of-distribution; thus, training on such images is expected to hinder a model’s ability to generalize to real-world data, and they should therefore be excluded from the training set whenever possible. However, does feasibility really matter? In this paper, we investigate whether enforcing feasibility is necessary when generating synthetic training data for CLIP-based classifiers, focusing on three target attributes: background, color, and texture. We introduce VariReal, a pipeline that minimally edits a given source image to include feasible or infeasible attributes given by the textual prompt generated by a large language model. Our experiments show that feasibility minimally affects LoRA-fine-tuned CLIP performance, with mostly less than 0.3% difference in top-1 accuracy across three fine-grained datasets. Also, the attribute matters on whether the feasible/infeasible images adversarially influence the classification performance. Finally, mixing feasible and infeasible images in training datasets does not significantly impact performance compared to using purely feasible or infeasible datasets.

arxiv情報

著者 Yiwen Liu,Jessica Bader,Jae Myung Kim
発行日 2025-05-15 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data はコメントを受け付けていません

Style Customization of Text-to-Vector Generation with Image Diffusion Priors

要約

スケーラブルなベクトルグラフィックス(SVG)は、解像度の独立性とよく組織化された層構造のために、デザイナーに非常に好まれています。
既存のテキストからベクトル(T2V)生成方法は、テキストプロンプトからSVGを作成できますが、実際のアプリケーションで重要なニーズを見落とすことがよくあります。スタイルのカスタマイズは、一貫した視覚的外観とコヒーレントな美学を持つベクトルグラフィックスのコレクションを生成するために不可欠です。
スタイルのカスタマイズのための既存のT2Vメソッドを拡張すると、特定の課題がもたらされます。
最適化ベースのT2Vモデルは、カスタマイズのためにテキストツーイメージ(T2I)モデルの事前に使用できますが、構造の規則性の維持に苦労しています。
一方、フィードフォワードT2Vモデルは、構造的な規則性を確保できますが、SVGトレーニングデータが限られているため、コンテンツとスタイルを解き放つのが困難に遭遇します。
これらの課題に対処するために、SVG生成向けの新しい2段階スタイルのカスタマイズパイプラインを提案し、フィードフォワードT2VモデルとT2Iイメージプライアーの両方の利点を利用します。
最初の段階では、パスレベルの表現を備えたT2V拡散モデルをトレーニングして、多様な表現力豊かな機能を維持しながらSVGの構造的規則性を確保します。
第2段階では、カスタマイズされたT2Iモデルを蒸留することにより、T2V拡散モデルをさまざまなスタイルにカスタマイズします。
これらの手法を統合することにより、パイプラインは、効率的なフィードフォワード方法でテキストプロンプトに基づいて、カスタムスタイルで高品質で多様なSVGを生成できます。
私たちの方法の有効性は、広範な実験を通じて検証されています。
プロジェクトページはhttps://customsvg.github.ioです。

要約(オリジナル)

Scalable Vector Graphics (SVGs) are highly favored by designers due to their resolution independence and well-organized layer structure. Although existing text-to-vector (T2V) generation methods can create SVGs from text prompts, they often overlook an important need in practical applications: style customization, which is vital for producing a collection of vector graphics with consistent visual appearance and coherent aesthetics. Extending existing T2V methods for style customization poses certain challenges. Optimization-based T2V models can utilize the priors of text-to-image (T2I) models for customization, but struggle with maintaining structural regularity. On the other hand, feed-forward T2V models can ensure structural regularity, yet they encounter difficulties in disentangling content and style due to limited SVG training data. To address these challenges, we propose a novel two-stage style customization pipeline for SVG generation, making use of the advantages of both feed-forward T2V models and T2I image priors. In the first stage, we train a T2V diffusion model with a path-level representation to ensure the structural regularity of SVGs while preserving diverse expressive capabilities. In the second stage, we customize the T2V diffusion model to different styles by distilling customized T2I models. By integrating these techniques, our pipeline can generate high-quality and diverse SVGs in custom styles based on text prompts in an efficient feed-forward manner. The effectiveness of our method has been validated through extensive experiments. The project page is https://customsvg.github.io.

arxiv情報

著者 Peiying Zhang,Nanxuan Zhao,Jing Liao
発行日 2025-05-15 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Style Customization of Text-to-Vector Generation with Image Diffusion Priors はコメントを受け付けていません

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

要約

大規模なマルチモーダルモデルのトレーニングに広く使用されている自然言語画像キャプションデータセットは、主に自然シナリオに焦点を当て、問題解決に重要な数学的人物の複雑な詳細を見落とし、マルチモーダル数学的推論における現在のLMMの進歩を妨げます。
この目的のために、コードは対応する図を生成するために必要なすべての情報を本質的にエンコードし、2つのモダリティ間の正確な接続を確立するため、コードをクロスモーダルアラインメントの監督としてレバレバリングすることを提案します。
具体的には、モデルインザループアプローチと画像間モデルとデータセットを共同開発するため、これまでで最大の画像コードデータセットである画像間モデル、FigCodifier、IMGCode-8.6Mデータセットが生まれます。
さらに、figcodififierを利用して、新しい数学的人物を合成し、高品質のマルチモーダル数学命令微調整データセットであるmm-mathinstruct-3mを構築します。
最後に、CrossモーダルアライメントのためにIMGCode-8.6Mで訓練されたMathCoder-VLを提示し、その後マルチモーダル数学の問題解決のためにMM-Mathinstruct-3Mで微調整されます。
私たちのモデルは、6つのメトリックすべてにわたって新しいオープンソースソタを達成します。
特に、Mathvistaのジオメトリ問題解決サブセットでGPT-4OとClaude 3.5ソネットを上回り、8.9%と9.2%の改善を達成しています。
データセットとモデルは、https://github.com/mathllm/mathcoderでリリースされます。

要約(オリジナル)

Natural language image-caption datasets, widely used for training Large Multimodal Models, mainly focus on natural scenarios and overlook the intricate details of mathematical figures that are critical for problem-solving, hindering the advancement of current LMMs in multimodal mathematical reasoning. To this end, we propose leveraging code as supervision for cross-modal alignment, since code inherently encodes all information needed to generate corresponding figures, establishing a precise connection between the two modalities. Specifically, we co-develop our image-to-code model and dataset with model-in-the-loop approach, resulting in an image-to-code model, FigCodifier and ImgCode-8.6M dataset, the largest image-code dataset to date. Furthermore, we utilize FigCodifier to synthesize novel mathematical figures and then construct MM-MathInstruct-3M, a high-quality multimodal math instruction fine-tuning dataset. Finally, we present MathCoder-VL, trained with ImgCode-8.6M for cross-modal alignment and subsequently fine-tuned on MM-MathInstruct-3M for multimodal math problem solving. Our model achieves a new open-source SOTA across all six metrics. Notably, it surpasses GPT-4o and Claude 3.5 Sonnet in the geometry problem-solving subset of MathVista, achieving improvements of 8.9% and 9.2%. The dataset and models will be released at https://github.com/mathllm/MathCoder.

arxiv情報

著者 Ke Wang,Junting Pan,Linda Wei,Aojun Zhou,Weikang Shi,Zimu Lu,Han Xiao,Yunqiao Yang,Houxing Ren,Mingjie Zhan,Hongsheng Li
発行日 2025-05-15 17:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning はコメントを受け付けていません

End-to-End Vision Tokenizer Tuning

要約

既存の視覚トークン化は、視覚トークンがさまざまなタスク、例えば画像生成や視覚的質問の回答にわたってよく一般化できると暗黙的に仮定することで、視力トークンザーの最適化を分離します。
低レベルの再構成のために最適化された視力トークナザーは、さまざまな表現とセマンティクスを必要とする下流タスクから下流タスクから下流タスクです。
この分離されたパラダイムは、重大な不整合を導入します。視力トークン化の喪失は、ターゲットタスクの表現ボトルネックになる可能性があります。
たとえば、特定の画像のテキストをトークン化するエラーは、それらを認識または生成する際の結果が悪い結果につながります。
これに対処するために、視力トークン化とターゲットの自己回帰タスクの間の共同最適化を可能にするエンドツーエンドの視力トークナイザーチューニングアプローチであるETTを提案します。
凍結視力トークナイザーから離散インデックスのみを使用する以前の自己回帰モデルとは異なり、ETTはトークナイザーコードブックの視覚埋め込みを活用し、再構成とキャプションの両方の目的でエンドツーエンドの視力トークンザーを最適化します。
ETTは、アーキテクチャの変更を最小限に抑えて、既存のトレーニングパイプラインにシームレスに統合できます。
ETTは、採用されている大規模な言語モデルの元のコードブックやアーキテクチャを調整することなく、実装および統合が簡単です。
広範な実験では、提案されたエンドツーエンドの視力トークネイザーチューニングが、凍結トークナイザーベースラインと比較して、マルチモーダルの理解と視覚生成タスクの場合、元の再構成能力を維持しながら、マルチモーダルの理解と視覚生成タスクの2〜6%のロックを解除することを示しています。
この非常にシンプルで強力な方法が、画像の生成と理解に加えて、マルチモーダルファンデーションモデルに力を与えることを願っています。

要約(オリジナル)

Existing vision tokenization isolates the optimization of vision tokenizers from downstream training, implicitly assuming the visual tokens can generalize well across various tasks, e.g., image generation and visual question answering. The vision tokenizer optimized for low-level reconstruction is agnostic to downstream tasks requiring varied representations and semantics. This decoupled paradigm introduces a critical misalignment: The loss of the vision tokenization can be the representation bottleneck for target tasks. For example, errors in tokenizing text in a given image lead to poor results when recognizing or generating them. To address this, we propose ETT, an end-to-end vision tokenizer tuning approach that enables joint optimization between vision tokenization and target autoregressive tasks. Unlike prior autoregressive models that use only discrete indices from a frozen vision tokenizer, ETT leverages the visual embeddings of the tokenizer codebook, and optimizes the vision tokenizers end-to-end with both reconstruction and caption objectives. ETT can be seamlessly integrated into existing training pipelines with minimal architecture modifications. Our ETT is simple to implement and integrate, without the need to adjust the original codebooks or architectures of the employed large language models. Extensive experiments demonstrate that our proposed end-to-end vision tokenizer tuning unlocks significant performance gains, i.e., 2-6% for multimodal understanding and visual generation tasks compared to frozen tokenizer baselines, while preserving the original reconstruction capability. We hope this very simple and strong method can empower multimodal foundation models besides image generation and understanding.

arxiv情報

著者 Wenxuan Wang,Fan Zhang,Yufeng Cui,Haiwen Diao,Zhuoyan Luo,Huchuan Lu,Jing Liu,Xinlong Wang
発行日 2025-05-15 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | End-to-End Vision Tokenizer Tuning はコメントを受け付けていません

Depth Anything with Any Prior

要約

このワークは、以前の深さを提示します。これは、不完全であるが正確なメトリック情報を深さの測定で、相対的であるが完全な幾何学的構造を深さの予測で組み合わせ、あらゆるシーンの正確で密な、詳細なメトリック深度マップを生成します。
この目的のために、2つの補完的な深度ソースを徐々に統合するために、粗からファインのパイプラインを設計します。
まず、深さ予測を明示的に使用することにより、多様なメトリックプライアーを事前に充填するために、ピクセルレベルのメトリックアラインメントと距離認識の重み付けを導入します。
事前のパターン間のドメインギャップを効果的に狭め、さまざまなシナリオ全体で一般化を強化します。
第二に、条件付けされた単眼深度推定(MDE)モデルを開発して、深さ前の固有のノイズを改良します。
事前に充填された正規化された事前と予測を条件付けすることにより、このモデルはさらに2つの補完的な深度源を暗黙的にマージします。
私たちのモデルは、深さ完了、超解像度、および7つの現実世界のデータセットを照合して、以前のタスク固有の方法を一致させる、またはそれを上回る印象的なゼロショットの一般化を紹介します。
さらに重要なことは、それは挑戦的で目に見えない混合前の事前にうまく機能し、予測モデルを切り替えることでテスト時間の改善を可能にし、MDEモデルの進歩とともに進化しながら柔軟な精度効率のトレードオフを提供することです。

要約(オリジナル)

This work presents Prior Depth Anything, a framework that combines incomplete but precise metric information in depth measurement with relative but complete geometric structures in depth prediction, generating accurate, dense, and detailed metric depth maps for any scene. To this end, we design a coarse-to-fine pipeline to progressively integrate the two complementary depth sources. First, we introduce pixel-level metric alignment and distance-aware weighting to pre-fill diverse metric priors by explicitly using depth prediction. It effectively narrows the domain gap between prior patterns, enhancing generalization across varying scenarios. Second, we develop a conditioned monocular depth estimation (MDE) model to refine the inherent noise of depth priors. By conditioning on the normalized pre-filled prior and prediction, the model further implicitly merges the two complementary depth sources. Our model showcases impressive zero-shot generalization across depth completion, super-resolution, and inpainting over 7 real-world datasets, matching or even surpassing previous task-specific methods. More importantly, it performs well on challenging, unseen mixed priors and enables test-time improvements by switching prediction models, providing a flexible accuracy-efficiency trade-off while evolving with advancements in MDE models.

arxiv情報

著者 Zehan Wang,Siyu Chen,Lihe Yang,Jialei Wang,Ziang Zhang,Hengshuang Zhao,Zhou Zhao
発行日 2025-05-15 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Depth Anything with Any Prior はコメントを受け付けていません

3D-Fixup: Advancing Photo Editing with 3D Priors

要約

拡散モデルを介したモデリング画像プリエアの大幅な進歩にもかかわらず、オブジェクトは単一の画像でのみ指定されているため、3Dにアウェアの画像編集が依然として困難です。
この課題に取り組むために、3D-fixupを提案します。3D-fixupは、学習した3D Priorsによってガイドされた2D画像を編集するための新しいフレームワークです。
このフレームワークは、オブジェクト変換や3D回転などの困難な編集状況をサポートしています。
これを達成するために、拡散モデルの生成力を活用するトレーニングベースのアプローチを活用します。
ビデオデータは自然に現実世界の物理的ダイナミクスをエンコードするため、トレーニングデータペア、つまりソースとターゲットフレームを生成するためのビデオデータに目を向けます。
ソースフレームとターゲットフレーム間の変換を推測するために単一の訓練されたモデルのみに依存するのではなく、2D情報を3Dスペースに明示的に投影することにより、この挑戦​​的なタスクを橋渡しする画像間モデルから3Dガイダンスを組み込みます。
データ生成パイプラインを設計して、トレーニングを通じて高品質の3Dガイダンスを確保しています。
結果は、これらの3Dプライアーを統合することにより、3D-fixupが複雑なアイデンティティコヒーレント3D認識編集を効果的にサポートし、高品質の結果を達成し、現実的な画像操作における拡散モデルの適用を進めることを示しています。
コードはhttps://3dfixup.github.io/で提供されます

要約(オリジナル)

Despite significant advances in modeling image priors via diffusion models, 3D-aware image editing remains challenging, in part because the object is only specified via a single image. To tackle this challenge, we propose 3D-Fixup, a new framework for editing 2D images guided by learned 3D priors. The framework supports difficult editing situations such as object translation and 3D rotation. To achieve this, we leverage a training-based approach that harnesses the generative power of diffusion models. As video data naturally encodes real-world physical dynamics, we turn to video data for generating training data pairs, i.e., a source and a target frame. Rather than relying solely on a single trained model to infer transformations between source and target frames, we incorporate 3D guidance from an Image-to-3D model, which bridges this challenging task by explicitly projecting 2D information into 3D space. We design a data generation pipeline to ensure high-quality 3D guidance throughout training. Results show that by integrating these 3D priors, 3D-Fixup effectively supports complex, identity coherent 3D-aware edits, achieving high-quality results and advancing the application of diffusion models in realistic image manipulation. The code is provided at https://3dfixup.github.io/

arxiv情報

著者 Yen-Chi Cheng,Krishna Kumar Singh,Jae Shin Yoon,Alex Schwing,Liangyan Gui,Matheus Gadelha,Paul Guerrero,Nanxuan Zhao
発行日 2025-05-15 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | 3D-Fixup: Advancing Photo Editing with 3D Priors はコメントを受け付けていません

Embodied Intelligent Industrial Robotics: Concepts and Techniques

要約

近年、具体化されたインテリジェントロボット(EIR)は、マルチモーダル認識、自律的な意思決定、および身体的相互作用に大きな進歩を遂げています。
一部のロボットは、家やショッピングモールなどの汎用シナリオですでにテストされています。
私たちは、産業シーンで具体化された知性の研究と応用を進めることを目指しています。
ただし、現在のEIRには、産業環境セマンティクスと産業操作オブジェクト間の規範的制約についての深い理解がありません。
このギャップに対処するために、このペーパーでは、最初に産業用ロボット工学の歴史と主流のEIRフレームワークをレビューします。
次に、具体化されたインテリジェント産業用ロボット(EIIR)の概念を紹介し、産業環境向けの知識主導型EIIRテクノロジーフレームワークを提案します。
フレームワークには、世界モデル、高レベルのタスクプランナー、低レベルのスキルコントローラー、シミュレーターの4つの主要なモジュールが含まれます。
また、各モジュールに関連するテクノロジーの現在の開発を確認し、産業用アプリケーションに適応する最近の進捗状況を強調しています。
最後に、EIIRが産業シナリオで直面する重要な課題を要約し、将来の研究の方向性を提案します。
EIIRテクノロジーは、次世代の産業用ロボット工学を形作ると考えています。
具体化されたインテリジェントな産業ロボットに基づいた産業システムは、インテリジェントな製造を可能にするための強力な可能性を提供します。
私たちはこの分野での新しい研究を追跡し、要約し続け、このレビューが産業具体化された知性に関心のある学者やエンジニアにとって貴重な参照として役立つことを願っています。
一緒に、私たちはこのテクノロジーの急速な進歩と適用を促進するのを支援することができます。
関連するプロジェクトは、https://github.com/jackyzengl/eiirにあります。

要約(オリジナル)

In recent years, embodied intelligent robotics (EIR) has made significant progress in multi-modal perception, autonomous decision-making, and physical interaction. Some robots have already been tested in general-purpose scenarios such as homes and shopping malls. We aim to advance the research and application of embodied intelligence in industrial scenes. However, current EIR lacks a deep understanding of industrial environment semantics and the normative constraints between industrial operating objects. To address this gap, this paper first reviews the history of industrial robotics and the mainstream EIR frameworks. We then introduce the concept of the embodied intelligent industrial robotics (EIIR) and propose a knowledge-driven EIIR technology framework for industrial environments. The framework includes four main modules: world model, high-level task planner, low-level skill controller, and simulator. We also review the current development of technologies related to each module and highlight recent progress in adapting them to industrial applications. Finally, we summarize the key challenges EIIR faces in industrial scenarios and suggest future research directions. We believe that EIIR technology will shape the next generation of industrial robotics. Industrial systems based on embodied intelligent industrial robots offer strong potential for enabling intelligent manufacturing. We will continue to track and summarize new research in this area and hope this review will serve as a valuable reference for scholars and engineers interested in industrial embodied intelligence. Together, we can help drive the rapid advancement and application of this technology. The associated project can be found at https://github.com/jackyzengl/EIIR.

arxiv情報

著者 Chaoran Zhang,Chenhao Zhang,Zhaobo Xu,Qinghongbing Xie,Pingfa Feng,Long Zeng
発行日 2025-05-15 12:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Embodied Intelligent Industrial Robotics: Concepts and Techniques はコメントを受け付けていません

VGC-RIO: A Tightly Integrated Radar-Inertial Odometry with Spatial Weighted Doppler Velocity and Local Geometric Constrained RCS Histograms

要約

4Dレーダー介入臭トメトリの最近の進歩は、副次的条件における自律的なlo cal剤の有望な可能性を示しています。
ただし、まばらでノイズの多いレーダー測定の効果的な取り扱いは依然として重要な課題です。
この論文では、不均一に分布したポイントと挑戦的なポイント登録のための新しいポイント説明ヒストグラムに適応する空間重み付け方法を備えたレーダー介入臭トメトリを提案します。
異なる空間セクションからのドップラー速度を最大限に活用するために、重み計算モデルを提案します。
挑戦的なシナリオでポイントクラウド登録のパフォーマンスを強化するために、ローカルの幾何学的特徴とレーダー断面(RCS)機能を組み合わせた新しいポイントヒストグラム記述子を構造化します。
また、公共および自己構築されたデータセットの両方で広範な実験を実施しました。
結果は、提案されたVGC-Rioの精度と堅牢性を示しています。

要約(オリジナル)

Recent advances in 4D radar-inertial odometry have demonstrated promising potential for autonomous lo calization in adverse conditions. However, effective handling of sparse and noisy radar measurements remains a critical challenge. In this paper, we propose a radar-inertial odometry with a spatial weighting method that adapts to unevenly distributed points and a novel point-description histogram for challenging point registration. To make full use of the Doppler velocity from different spatial sections, we propose a weighting calculation model. To enhance the point cloud registration performance under challenging scenarios, we con struct a novel point histogram descriptor that combines local geometric features and radar cross-section (RCS) features. We have also conducted extensive experiments on both public and self-constructed datasets. The results demonstrate the precision and robustness of the proposed VGC-RIO.

arxiv情報

著者 Jianguang Xiang,Xiaofeng He,Zizhuo Chen,Lilian Zhang,Xincan Luo,Jun Mao
発行日 2025-05-15 03:44:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | VGC-RIO: A Tightly Integrated Radar-Inertial Odometry with Spatial Weighted Doppler Velocity and Local Geometric Constrained RCS Histograms はコメントを受け付けていません

Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments

要約

この作業は、より現実的な局所障害物回避戦略を備えた未知の閉塞環境での特定の群れ行動に続いて、ロボット艦隊をナビゲートするために、分散した非線形モデル予測制御(NMPC)に関する以前の作業を拡張します。
より具体的には、ポイントクラウドを使用してローカル障害回避制約をNMPCフレームワークに統合します。
ここでは、各エージェントはローカルセンサーのデータに依存して、近くの障害を認識して応答します。
最適化中の計算負担を最小限に抑えるために、2次元ポイントクラウドと3次元ポイントクラウドの両方に対してポイントクラウド処理手法が提示されます。
このプロセスは、データポイントの数を大幅に削減する方向性のフィルタリングとダウンサンプリングで構成されています。
アルゴリズムのパフォーマンスは、Gazeboでの現実的な3Dシミュレーションを通じて検証されており、その実用的な実現可能性は、組み込みプラットフォーム上のハードウェア(HIL)シミュレーションを介してさらに調査されます。

要約(オリジナル)

This work extends our prior work on the distributed nonlinear model predictive control (NMPC) for navigating a robot fleet following a certain flocking behavior in unknown obstructed environments with a more realistic local obstacle avoidance strategy. More specifically, we integrate the local obstacle avoidance constraint using point clouds into the NMPC framework. Here, each agent relies on data from its local sensor to perceive and respond to nearby obstacles. A point cloud processing technique is presented for both two-dimensional and three-dimensional point clouds to minimize the computational burden during the optimization. The process consists of directional filtering and down-sampling that significantly reduce the number of data points. The algorithm’s performance is validated through realistic 3D simulations in Gazebo, and its practical feasibility is further explored via hardware-in-the-loop (HIL) simulations on embedded platforms.

arxiv情報

著者 Nuthasith Gerdpratoom,Kaoru Yamamoto
発行日 2025-05-15 08:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, G.1.6 | Decentralized Nonlinear Model Predictive Control-Based Flock Navigation with Real-Time Obstacle Avoidance in Unknown Obstructed Environments はコメントを受け付けていません