VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models

要約

この研究では、ビジョン言語モデル(VLM)によって示される明示的および暗黙的な社会的バイアスの両方を調査しています。
これらのバイアスタイプの重要な区別は、認識のレベルにあります。明示的なバイアスは、意識的で意図的なバイアスを指し、暗黙のバイアスは無意識のうちに動作します。
明示的なバイアスを分析するために、性別と人種の違いに関連するVLMに直接質問を投げかけます:(1)特定の画像に基づいた複数選択の質問(例えば、「画像内の人の教育レベルは何ですか?」(2)はい、2つの画像を使用しています。
応答によるバイアス:(1)画像説明タスク:モデルは画像内の個人を説明するように求められ、人口統計グループ全体のテキストキューの格差を分析します。
(2)フォーム完了タスク:モデルは20の属性を持つ個人情報収集フォームをドラフトし、潜在的なバイアスの選択された属性間の相関を調べます。
Gemini-1.5、GPT-4V、GPT-4O、llama-3.2-visionおよびllava-v1.6を評価します。
私たちのコードとデータは、https://github.com/uscnlp-lime/visbiasで公開されています。

要約(オリジナル)

This research investigates both explicit and implicit social biases exhibited by Vision-Language Models (VLMs). The key distinction between these bias types lies in the level of awareness: explicit bias refers to conscious, intentional biases, while implicit bias operates subconsciously. To analyze explicit bias, we directly pose questions to VLMs related to gender and racial differences: (1) Multiple-choice questions based on a given image (e.g., ‘What is the education level of the person in the image?’) (2) Yes-No comparisons using two images (e.g., ‘Is the person in the first image more educated than the person in the second image?’) For implicit bias, we design tasks where VLMs assist users but reveal biases through their responses: (1) Image description tasks: Models are asked to describe individuals in images, and we analyze disparities in textual cues across demographic groups. (2) Form completion tasks: Models draft a personal information collection form with 20 attributes, and we examine correlations among selected attributes for potential biases. We evaluate Gemini-1.5, GPT-4V, GPT-4o, LLaMA-3.2-Vision and LLaVA-v1.6. Our code and data are publicly available at https://github.com/uscnlp-lime/VisBias.

arxiv情報

著者 Jen-tse Huang,Jiantong Qin,Jianping Zhang,Youliang Yuan,Wenxuan Wang,Jieyu Zhao
発行日 2025-03-10 17:42:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models はコメントを受け付けていません

Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation

要約

拡散モデルは、多様な自然分布全体で高解像度の現実的な画像を生成することに顕著な成功を収めています。
ただし、パフォーマンスは高品質のトレーニングデータに大きく依存しているため、破損したサンプルから意味のある分布を学ぶことが困難です。
この制限は、クリーンデータが取得するのが不足または費用がかかる科学的領域での適用性を制限します。
この作業では、低品質のデータから高品質の生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチである、除去スコア蒸留(DSD)を導入します。
DSDは、騒々しい、破損したサンプルのみで拡散モデルを最初に前処理し、それを洗練されたクリーンな出力を生成できるワンステップジェネレーターに蒸留します。
スコアの蒸留は伝統的に拡散モデルを加速する方法と見なされていますが、特に劣化した教師モデルから始まる場合、サンプルの品質を大幅に向上させることもできることを示しています。
さまざまなノイズレベルとデータセットにわたって、DSDは生成パフォーマンスを一貫して改善します。図1の経験的証拠を要約します。さらに、線形モデル設定では、DSDがクリーンデータ分布共変動マトリックスの固有空間を識別し、結果を正規化することを示す理論的洞察を提供します。
このパースペクティブは、効率のためのツールだけでなく、特に低品質のデータ設定で生成モデルを改善するためのメカニズムとしてスコア蒸留を再構成します。

要約(オリジナル)

Diffusion models have achieved remarkable success in generating high-resolution, realistic images across diverse natural distributions. However, their performance heavily relies on high-quality training data, making it challenging to learn meaningful distributions from corrupted samples. This limitation restricts their applicability in scientific domains where clean data is scarce or costly to obtain. In this work, we introduce denoising score distillation (DSD), a surprisingly effective and novel approach for training high-quality generative models from low-quality data. DSD first pretrains a diffusion model exclusively on noisy, corrupted samples and then distills it into a one-step generator capable of producing refined, clean outputs. While score distillation is traditionally viewed as a method to accelerate diffusion models, we show that it can also significantly enhance sample quality, particularly when starting from a degraded teacher model. Across varying noise levels and datasets, DSD consistently improves generative performancewe summarize our empirical evidence in Fig. 1. Furthermore, we provide theoretical insights showing that, in a linear model setting, DSD identifies the eigenspace of the clean data distributions covariance matrix, implicitly regularizing the generator. This perspective reframes score distillation as not only a tool for efficiency but also a mechanism for improving generative models, particularly in low-quality data settings.

arxiv情報

著者 Tianyu Chen,Yasi Zhang,Zhendong Wang,Ying Nian Wu,Oscar Leong,Mingyuan Zhou
発行日 2025-03-10 17:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation はコメントを受け付けていません

Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

要約

マルチモーダルの基礎モデルが自動運転車に実験的に展開され始めると、私たちが尋ねる合理的な質問は、特定の運転状況、特に分散型の状況でこれらのシステムにどの程度類似しているかということです。
これを研究するために、ペルーからのダッシュカムビデオデータを使用するRobusto-1データセットを作成します。これは、世界で最悪の(攻撃的な)ドライバーの1つ、交通指数が高く、トレーニングで見られないと思われる奇妙なストリートオブジェクトと奇妙なストリートオブジェクトの比率が高い国です。
特に、運転中の人間と比較して、基礎視覚言語モデル(VLM)が境界ボックス、セグメンテーションマップ、占有マップ、または軌道推定から、マルチモーダルの視覚的質問(VQA)から、類似の類似性分析の表現として知られている系統系の人間と機械の両方を比較するマルチモーダル視覚質問(VQA)から、認知レベルでどの程度の基礎視覚言語モデル(VLM)がどれだけうまくいくかを予備的にテストするために。
私たちが尋ねる質問の種類とこれらのシステムが与える答えに応じて、VLMと人間が収束または分岐する場合、私たちは彼らの認知的アライメントを調べることができるようになります。
アラインメントの程度は、各タイプのシステム(人間とVLMS)に尋ねられる質問の種類によって大きく異なることがわかり、アライメントのギャップを強調しています。

要約(オリジナル)

As multimodal foundational models start being deployed experimentally in Self-Driving cars, a reasonable question we ask ourselves is how similar to humans do these systems respond in certain driving situations — especially those that are out-of-distribution? To study this, we create the Robusto-1 dataset that uses dashcam video data from Peru, a country with one of the worst (aggressive) drivers in the world, a high traffic index, and a high ratio of bizarre to non-bizarre street objects likely never seen in training. In particular, to preliminarly test at a cognitive level how well Foundational Visual Language Models (VLMs) compare to Humans in Driving, we move away from bounding boxes, segmentation maps, occupancy maps or trajectory estimation to multi-modal Visual Question Answering (VQA) comparing both humans and machines through a popular method in systems neuroscience known as Representational Similarity Analysis (RSA). Depending on the type of questions we ask and the answers these systems give, we will show in what cases do VLMs and Humans converge or diverge allowing us to probe on their cognitive alignment. We find that the degree of alignment varies significantly depending on the type of questions asked to each type of system (Humans vs VLMs), highlighting a gap in their alignment.

arxiv情報

著者 Dunant Cusipuma,David Ortega,Victor Flores-Benites,Arturo Deza
発行日 2025-03-10 17:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru はコメントを受け付けていません

Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant

要約

ロボットをズームコールして家事をリモートで管理できる未来を想像してください。
この作業は、この方向に一歩を踏み出します。
ロビ・バトラーは、シームレスなマルチモーダルリモートインタラクションを可能にする新しい家庭用ロボットアシスタントです。
これにより、人間のユーザーは、一人称ビューから環境を監視し、音声またはテキストコマンドを発行し、手指のジェスチャーを介してターゲットオブジェクトを指定できます。
コアでは、大規模な言語モデル(LLMS)を搭載した高レベルの動作モジュールが、マルチモーダル命令を解釈してマルチステップアクションプランを生成します。
各プランは、ビジョン言語モデルによってサポートされているオープンボキャブラリープリミティブで構成されており、ロボットがテキスト入力とジェスチャー入力の両方を処理できるようにします。
Zoomは、人間とロボットの間にリモートの相互作用を実装するための便利なインターフェイスを提供します。
これらのコンポーネントを統合することで、Robi Butlerが現実世界のホーム環境でリモートマルチモーダル命令をゼロショットで接地できます。
さまざまな家庭用タスクでシステムを評価し、複雑なユーザーコマンドをマルチモーダル入力で実行する能力を実証しました。
また、マルチモーダルの相互作用がリモートの人間とロボットの相互作用におけるユーザーエクスペリエンスにどのように影響するかを調べるために、ユーザー調査を実施しました。
これらの結果は、Robot Foundationモデルの進歩により、遠隔地の家庭用ロボットアシスタントの現実に近づいていることを示唆しています。

要約(オリジナル)

Imagine a future when we can Zoom-call a robot to manage household chores remotely. This work takes one step in this direction. Robi Butler is a new household robot assistant that enables seamless multimodal remote interaction. It allows the human user to monitor its environment from a first-person view, issue voice or text commands, and specify target objects through hand-pointing gestures. At its core, a high-level behavior module, powered by Large Language Models (LLMs), interprets multimodal instructions to generate multistep action plans. Each plan consists of open-vocabulary primitives supported by vision-language models, enabling the robot to process both textual and gestural inputs. Zoom provides a convenient interface to implement remote interactions between the human and the robot. The integration of these components allows Robi Butler to ground remote multimodal instructions in real-world home environments in a zero-shot manner. We evaluated the system on various household tasks, demonstrating its ability to execute complex user commands with multimodal inputs. We also conducted a user study to examine how multimodal interaction influences user experiences in remote human-robot interaction. These results suggest that with the advances in robot foundation models, we are moving closer to the reality of remote household robot assistants.

arxiv情報

著者 Anxing Xiao,Nuwan Janaka,Tianrun Hu,Anshul Gupta,Kaixin Li,Cunjun Yu,David Hsu
発行日 2025-03-10 06:00:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Robi Butler: Multimodal Remote Interaction with a Household Robot Assistant はコメントを受け付けていません

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

要約

事前に訓練されたビジョンモデル(PVM)は、最新のロボット工学の基本ですが、最適な構成は不明のままです。
体系的な評価を通じて、ディノとイボットは視覚運動制御および知覚タスク全体でMAEを上回る一方で、非(単一)オブジェクト中心(NOC)データで訓練されたときに苦労していることがわかります。
この調査は、非オブジェクト中心のロボット工学データセットからオブジェクト中心の表現を形成する能力がPVMの成功の鍵であることを示しています。
この発見に動機付けられた私たちは、セマンティックボトルネックを導入してオブジェクト中心のボトルネックを導入して、オブジェクトの出現とマルチビューの不変性を促進するためのクロスビューの一貫性の正規化を促進することにより、オブジェクト中心の表現を誘導する方法を設計しました。
私たちの実験には、オブジェクト中心、シーン中心、Webがクロールされた、自我中心のデータに関するトレーニング前の実験が含まれます。
すべての設定で、私たちのアプローチは転送可能な表現を学習し、画像認識、シーンの理解、およびロボット学習評価の以前の作業よりも大幅な改善を達成します。
百万スケールのデータセットで拡大すると、この方法は優れたデータ効率とスケーラビリティも示します。
私たちのコードとモデルは、https://github.com/cvmi-lab/slotmimで公開されています。

要約(オリジナル)

Pre-trained vision models (PVMs) are fundamental to modern robotics, yet their optimal configuration remains unclear. Through systematic evaluation, we find that while DINO and iBOT outperform MAE across visuomotor control and perception tasks, they struggle when trained on non-(single-)object-centric (NOC) data–a limitation strongly correlated with their diminished ability to learn object-centric representations. This investigation indicates that the ability to form object-centric representations from the non-object-centric robotics dataset is the key to success for PVMs. Motivated by this discovery, we designed SlotMIM, a method that induces object-centric representations by introducing a semantic bottleneck to reduce the number of prototypes to encourage the emergence of objectness as well as cross-view consistency regularization for encouraging multiview invariance. Our experiments encompass pre-training on object-centric, scene-centric, web-crawled, and ego-centric data. Across all settings, our approach learns transferrable representations and achieves significant improvements over prior work in image recognition, scene understanding, and robot learning evaluations. When scaled up with million-scale datasets, our method also demonstrates superior data efficiency and scalability. Our code and models are publicly available at https://github.com/CVMI-Lab/SlotMIM.

arxiv情報

著者 Xin Wen,Bingchen Zhao,Yilun Chen,Jiangmiao Pang,Xiaojuan Qi
発行日 2025-03-10 06:18:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning はコメントを受け付けていません

Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

要約

海上マルチシーン認識は、特に海洋保護、環境監視、災害対応などの用途で、インテリジェントな海洋ロボット工学の能力を高めるために重要です。
ただし、このタスクは、海洋条件が画質を分解する環境干渉と、正確な認識のためのより深い推論が必要な海上シーンの複雑さのために大きな課題を提示します。
純粋なビジョンモデルだけでは、これらの問題に対処するには不十分です。
これらの制限を克服するために、画像データ、テキストの説明、およびマルチモーダル大手言語モデル(MLLM)によって生成された分類ベクターを統合する新しいマルチモーダル人工知能(AI)フレームワークを提案し、より豊かなセマンティック理解を提供し、認識の精度を改善します。
私たちのフレームワークは、複雑な海上環境でのモデルの堅牢性と適応性をさらに高めるために、効率的なマルチモーダル融合メカニズムを採用しています。
実験結果は、私たちのモデルが98 $ \%$の精度を達成し、以前のSOTAモデルを3.5 $ \%$を超えることを示しています。
リソース制約のあるプラットフォームでの展開を最適化するために、アクティベーションアウェア重量量子化(AWQ)を軽量技術として採用し、計算オーバーヘッドを大幅に低下させながら、0.5 $ \%$ $の精度低下でモデルサイズを68.75MBに削減します。
この作業は、リアルタイムの海上シーン認識のための高性能ソリューションを提供し、リソースに制限された設定での環境監視と災害対応をサポートする自律的な地表車(ASV)を可能にします。

要約(オリジナル)

Maritime Multi-Scene Recognition is crucial for enhancing the capabilities of intelligent marine robotics, particularly in applications such as marine conservation, environmental monitoring, and disaster response. However, this task presents significant challenges due to environmental interference, where marine conditions degrade image quality, and the complexity of maritime scenes, which requires deeper reasoning for accurate recognition. Pure vision models alone are insufficient to address these issues. To overcome these limitations, we propose a novel multimodal Artificial Intelligence (AI) framework that integrates image data, textual descriptions and classification vectors generated by a Multimodal Large Language Model (MLLM), to provide richer semantic understanding and improve recognition accuracy. Our framework employs an efficient multimodal fusion mechanism to further enhance model robustness and adaptability in complex maritime environments. Experimental results show that our model achieves 98$\%$ accuracy, surpassing previous SOTA models by 3.5$\%$. To optimize deployment on resource-constrained platforms, we adopt activation-aware weight quantization (AWQ) as a lightweight technique, reducing the model size to 68.75MB with only a 0.5$\%$ accuracy drop while significantly lowering computational overhead. This work provides a high-performance solution for real-time maritime scene recognition, enabling Autonomous Surface Vehicles (ASVs) to support environmental monitoring and disaster response in resource-limited settings.

arxiv情報

著者 Xinyu Xi,Hua Yang,Shentai Zhang,Yijie Liu,Sijin Sun,Xiuju Fu
発行日 2025-03-10 06:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition はコメントを受け付けていません

Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark

要約

大幅な進歩にもかかわらず、自律駆動システムは、単一視点センシングの固有の制限により、閉塞されたオブジェクトと長距離検出に苦労し続けています。
空中協力は、UAVの航空ビューを地上車両のローカル観測と統合することにより、有望なソリューションを提供します。
ただし、この新興分野の進捗は、パブリックデータセットと標準化された評価ベンチマークがないことにより妨げられています。
To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation
現実的なUAVダイナミクスのため。
(2)通信効率、潜在耐性、高度適応性を評価するためのプロトコルを含む、航空地面の協調的検出および追跡タスクのための統一されたベンチマークフレームワーク。
(3)アジャイルは、クエリベースの相互作用を通じてクロスビューの特徴を動的に整列させ、通信オーバーヘッドと知覚精度の有利なバランスを達成するインスタンスレベルの中間融合ベースラインです。
広範な実験は、航空機の協同組合の認識の有効性を証明し、さらなる研究の方向を実証します。
データセットとコードは、https://github.com/wang-jh18-svm/griffinで入手できます。

要約(オリジナル)

Despite significant advancements, autonomous driving systems continue to struggle with occluded objects and long-range detection due to the inherent limitations of single-perspective sensing. Aerial-ground cooperation offers a promising solution by integrating UAVs’ aerial views with ground vehicles’ local observations. However, progress in this emerging field has been hindered by the absence of public datasets and standardized evaluation benchmarks. To address this gap, this paper presents a comprehensive solution for aerial-ground cooperative 3D perception through three key contributions: (1) Griffin, a large-scale multi-modal dataset featuring over 200 dynamic scenes (30k+ frames) with varied UAV altitudes (20-60m), diverse weather conditions, and occlusion-aware 3D annotations, enhanced by CARLA-AirSim co-simulation for realistic UAV dynamics; (2) A unified benchmarking framework for aerial-ground cooperative detection and tracking tasks, including protocols for evaluating communication efficiency, latency tolerance, and altitude adaptability; (3) AGILE, an instance-level intermediate fusion baseline that dynamically aligns cross-view features through query-based interaction, achieving an advantageous balance between communication overhead and perception accuracy. Extensive experiments prove the effectiveness of aerial-ground cooperative perception and demonstrate the direction of further research. The dataset and codes are available at https://github.com/wang-jh18-SVM/Griffin.

arxiv情報

著者 Jiahao Wang,Xiangyu Cao,Jiaru Zhong,Yuner Zhang,Haibao Yu,Lei He,Shaobing Xu
発行日 2025-03-10 07:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark はコメントを受け付けていません

Parametric Value Approximation for General-sum Differential Games with State Constraints

要約

一般的な微分ゲームは、情報が不完全な場合に効率的な推論のためのハミルトン・ジャコビ・イサクス(HJI)方程式によって解決される値を近似できます。
ただし、従来の方法でそのようなゲームを解決することは、次元(COD)の呪いに遭遇します。
物理学に基づいたニューラルネットワーク(PINN)は、CODと近似値を軽減するためのスケーラブルなアプローチを提供しますが、状態の制約が特に安全性が批判的なアプリケーションで大きなリプシッツ定数を持つ値につながる場合、バニラPINNを介した値近似に収束の問題が存在します。
CODのアドレス指定に加えて、特定のプレーヤータイプの構成ごとに複数のゲームをトレーニングするのではなく、ゲームのパラメトリックスペースで一般化可能な値を学習する必要があります。
これらの課題を克服するために、ハイブリッドニューラルオペレーター(HNO)を提案します。これは、ゲームのパラメーター関数をマッピングして関数を評価できるオペレーターです。
HNOは、モデル改良のための空間的空間空間全体にわたって有益な監視されたデータとサンプルPDE駆動型データを活用します。
非線形ダイナミクスと状態制約を備えた9Dおよび13DシナリオでHNOを評価し、それを監視されたニューラル演算子(Deeponetのバリアント)と比較します。
同じ計算予算とトレーニングデータの下で、HNOは安全性能のためにSNOを上回ります。
この作業は、複雑なヒトロボットまたはマルチエージェント相互作用のリアルタイム推論を可能にするスケーラブルで一般化可能な値関数近似に向けたステップを提供します。

要約(オリジナル)

General-sum differential games can approximate values solved by Hamilton-Jacobi-Isaacs (HJI) equations for efficient inference when information is incomplete. However, solving such games through conventional methods encounters the curse of dimensionality (CoD). Physics-informed neural networks (PINNs) offer a scalable approach to alleviate the CoD and approximate values, but there exist convergence issues for value approximations through vanilla PINNs when state constraints lead to values with large Lipschitz constants, particularly in safety-critical applications. In addition to addressing CoD, it is necessary to learn a generalizable value across a parametric space of games, rather than training multiple ones for each specific player-type configuration. To overcome these challenges, we propose a Hybrid Neural Operator (HNO), which is an operator that can map parameter functions for games to value functions. HNO leverages informative supervised data and samples PDE-driven data across entire spatial-temporal space for model refinement. We evaluate HNO on 9D and 13D scenarios with nonlinear dynamics and state constraints, comparing it against a Supervised Neural Operator (a variant of DeepONet). Under the same computational budget and training data, HNO outperforms SNO for safety performance. This work provides a step toward scalable and generalizable value function approximation, enabling real-time inference for complex human-robot or multi-agent interactions.

arxiv情報

著者 Lei Zhang,Mukesh Ghimire,Wenlong Zhang,Zhe Xu,Yi Ren
発行日 2025-03-10 07:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Parametric Value Approximation for General-sum Differential Games with State Constraints はコメントを受け付けていません

Physics-informed Neural Network Predictive Control for Quadruped Locomotion

要約

この研究では、オンラインペイロード識別ベースの物理学に基づいたニューラルネットワーク予測制御(OPI-PINNPC)と名付けられた、未知のペイロードを使用した正確な四足動力の課題に対処する統一された制御フレームワークを紹介します。
オンラインペイロード識別を物理学に基づいたニューラルネットワーク(PINN)と統合することにより、このアプローチは、識別された質量パラメーターをニューラルネットワークの損失関数に直接埋め込み、負荷条件の変化に適応しながら物理的な一貫性を確保します。
物理的に制約された神経表現は、非線形モデル予測コントローラー内の効率的な代理モデルとして機能し、足の移動の複雑なダイナミクスにもかかわらずリアルタイムの最適化を可能にします。
四足動物プラットフォームでの実験的検証は、多様なペイロード条件(25〜100 kg)にわたって位置と方向追跡の精度が35%改善され、以前の適応制御方法と比較して大幅に速い収束を示しています。
私たちのフレームワークは、計算効率を犠牲にすることなく、可変ペイロード条件下で移動性能を維持するための適応ソリューションを提供します。

要約(オリジナル)

This study introduces a unified control framework that addresses the challenge of precise quadruped locomotion with unknown payloads, named as online payload identification-based physics-informed neural network predictive control (OPI-PINNPC). By integrating online payload identification with physics-informed neural networks (PINNs), our approach embeds identified mass parameters directly into the neural network’s loss function, ensuring physical consistency while adapting to changing load conditions. The physics-constrained neural representation serves as an efficient surrogate model within our nonlinear model predictive controller, enabling real-time optimization despite the complex dynamics of legged locomotion. Experimental validation on our quadruped robot platform demonstrates 35% improvement in position and orientation tracking accuracy across diverse payload conditions (25-100 kg), with substantially faster convergence compared to previous adaptive control methods. Our framework provides a adaptive solution for maintaining locomotion performance under variable payload conditions without sacrificing computational efficiency.

arxiv情報

著者 Haolin Li,Yikang Chai,Bailin Lv,Lecheng Ruan,Hang Zhao,Ye Zhao,Jianwen Luo
発行日 2025-03-10 07:19:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Physics-informed Neural Network Predictive Control for Quadruped Locomotion はコメントを受け付けていません

Offline Adaptation of Quadruped Locomotion using Diffusion Models

要約

複数のスキルと(モード)との間の学習と補間の制限に同時に対処し、トレーニング後に新しい移動行動に適応する(モード)補間に対処する四角形の移動に対する拡散ベースのアプローチを提示します。
これは、四足動力に分類器を使用していない誘導拡散を適用し、元々の非標識データセットから目標条件付けされた動作を抽出することにより、その有効性を実証する最初のフレームワークです。
これらの機能は、マルチスキルポリシーと互換性があり、ほとんど変更と最小限のコンピューティングオーバーヘッドで適用できることを示しています。
Anymal四足動物プラットフォームでのハードウェア実験でアプローチの妥当性を検証します。

要約(オリジナル)

We present a diffusion-based approach to quadrupedal locomotion that simultaneously addresses the limitations of learning and interpolating between multiple skills and of (modes) offline adapting to new locomotion behaviours after training. This is the first framework to apply classifier-free guided diffusion to quadruped locomotion and demonstrate its efficacy by extracting goal-conditioned behaviour from an originally unlabelled dataset. We show that these capabilities are compatible with a multi-skill policy and can be applied with little modification and minimal compute overhead, i.e., running entirely on the robots onboard CPU. We verify the validity of our approach with hardware experiments on the ANYmal quadruped platform.

arxiv情報

著者 Reece O’Mahoney,Alexander L. Mitchell,Wanming Yu,Ingmar Posner,Ioannis Havoutis
発行日 2025-03-10 07:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Offline Adaptation of Quadruped Locomotion using Diffusion Models はコメントを受け付けていません