Environment as Policy: Learning to Race in Unseen Tracks

要約

Renforce Learning(RL)は、RLエージェントが既知のレーシングトラックで人間のチャンピオンよりも優れているドローンレースなど、複雑なロボット制御タスクで顕著な成功を収めています。
ただし、これらのエージェントは目に見えないトラック構成で失敗し、新しいトラックレイアウトを提示する場合は常に完全な再訓練が必要です。
この作業は、再訓練なしで新しいトラック構成に効果的に一般化するRLエージェントを開発することを目的としています。
トラックレイアウトの多様なセットで直接トレーニングする素朴なソリューションは、エージェントに負担をかける可能性があり、環境の複雑さの増加がエージェントの飛行を学ぶ能力を損なうため、最適ではない政策学習をもたらす可能性があります。
RLエージェントの一般化可能性を高めるために、エージェントのパフォーマンスに基づいてトレーニング環境を動的に調整する適応環境形成フレームワークを提案します。
これを達成し、二次RLポリシーを活用して、挑戦的で達成可能であることとのバランスをとる環境を設計し、エージェントが徐々に適応して改善できるようにします。
適応環境の形成を使用して、1つの単一のレースポリシーが、多様な挑戦的なトラックでのレースを効率的に学習します。
シミュレーションと現実世界の両方で検証された実験結果は、ドローンが複雑で目に見えないレーストラックをうまく飛ばし、既存の環境形成技術を上回ることができることを示しています。
プロジェクトページ:http://rpg.ifi.uzh.ch/env_as_policy。

要約(オリジナル)

Reinforcement learning (RL) has achieved outstanding success in complex robot control tasks, such as drone racing, where the RL agents have outperformed human champions in a known racing track. However, these agents fail in unseen track configurations, always requiring complete retraining when presented with new track layouts. This work aims to develop RL agents that generalize effectively to novel track configurations without retraining. The naive solution of training directly on a diverse set of track layouts can overburden the agent, resulting in suboptimal policy learning as the increased complexity of the environment impairs the agent’s ability to learn to fly. To enhance the generalizability of the RL agent, we propose an adaptive environment-shaping framework that dynamically adjusts the training environment based on the agent’s performance. We achieve this by leveraging a secondary RL policy to design environments that strike a balance between being challenging and achievable, allowing the agent to adapt and improve progressively. Using our adaptive environment shaping, one single racing policy efficiently learns to race in diverse challenging tracks. Experimental results validated in both simulation and the real world show that our method enables drones to successfully fly complex and unseen race tracks, outperforming existing environment-shaping techniques. Project page: http://rpg.ifi.uzh.ch/env_as_policy.

arxiv情報

著者 Hongze Wang,Jiaxu Xing,Nico Messikommer,Davide Scaramuzza
発行日 2025-03-17 14:11:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Environment as Policy: Learning to Race in Unseen Tracks はコメントを受け付けていません

Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers

要約

感情は口頭でのコミュニケーションにおいて不可欠な要素であるため、人間とロボットの相互作用(HRI)中に個人の影響を理解することが不可欠です。
このペーパーでは、HRIの音声感情認識(SER)のために、VIT(Vision Transformers)とBEIT(Image TransformersのBert Pre-Training)パイプラインの適用を調査します。
焦点は、ベンチマークデータセットでこれらのモデルを微調整し、アンサンブルメソッドを悪用することにより、個々の音声特性のSERモデルを一般化することです。
この目的のために、NAOロボットとの擬似自然主義的な会話をしているさまざまな人間の被験者からオーディオデータを収集しました。
次に、VITおよびBEITベースのモデルを微調整し、参加者から目に見えない音声サンプルでこれらのモデルをテストしました。
結果では、ベンチマークデータセットで微調整されたビジョントランスが、これらのすでに微調整されたモデルまたはアンサンミングVIT/BEITモデルのいずれかを使用すると、スピーチから4つの主要な感情を特定する際に、個人あたりの最高の分類精度が得られることを示します。

要約(オリジナル)

Emotions are an essential element in verbal communication, so understanding individuals’ affect during a human-robot interaction (HRI) becomes imperative. This paper investigates the application of vision transformer models, namely ViT (Vision Transformers) and BEiT (BERT Pre-Training of Image Transformers) pipelines, for Speech Emotion Recognition (SER) in HRI. The focus is to generalize the SER models for individual speech characteristics by fine-tuning these models on benchmark datasets and exploiting ensemble methods. For this purpose, we collected audio data from different human subjects having pseudo-naturalistic conversations with the NAO robot. We then fine-tuned our ViT and BEiT-based models and tested these models on unseen speech samples from the participants. In the results, we show that fine-tuning vision transformers on benchmark datasets and and then using either these already fine-tuned models or ensembling ViT/BEiT models gets us the highest classification accuracies per individual when it comes to identifying four primary emotions from their speech: neutral, happy, sad, and angry, as compared to fine-tuning vanilla-ViTs or BEiTs.

arxiv情報

著者 Ruchik Mishra,Andrew Frye,Madan Mohan Rayguru,Dan O. Popa
発行日 2025-03-17 14:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO, cs.SD, eess.AS | Personalized Speech Emotion Recognition in Human-Robot Interaction using Vision Transformers はコメントを受け付けていません

MindEye-OmniAssist: A Gaze-Driven LLM-Enhanced Assistive Robot System for Implicit Intention Recognition and Task Execution

要約

支援ロボットシステムにおける有望な効果的な人間とロボットの相互作用は、視線ベースの制御です。
ただし、現在の視線ベースの支援システムは、主に基本的な把握アクションをユーザーに支援し、限られたサポートを提供します。
さらに、制限された意図認識能力は、多様な支援機能を提供する支援システムの能力を制約します。
このホワイトペーパーでは、大規模な言語モデル(LLM)とVision Foundationモデル(VFM)を搭載したオープンな暗黙的意図認識フレームワークを提案します。これにより、入力を注視し、定義または特定のシナリオに限定されないユーザーの意図を認識できます。
さらに、視線駆動型のLLM強化支援ロボットシステム(Mindeye-Omniassist)を実装し、視線を通してユーザーの意図を認識し、タスクの完了を支援します。
これを達成するために、システムはオープンボキャブラリーオブジェクト検出器、意図認識ネットワーク、およびLLMを利用して、完全な意図を推測します。
眼球運動のフィードバックとLLMを統合することにより、アクションシーケンスを生成して、ユーザーがタスクの完了を支援します。
現実世界の実験は支援タスクのために実施されており、システムはさまざまな未定義のタスクで41/55の全体的な成功率を達成しました。
予備的な結果は、提案された方法が、より複雑で多様なタスクをサポートすることにより、よりユーザーフレンドリーなヒューマンコンピューター相互作用インターフェイスを提供し、支援システムの汎用性と有効性を大幅に向上させる可能性を示していることを示しています。

要約(オリジナル)

A promising effective human-robot interaction in assistive robotic systems is gaze-based control. However, current gaze-based assistive systems mainly help users with basic grasping actions, offering limited support. Moreover, the restricted intent recognition capability constrains the assistive system’s ability to provide diverse assistance functions. In this paper, we propose an open implicit intention recognition framework powered by Large Language Model (LLM) and Vision Foundation Model (VFM), which can process gaze input and recognize user intents that are not confined to predefined or specific scenarios. Furthermore, we implement a gaze-driven LLM-enhanced assistive robot system (MindEye-OmniAssist) that recognizes user’s intentions through gaze and assists in completing task. To achieve this, the system utilizes open vocabulary object detector, intention recognition network and LLM to infer their full intentions. By integrating eye movement feedback and LLM, it generates action sequences to assist the user in completing tasks. Real-world experiments have been conducted for assistive tasks, and the system achieved an overall success rate of 41/55 across various undefined tasks. Preliminary results show that the proposed method holds the potential to provide a more user-friendly human-computer interaction interface and significantly enhance the versatility and effectiveness of assistive systems by supporting more complex and diverse task.

arxiv情報

著者 Zejia Zhang,Bo Yang,Xinxing Chen,Weizhuang Shi,Haoyuan Wang,Wei Luo,Jian Huang
発行日 2025-03-17 15:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | MindEye-OmniAssist: A Gaze-Driven LLM-Enhanced Assistive Robot System for Implicit Intention Recognition and Task Execution はコメントを受け付けていません

Digital Beamforming Enhanced Radar Odometry

要約

レーダーは、特にカメラとライダーセンサーが故障する挑戦的な環境では、自律的なナビゲーションに不可欠なセンサーになりました。
特に、4Dシングルチップミリ波レーダーシステムは、ハードウェアコストと消費電力を低くして空間情報とドップラー情報を提供する能力のおかげで、注目を集めています。
ただし、高速フーリエ変換など、従来の信号処理を使用したほとんどのシングルチップレーダーシステムは、レーダー検出における空間分解能が限られており、レーダーベースの匂い測定と同時ローカリゼーションとマッピング(SLAM)システムの性能を大幅に制限します。
このホワイトペーパーでは、空間ドメインビームフォーミング技術を統合する新しいレーダー信号処理パイプラインを開発し、3D到着推定方向に拡張します。
パブリックデータセットを使用した実験は、提案された信号処理パイプラインのパフォーマンスを従来の方法論と比較して比較するために実施されます。
これらのテストは、さまざまなシーン全体で構造的精度を評価し、異なるレーダー臭トメトリシステムでの延長の精度を測定することに特に焦点を当てています。
この研究は、標準のFFTベースの処理を提案されたパイプラインに置き換えるだけで、より正確なレーダー臭気を達成する可能性を実現する可能性を示しています。
コードはgithub*で入手できます。

要約(オリジナル)

Radar has become an essential sensor for autonomous navigation, especially in challenging environments where camera and LiDAR sensors fail. 4D single-chip millimeter-wave radar systems, in particular, have drawn increasing attention thanks to their ability to provide spatial and Doppler information with low hardware cost and power consumption. However, most single-chip radar systems using traditional signal processing, such as Fast Fourier Transform, suffer from limited spatial resolution in radar detection, significantly limiting the performance of radar-based odometry and Simultaneous Localization and Mapping (SLAM) systems. In this paper, we develop a novel radar signal processing pipeline that integrates spatial domain beamforming techniques, and extend it to 3D Direction of Arrival estimation. Experiments using public datasets are conducted to evaluate and compare the performance of our proposed signal processing pipeline against traditional methodologies. These tests specifically focus on assessing structural precision across diverse scenes and measuring odometry accuracy in different radar odometry systems. This research demonstrates the feasibility of achieving more accurate radar odometry by simply replacing the standard FFT-based processing with the proposed pipeline. The codes are available at GitHub*.

arxiv情報

著者 Jingqi Jiang,Shida Xu,Kaicheng Zhang,Jiyuan Wei,Jingyang Wang,Sen Wang
発行日 2025-03-17 15:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP | Digital Beamforming Enhanced Radar Odometry はコメントを受け付けていません

A Generalized Control Revision Method for Autonomous Driving Safety

要約

安全性は、自動運転車の最も重要な課題の1つであり、安全性を保証するためのソリューションの1つは、計画バックボーン後に追加の制御リビジョンモジュールを使用することです。
制御バリア関数(CBF)は、安全性に関する数学的基盤が強いため、広く使用されています。
ただし、不均一な知覚データとの非互換性と、トラフィックシーン要素の不完全な考慮により、既存のシステムを動的で複雑な現実世界のシナリオに適用するのが難しくなります。
この研究では、自動運転の安全性のための一般化された制御修正方法を導入します。これは、ベクトル化された知覚と占有グリッドマップの両方を入力として採用し、新しい提案されたバリア機能に基づいて複数のタイプのトラフィックシーンの制約を包括的にモデル化します。
トラフィック要素は、特定のシナリオ設定またはルールから切り離された1つの統一されたフレームワークに統合されます。
カーラ、SUMO、およびオンサイトシミュレーターの実験は、提案されたアルゴリズムが複雑なシーンで安全な制御修正を実現し、さまざまな計画バックボーン、道路トポロジ、リスクタイプに適応できることを証明しています。
物理プラットフォームの検証は、実際のアプリケーションの実現可能性も検証します。

要約(オリジナル)

Safety is one of the most crucial challenges of autonomous driving vehicles, and one solution to guarantee safety is to employ an additional control revision module after the planning backbone. Control Barrier Function (CBF) has been widely used because of its strong mathematical foundation on safety. However, the incompatibility with heterogeneous perception data and incomplete consideration of traffic scene elements make existing systems hard to be applied in dynamic and complex real-world scenarios. In this study, we introduce a generalized control revision method for autonomous driving safety, which adopts both vectorized perception and occupancy grid map as inputs and comprehensively models multiple types of traffic scene constraints based on a new proposed barrier function. Traffic elements are integrated into one unified framework, decoupled from specific scenario settings or rules. Experiments on CARLA, SUMO, and OnSite simulator prove that the proposed algorithm could realize safe control revision under complicated scenes, adapting to various planning backbones, road topologies, and risk types. Physical platform validation also verifies the real-world application feasibility.

arxiv情報

著者 Zehang Zhu,Yuning Wang,Tianqi Ke,Zeyu Han,Shaobing Xu,Qing Xu,John M. Dolan,Jianqiang Wang
発行日 2025-03-17 15:13:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | A Generalized Control Revision Method for Autonomous Driving Safety はコメントを受け付けていません

Simultaneous Ground Reaction Force and State Estimation via Constrained Moving Horizon Estimation

要約

正確な地上反力(GRF)推定により、さまざまな現実世界の用途での脚のロボットの適応性が大幅に向上する可能性があります。
たとえば、推定GRFおよび接触運動学により、移動制御と計画は、ロボットが不確実な地形を克服するのを支援します。
非線形オブザーバーとして定式化された標準的な運動量ベースの方法は、騒々しい測定と浮遊塩基状態と一般化運動量のダイナミクス間の依存性に完全に対処しないでください。
このホワイトペーパーでは、脚のロボットの同時地面反力と状態推定フレームワークを紹介します。これは、センサーノイズと状態とダイナミクス間の結合に体系的に対処します。
フローティングベースの向きを別々に推定すると、ロボットダイナミクス、固有受容センサー、外部受容センサー、および決定論的な接触相補性の制約を融合して燃料窓の最適化に融合するために、分散化された移動ホリズン推定(MHE)メソッドが実装されています。
提案された方法は、カスタム設計のヒューマノイドロボットバッキー、オープンソースの教育的平面上二足歩行ロボットストライド、および四重類のロボット単位GO1を含む、カスタム設計のヒューマノイドロボットバッキー、200Hzの頻度と0.04sの過去の時間枠を含む、いくつかの脚のロボットに正確なGRFと状態推定を提供できることが示されています。

要約(オリジナル)

Accurate ground reaction force (GRF) estimation can significantly improve the adaptability of legged robots in various real-world applications. For instance, with estimated GRF and contact kinematics, the locomotion control and planning assist the robot in overcoming uncertain terrains. The canonical momentum-based methods, formulated as nonlinear observers, do not fully address the noisy measurements and the dependence between floating-base states and the generalized momentum dynamics. In this paper, we present a simultaneous ground reaction force and state estimation framework for legged robots, which systematically addresses the sensor noise and the coupling between states and dynamics. With the floating base orientation estimated separately, a decentralized Moving Horizon Estimation (MHE) method is implemented to fuse the robot dynamics, proprioceptive sensors, exteroceptive sensors, and deterministic contact complementarity constraints in a convex windowed optimization. The proposed method is shown to be capable of providing accurate GRF and state estimation on several legged robots, including the custom-designed humanoid robot Bucky, the open-source educational planar bipedal robot STRIDE, and the quadrupedal robot Unitree Go1, with a frequency of 200Hz and a past time window of 0.04s.

arxiv情報

著者 Jiarong Kang,Xiaobin Xiong
発行日 2025-03-17 15:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Simultaneous Ground Reaction Force and State Estimation via Constrained Moving Horizon Estimation はコメントを受け付けていません

Enhancing Robustness in Manipulability Assessment: The Pseudo-Ellipsoid Approach

要約

操作性分析は、特定の構成で、明確なシステムの能力を評価して、動きを生成したり、さまざまな方向に力を発揮したりするために採用される方法論です。
従来の方法には、システムの構成とモデルを使用して仮想楕円体を生成することが必要です。
しかし、このアプローチは、そのような情報への直接アクセスが限られている人体などのシステムに適用されると、推定への依存を必要とする場合に課題をもたらします。
これらの推定の不正確さは、楕円体の構成を歪め、操作性評価の精度を潜在的に損なう可能性があります。
この問題に対処するために、この記事では、操作可能性の擬似溶解性の概念を導入することにより、標準的なアプローチを拡張します。
一連の理論分析、シミュレーション、および実験を通じて、この記事は、提案された方法が感覚情報のノイズに対する感度を低下させ、その結果、アプローチの堅牢性を高めることを示しています。

要約(オリジナル)

Manipulability analysis is a methodology employed to assess the capacity of an articulated system, at a specific configuration, to produce motion or exert force in diverse directions. The conventional method entails generating a virtual ellipsoid using the system’s configuration and model. Yet, this approach poses challenges when applied to systems such as the human body, where direct access to such information is limited, necessitating reliance on estimations. Any inaccuracies in these estimations can distort the ellipsoid’s configuration, potentially compromising the accuracy of the manipulability assessment. To address this issue, this article extends the standard approach by introducing the concept of the manipulability pseudo-ellipsoid. Through a series of theoretical analyses, simulations, and experiments, the article demonstrates that the proposed method exhibits reduced sensitivity to noise in sensory information, consequently enhancing the robustness of the approach.

arxiv情報

著者 Erfan Shahriari,Kim Kirstin Peper,Matej Hoffmann,Sami Haddadin
発行日 2025-03-17 16:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, I.2.9 | Enhancing Robustness in Manipulability Assessment: The Pseudo-Ellipsoid Approach はコメントを受け付けていません

Artificial Spacetimes for Reactive Control of Resource-Limited Robots

要約

フィールドベースのリアルティブコントロールは、オンボード計算を欠くロボットをガイドするロボットへのミニマリストで分散型のルートを提供します。
このようなスキームは、マイクロボットなどのリソース制限マシンに適していますが、実装アーティファクト、限られた行動、および正式な保証の頻繁な不足が鈍い採用です。
ここでは、人工時空と呼ばれる新しい幾何学的アプローチでこれらの課題に対処します。
コントロールフィールドをナビゲートする反応性ロボットが、一般相対性理論の光線と同じダイナミクスに従うことを示します。
この驚くべきつながりにより、制御分野を構築および分析するために、相対性と光学系からのテクニックを採用することができます。
実装された場合、人工空間は構造化された環境を中心にロボットをガイドし、同時に境界を避け、ラリーやソートなどのタスクを実行します。
これらの機能は、ロボットが何をするかを分析するための正式なツールで補強し、シリコンベースのマイクロボットで実験的検証を提供します。
組み合わせて、この作業は、最小限のオーバーヘッドで構成されたロボットの動作を生成するための新しいフレームワークを提供します。

要約(オリジナル)

Field-based reactive control provides a minimalist, decentralized route to guiding robots that lack onboard computation. Such schemes are well suited to resource-limited machines like microrobots, yet implementation artifacts, limited behaviors, and the frequent lack of formal guarantees blunt adoption. Here, we address these challenges with a new geometric approach called artificial spacetimes. We show that reactive robots navigating control fields obey the same dynamics as light rays in general relativity. This surprising connection allows us to adopt techniques from relativity and optics for constructing and analyzing control fields. When implemented, artificial spacetimes guide robots around structured environments, simultaneously avoiding boundaries and executing tasks like rallying or sorting, even when the field itself is static. We augment these capabilities with formal tools for analyzing what robots will do and provide experimental validation with silicon-based microrobots. Combined, this work provides a new framework for generating composed robot behaviors with minimal overhead.

arxiv情報

著者 William H. Reinhardt,Marc Z. Miskin
発行日 2025-03-17 16:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY, physics.app-ph | Artificial Spacetimes for Reactive Control of Resource-Limited Robots はコメントを受け付けていません

MAME: Multidimensional Adaptive Metamer Exploration with Human Perceptual Feedback

要約

人間の脳ネットワークと人工モデルの間の整合は、機械学習と神経科学で積極的に研究されています。
それらの機能的アラインメントを調査するために広く採用されているアプローチは、人間とモデルの両方のメタマーを特定することです。
メタマーは、特定のシステム内で物理的に異なるが同等の入力刺激を指します。
モデルのメタイメリック空間が人間のメタメラ空間と完全に一致した場合、モデルは人間との機能的整合を達成します。
ただし、従来の方法には、人間のメタマーを検索する直接的な方法がありません。
代わりに、研究者は最初に生物学的にインスパイアされたモデルを開発し、次にモデルメタマーも人間のメタマーとして現れるかどうかをテストすることにより、間接的にヒトメタマーについて推測します。
ここでは、多次元適応型メタマー探査(MAME)フレームワークを提案し、人間のメタメラ空間の直接高次元探査を可能にします。
MAMEは、人間の知覚フィードバックに導かれたオンライン画像生成を活用します。
具体的には、畳み込みニューラルネットワーク(CNNS)からの階層応答を活用することにより、複数の次元にわたって参照画像を変調します。
生成された画像は、行動タスクで知覚的な識別性が評価される参加者に提示されます。
参加者の応答に基づいて、その後の画像生成パラメーターはオンラインで適応的に更新されます。
MAMEフレームワークを使用して、単一の実験内で50を超える寸法の人間のメタメラ空間を測定しました。
実験結果は、画像のコントラストメトリックが説明できなかった高レベルの特徴と比較して、低レベルの特徴に基づいたメタメラ画像では人間の識別感度が低いことを示しました。
この発見は、モデルが人間の認識に不可欠ではない低レベルの情報を計算することを示唆しています。
私たちのフレームワークは、解釈可能なAIの開発と神経科学における脳機能の理解に貢献する可能性があります。

要約(オリジナル)

Alignment between human brain networks and artificial models is actively studied in machine learning and neuroscience. A widely adopted approach to explore their functional alignment is to identify metamers for both humans and models. Metamers refer to input stimuli that are physically different but equivalent within a given system. If a model’s metameric space completely matched the human metameric space, the model would achieve functional alignment with humans. However, conventional methods lack direct ways to search for human metamers. Instead, researchers first develop biologically inspired models and then infer about human metamers indirectly by testing whether model metamers also appear as metamers to humans. Here, we propose the Multidimensional Adaptive Metamer Exploration (MAME) framework, enabling direct high-dimensional exploration of human metameric space. MAME leverages online image generation guided by human perceptual feedback. Specifically, it modulates reference images across multiple dimensions by leveraging hierarchical responses from convolutional neural networks (CNNs). Generated images are presented to participants whose perceptual discriminability is assessed in a behavioral task. Based on participants’ responses, subsequent image generation parameters are adaptively updated online. Using our MAME framework, we successfully measured a human metameric space of over fifty dimensions within a single experiment. Experimental results showed that human discrimination sensitivity was lower for metameric images based on low-level features compared to high-level features, which image contrast metrics could not explain. The finding suggests that the model computes low-level information not essential for human perception. Our framework has the potential to contribute to developing interpretable AI and understanding of brain function in neuroscience.

arxiv情報

著者 Mina Kamao,Hayato Ono,Ayumu Yamashita,Kaoru Amano,Masataka Sawayama
発行日 2025-03-17 14:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MAME: Multidimensional Adaptive Metamer Exploration with Human Perceptual Feedback はコメントを受け付けていません

Standardizing Structural Causal Models

要約

構造因果モデル(SCM)によって生成された合成データセットは、一般的に因果構造学習アルゴリズムのベンチマークに使用されます。
ただし、SCMデータの分散とペアワイズ相関は、因果順序に沿って増加する傾向があります。
いくつかの一般的なアルゴリズムはこれらのアーティファクトを活用しており、おそらく実際の設定に一般化されない結論につながる可能性があります。
$ \ operatorname {var} $ – 並べ替えや$ \ operatorname {r^2} $ – ソート性などの既存のメトリックは、これらのパターンを定量化しますが、それらを改善するためのツールを提供しません。
これに対処するために、生成プロセス中に各変数で標準化操作を導入するSCMの変更である内部標準化された構造因果モデル(ISCM)を提案します。
建設により、ISCMは$ \ operatorname {var} $ – 並べ替え可能ではありません。
また、それらがほとんど$ \ operatorname {r^2} $ではないという経験的証拠も見つかります – 一般的に使用されているグラフファミリに対してソート可能です。
さらに、標準SCMによって生成されたデータの事後標準化とは反対に、線形ISCMは重みに関する事前知識から識別できず、ここで研究されているベンチマーク問題を超えた因果関係の有用なモデルになる可能性がある大規模システムの決定論的な関係から崩壊しないことが証明されています。
私たちのコードは、https://github.com/werkaaa/iscmで公開されています。

要約(オリジナル)

Synthetic datasets generated by structural causal models (SCMs) are commonly used for benchmarking causal structure learning algorithms. However, the variances and pairwise correlations in SCM data tend to increase along the causal ordering. Several popular algorithms exploit these artifacts, possibly leading to conclusions that do not generalize to real-world settings. Existing metrics like $\operatorname{Var}$-sortability and $\operatorname{R^2}$-sortability quantify these patterns, but they do not provide tools to remedy them. To address this, we propose internally-standardized structural causal models (iSCMs), a modification of SCMs that introduces a standardization operation at each variable during the generative process. By construction, iSCMs are not $\operatorname{Var}$-sortable. We also find empirical evidence that they are mostly not $\operatorname{R^2}$-sortable for commonly-used graph families. Moreover, contrary to the post-hoc standardization of data generated by standard SCMs, we prove that linear iSCMs are less identifiable from prior knowledge on the weights and do not collapse to deterministic relationships in large systems, which may make iSCMs a useful model in causal inference beyond the benchmarking problem studied here. Our code is publicly available at: https://github.com/werkaaa/iscm.

arxiv情報

著者 Weronika Ormaniec,Scott Sussex,Lars Lorch,Bernhard Schölkopf,Andreas Krause
発行日 2025-03-17 14:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Standardizing Structural Causal Models はコメントを受け付けていません