Causal Action Influence Aware Counterfactual Data Augmentation

要約

オフライン データは、ロボットに複雑な動作を教えるための貴重かつ実用的なリソースです。
理想的には、学習エージェントは利用可能なデモンストレーションの不足によって制約されるのではなく、トレーニングの分布を超えて一般化する必要があります。
ただし、現実世界のシナリオは複雑なので、通常、ニューラル ネットワーク ポリシーが偽の相関を検出したり、因果関係以外の関係を学習したりするのを防ぐために、大量のデータが必要になります。
私たちは、オンライン環境のインタラクションにアクセスすることなく、固定データセットから実行可能な合成遷移を作成できるデータ拡張手法である CAIAC を提案します。
因果関係の影響を定量化するための原則に基づいた方法を利用することで、状態空間の $\it{action}$ の影響を受けない部分をデータセット内の独立した軌跡間で交換することにより、反事実的な推論を行うことができます。
我々は、これが分布シフトに対するオフライン学習アルゴリズムの堅牢性の大幅な向上につながることを経験的に示しています。

要約(オリジナル)

Offline data are both valuable and practical resources for teaching robots complex behaviors. Ideally, learning agents should not be constrained by the scarcity of available demonstrations, but rather generalize beyond the training distribution. However, the complexity of real-world scenarios typically requires huge amounts of data to prevent neural network policies from picking up on spurious correlations and learning non-causal relationships. We propose CAIAC, a data augmentation method that can create feasible synthetic transitions from a fixed dataset without having access to online environment interactions. By utilizing principled methods for quantifying causal influence, we are able to perform counterfactual reasoning by swapping $\it{action}$-unaffected parts of the state-space between independent trajectories in the dataset. We empirically show that this leads to a substantial increase in robustness of offline learning algorithms against distributional shift.

arxiv情報

著者 Núria Armengol Urpí,Marco Bagatella,Marin Vlastelica,Georg Martius
発行日 2024-05-29 09:19:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク