Towards Causal Relationship in Indefinite Data: Baseline Model and New Datasets

要約

ディープラーニングと因果関係の発見を統合することで、対話やビデオで因果構造と表現を学習することは課題に満ちていることに気づくようになりました。
私たちはこれらのデータ形式を、複数構造のデータと複数の値の表現を特徴とする「不定データ」として定義しました。
既存の適応可能なデータ形式とは異なり、Infinity Data は依然としてデータセットとメソッドのギャップに直面しています。
データセットのギャップに対処するために、Causalogue と Causaction という 2 つの高品質データセットをリリースします。これらには、それぞれ因果関係の注釈が付いたテキスト対話サンプルとビデオ アクション サンプルが含まれています。
さらに、メソッド ギャップは、複数構造データと複数値表現の共存から生じ、現在のすべてのメソッドの前提を破り、不定データでは実行不可能になります。
この目的を達成するために、我々は、このギャップに対して設計された 3 つのハイライトを組み込んだベースラインとして確率的フレームワークを提案します: 1) 非固定因果構造の下でノイズ項の独立性を使用して表現の因果条件を確立する、2) 因果関係の強さを潜在変数として扱う
相関空間における再構成損失の測定、および 3) 潜在交絡因子の影響の推定。
これらのハイポイントにより、確率モデルは多構造データと多値表現の共存によってもたらされる課題を克服できるようになり、潜在的な交絡因子の拡張への道が開かれます。
包括的な実験により、因果構造、因果表現、交絡の解き方のベースライン結果が評価されました。

要約(オリジナル)

Integrating deep learning and causal discovery has encouraged us to spot that learning causal structures and representations in dialogue and video is full of challenges. We defined These data forms as ‘Indefinite Data’, characterized by multi-structure data and multi-value representations. Unlike existing adaptable data forms, Indefinite Data still faces gaps in datasets and methods. To address the dataset gap, we release two high-quality datasets – Causalogue and Causaction, containing text dialogue samples and video action samples with causal annotations respectively. Moreover, the method gap arises from the coexistence of multi-structure data and multi-value representations, breaking the assumptions of all current methods and rendering them infeasible on Indefinite Data. To this end, we propose a probabilistic framework as a baseline, incorporating three designed highlights for this gap: 1) establishing Causation Condition of representations using the independence of noise terms under non-fixed causal structures, 2) treating causal strength as a latent variable and measuring the reconstruction loss in the correlation space, and 3) estimating the effects of latent confounders. These highpoints make the probabilistic model capable of overcoming challenges brought by the coexistence of multi-structure data and multi-value representations and pave the way for the extension of latent confounders. Comprehensive experiments have evaluated baseline results of causal structures, causal representations, and confounding disentanglement.

arxiv情報

著者 Hang Chen,Xinyu Yang,Keqing Du
発行日 2024-01-16 09:15:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク