要約
反事実生成は、画像翻訳や制御可能なテキスト生成など、さまざまな機械学習タスクの中核にあります。
この生成プロセスでは通常、観察されたデータの基礎となるコンテンツやスタイルなど、もつれが解けた潜在表現を特定する必要があります。
ただし、ペアになったデータとラベル付け情報が不足している場合は、さらに困難になります。
既存の解きほぐし手法は、たとえそのような仮定が複雑なデータ分布には当てはまらないとしても、潜在変数を特定するために、独立したコンテンツとスタイル変数を仮定するなど、過度に単純化された仮定に大きく依存しています。
たとえば、食べ物のレビューにはおいしいなどの単語が含まれる傾向がありますが、映画のレビューには同じポジティブな感情に対してスリリングななどの単語が含まれるのが一般的です。
コンテンツとスタイルの間の依存関係はドメインによって大幅に異なる可能性があるため、データが複数のドメインからサンプリングされる場合、この問題はさらに悪化します。
この研究では、反事実生成タスクに固有のコンテンツとスタイル変数間のドメイン変化依存性に取り組みます。
私たちは、さまざまな潜在変数からの影響の相対的な希薄性を活用することで、このような潜在変数モデルの識別保証を提供します。
私たちの理論的洞察により、(MATTE) と呼ばれる doMain AdapTive CounTerfactual gEneration モデルの開発が可能になります。
理論に基づいたフレームワークは、4 つの大規模なデータセットにわたって、ペア データもスタイル ラベルも利用されない教師なしスタイル転送タスクで最先端のパフォーマンスを実現します。
コードは https://github.com/hanqi-qi/Matte.git で入手できます。
要約(オリジナル)
Counterfactual generation lies at the core of various machine learning tasks, including image translation and controllable text generation. This generation process usually requires the identification of the disentangled latent representations, such as content and style, that underlie the observed data. However, it becomes more challenging when faced with a scarcity of paired data and labeling information. Existing disentangled methods crucially rely on oversimplified assumptions, such as assuming independent content and style variables, to identify the latent variables, even though such assumptions may not hold for complex data distributions. For instance, food reviews tend to involve words like tasty, whereas movie reviews commonly contain words such as thrilling for the same positive sentiment. This problem is exacerbated when data are sampled from multiple domains since the dependence between content and style may vary significantly over domains. In this work, we tackle the domain-varying dependence between the content and the style variables inherent in the counterfactual generation task. We provide identification guarantees for such latent-variable models by leveraging the relative sparsity of the influences from different latent variables. Our theoretical insights enable the development of a doMain AdapTive counTerfactual gEneration model, called (MATTE). Our theoretically grounded framework achieves state-of-the-art performance in unsupervised style transfer tasks, where neither paired data nor style labels are utilized, across four large-scale datasets. Code is available at https://github.com/hanqi-qi/Matte.git
arxiv情報
著者 | Hanqi Yan,Lingjing Kong,Lin Gui,Yuejie Chi,Eric Xing,Yulan He,Kun Zhang |
発行日 | 2024-02-23 13:24:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google