要約
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な信号として機能します。
このインターフェイスの重要性を認識し、機械学習コミュニティは、テキストの指示と意味的に一貫したデータを生成することに多大な労力を費やしています。
画像編集、音声合成、ビデオ作成などに及ぶテキストからデータへの生成は進歩しましたが、高価な注釈や、分子、運動ダイナミクス、時系列などの複雑なデータ構造を特徴とする低リソース領域は、多くの場合、
テキストラベルがありません。
この欠陥により教師あり学習が妨げられ、テキストからデータへのタスクに対する高度な生成モデルの適用が制限されます。
低リソースのシナリオにおけるこれらの課題に対応して、ラベルなしデータを利用して教師なし拡散モデルを通じて基礎となるデータ分布を理解する新しいアプローチである Text2Data を提案します。
その後、新しい制約最適化ベースの学習目標を介して制御可能な微調整が行われ、制御性が確保され、致命的な忘却に効果的に対抗します。
包括的な実験により、Text2Data は、既存のベースラインと比較して、分子、動き、時系列を含むさまざまなモダリティにわたる制御性に関して強化されたパフォーマンスを達成できることが実証されています。
要約(オリジナル)
Natural language serves as a common and straightforward signal for humans to interact seamlessly with machines. Recognizing the importance of this interface, the machine learning community is investing considerable effort in generating data that is semantically coherent with textual instructions. While strides have been made in text-to-data generation spanning image editing, audio synthesis, video creation, and beyond, low-resource areas characterized by expensive annotations or complex data structures, such as molecules, motion dynamics, and time series, often lack textual labels. This deficiency impedes supervised learning, thereby constraining the application of advanced generative models for text-to-data tasks. In response to these challenges in the low-resource scenario, we propose Text2Data, a novel approach that utilizes unlabeled data to understand the underlying data distribution through an unsupervised diffusion model. Subsequently, it undergoes controllable finetuning via a novel constraint optimization-based learning objective that ensures controllability and effectively counteracts catastrophic forgetting. Comprehensive experiments demonstrate that Text2Data is able to achieve enhanced performance regarding controllability across various modalities, including molecules, motions and time series, when compared to existing baselines.
arxiv情報
著者 | Shiyu Wang,Yihao Feng,Tian Lan,Ning Yu,Yu Bai,Ran Xu,Huan Wang,Caiming Xiong,Silvio Savarese |
発行日 | 2025-01-02 17:47:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google