要約
ラージ ビジョン モデル (LVM) からの有害な出力のリスクを軽減するために、私たちは SafeSora データセットを導入して、テキストからビデオへの生成を人間の価値観に合わせる研究を推進しています。
このデータセットには、有用性と無害性という 2 つの主要な側面に沿った、テキストからビデオへの生成タスクにおける人間の好みが含まれています。
人間の嗜好を詳細に把握し、クラウドワーカーによる構造化された推論を容易にするために、有用性を 4 つのサブ次元に、無害性を 12 のサブカテゴリに細分化し、パイロット アノテーションの基礎として機能します。
SafeSora データセットには、14,711 個の一意のプロンプト、4 つの異なる LVM によって生成された 57,333 個の一意のビデオ、および人間によってラベル付けされた 51,691 ペアの設定アノテーションが含まれています。
さらに、テキストビデオモデレーションモデルのトレーニングや、プロンプト拡張モジュールまたは拡散モデルを微調整することによって LVM を人間の好みに合わせるなど、いくつかのアプリケーションを通じて SafeSora データセットの有用性を実証します。
これらのアプリケーションは、人間の好みのモデリングや位置合わせアルゴリズムの開発と検証など、テキストとビデオの位置合わせ研究の基盤としての可能性を強調しています。
要約(オリジナル)
To mitigate the risk of harmful outputs from large vision models (LVMs), we introduce the SafeSora dataset to promote research on aligning text-to-video generation with human values. This dataset encompasses human preferences in text-to-video generation tasks along two primary dimensions: helpfulness and harmlessness. To capture in-depth human preferences and facilitate structured reasoning by crowdworkers, we subdivide helpfulness into 4 sub-dimensions and harmlessness into 12 sub-categories, serving as the basis for pilot annotations. The SafeSora dataset includes 14,711 unique prompts, 57,333 unique videos generated by 4 distinct LVMs, and 51,691 pairs of preference annotations labeled by humans. We further demonstrate the utility of the SafeSora dataset through several applications, including training the text-video moderation model and aligning LVMs with human preference by fine-tuning a prompt augmentation module or the diffusion model. These applications highlight its potential as the foundation for text-to-video alignment research, such as human preference modeling and the development and validation of alignment algorithms.
arxiv情報
著者 | Josef Dai,Tianle Chen,Xuyao Wang,Ziran Yang,Taiye Chen,Jiaming Ji,Yaodong Yang |
発行日 | 2024-06-20 16:38:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google