Multi-Modal Experience Inspired AI Creation

要約

詩や歌詞の生成などの AI 作成は、産業界と学術コミュニティの両方からますます注目を集めており、ここ数年で多くの有望なモデルが提案されています。
既存の方法は通常、単一の独立した視覚情報またはテキスト情報に基づいて出力を推定します。
しかし、実際には、人間は通常、さまざまな様式を含み、連続的に関連付けられる経験に従って創造物を作成します。
このような人間の能力をモデル化するために、本論文では人間の経験に基づいた新しい AI 作成問題を定義し、解決します。
具体的には、連続したマルチモーダル情報に基づいてテキストを生成する方法を研究します。
以前の研究と比較して、このタスクははるかに困難です。設計されたモデルは、さまざまなモダリティ間のセマンティクスをよく理解し、適応させ、それらを逐次的な方法で効果的に出力に変換する必要があるためです。
これらの問題を軽減するために、まず、マルチモーダル アテンション ネットワークを備えたマルチチャネル シーケンス間アーキテクチャを設計します。
より効果的な最適化のために、逐次入力に合わせたカリキュラムのネガティブ サンプリング戦略を提案します。
この問題のベンチマークを行い、モデルの有効性を実証するために、新しいマルチモーダル エクスペリエンス データセットに手動でラベルを付けました。
このデータセットを使用して、モデルを一連の代表的なベースラインと比較することで広範な実験を実施し、自動メトリクスと人間中心のメトリクスの両方に基づいてモデルの大幅な改善を実証できます。
コードとデータは \url{https://github.com/Aman-4-Real/MMTG} から入手できます。

要約(オリジナル)

AI creation, such as poem or lyrics generation, has attracted increasing attention from both industry and academic communities, with many promising models proposed in the past few years. Existing methods usually estimate the outputs based on single and independent visual or textual information. However, in reality, humans usually make creations according to their experiences, which may involve different modalities and be sequentially correlated. To model such human capabilities, in this paper, we define and solve a novel AI creation problem based on human experiences. More specifically, we study how to generate texts based on sequential multi-modal information. Compared with the previous works, this task is much more difficult because the designed model has to well understand and adapt the semantics among different modalities and effectively convert them into the output in a sequential manner. To alleviate these difficulties, we firstly design a multi-channel sequence-to-sequence architecture equipped with a multi-modal attention network. For more effective optimization, we then propose a curriculum negative sampling strategy tailored for the sequential inputs. To benchmark this problem and demonstrate the effectiveness of our model, we manually labeled a new multi-modal experience dataset. With this dataset, we conduct extensive experiments by comparing our model with a series of representative baselines, where we can demonstrate significant improvements in our model based on both automatic and human-centered metrics. The code and data are available at: \url{https://github.com/Aman-4-Real/MMTG}.

arxiv情報

著者 Qian Cao,Xu Chen,Ruihua Song,Hao Jiang,Guang Yang,Zhao Cao
発行日 2024-09-04 14:17:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク