Enhancing Image Caption Generation Using Reinforcement Learning with Human Feedback

要約

人間に合わせた/人間が好む出力を生成するための生成モデルの研究は、最近大きな貢献を見せています。
テキスト生成モデルと画像生成モデルの間で、特に人間の好みに合わせた画像のキャプションを生成するために、私たちはテキストベースの生成モデルに焦点を絞りました。
この研究では、人間が好むキャプションを生成するためにディープ ニューラル ネットワーク モデルのパフォーマンスを増幅する可能性のある方法を調査しました。
これは、Flickr8k データセットを使用して教師あり学習とヒューマン フィードバックによる強化学習 (RLHF) を統合することで実現されました。
また、人間のフィードバックに基づいてモデルを最適化できる新しい損失関数も導入されています。
この論文では、人間に合わせた生成 AI モデルの分野における継続的な進歩に貢献することを期待して、私たちのアプローチと結果の簡潔なスケッチを提供します。

要約(オリジナル)

Research on generative models to produce human-aligned / human-preferred outputs has seen significant recent contributions. Between text and image-generative models, we narrowed our focus to text-based generative models, particularly to produce captions for images that align with human preferences. In this research, we explored a potential method to amplify the performance of the Deep Neural Network Model to generate captions that are preferred by humans. This was achieved by integrating Supervised Learning and Reinforcement Learning with Human Feedback (RLHF) using the Flickr8k dataset. Also, a novel loss function that is capable of optimizing the model based on human feedback is introduced. In this paper, we provide a concise sketch of our approach and results, hoping to contribute to the ongoing advances in the field of human-aligned generative AI models.

arxiv情報

著者 Adarsh N L,Arun P V,Aravindh N L
発行日 2024-03-11 13:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク