要約
人間のフィードバックは、テキストから画像への生成のための報酬モデルの学習と改良において重要な役割を果たしますが、正確な報酬関数を学習するためにフィードバックが取るべき最適な形式は最終的に確立されていません。
この論文では、従来の粗粒度のフィードバック (たとえば、親指を上げる/下げる、または一連のオプション間の順位付け) と比較して、画質とプロンプト調整の微妙な違いを捉える粒度の細かいフィードバックの有効性を調査します。
きめの細かいフィードバックは、特に社会の多様な好みに対応するシステムにとって有望ですが、粗いフィードバックに対するその優位性を証明するのは自動的ではないことを示します。
実際の選好データと合成選好データの実験を通じて、モデルの選択、フィードバックの種類、人間の判断と計算による解釈の調整の相互作用による効果的なモデルの構築の複雑さを浮き彫りにします。
私たちは、きめ細かいフィードバックを引き出して活用する際の重要な課題を特定し、その想定される利点と実用性の再評価を促します。
私たちの発見 — たとえば、設定によっては、きめの細かいフィードバックが固定予算のモデルを悪化させる可能性があること。
しかし、既知の属性を備えた制御された設定では、きめ細かい報酬の方が確かに役立つ可能性があります。フィードバック属性を慎重に検討する必要があり、実際のきめ細かいフィードバックの潜在的な価値を適切に解き放つための新しいモデリング アプローチを招く可能性があります。
要約(オリジナル)
Human feedback plays a critical role in learning and refining reward models for text-to-image generation, but the optimal form the feedback should take for learning an accurate reward function has not been conclusively established. This paper investigates the effectiveness of fine-grained feedback which captures nuanced distinctions in image quality and prompt-alignment, compared to traditional coarse-grained feedback (for example, thumbs up/down or ranking between a set of options). While fine-grained feedback holds promise, particularly for systems catering to diverse societal preferences, we show that demonstrating its superiority to coarse-grained feedback is not automatic. Through experiments on real and synthetic preference data, we surface the complexities of building effective models due to the interplay of model choice, feedback type, and the alignment between human judgment and computational interpretation. We identify key challenges in eliciting and utilizing fine-grained feedback, prompting a reassessment of its assumed benefits and practicality. Our findings — e.g., that fine-grained feedback can lead to worse models for a fixed budget, in some settings; however, in controlled settings with known attributes, fine grained rewards can indeed be more helpful — call for careful consideration of feedback attributes and potentially beckon novel modeling approaches to appropriately unlock the potential value of fine-grained feedback in-the-wild.
arxiv情報
著者 | Katherine M. Collins,Najoung Kim,Yonatan Bitton,Verena Rieser,Shayegan Omidshafiei,Yushi Hu,Sherol Chen,Senjuti Dutta,Minsuk Chang,Kimin Lee,Youwei Liang,Georgina Evans,Sahil Singla,Gang Li,Adrian Weller,Junfeng He,Deepak Ramachandran,Krishnamurthy Dj Dvijotham |
発行日 | 2024-06-24 17:19:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google