要約
言語モデルにはランキングベースの知識が含まれており、コンテキスト内のランキングタスクの強力なソルバーです。
たとえば、規模による国の順序に関するパラメトリックな知識を持っている場合や、センチメントによってレビューをランク付けできる場合があります。
最近の研究は、言語モデルのランキング知識を引き出すためのペアワイズ、ポイントワイズ、およびリストワイズ プロンプト手法に焦点を当てています。
ただし、注意深いキャリブレーションと制限されたデコードを行ったとしても、プロンプトベースの手法が生成するランキングにおいて常に一貫性があるとは限らないことがわかりました。
これにより、コントラスト一貫性検索 (CCS) と呼ばれる教師なし探索手法をヒントにした代替アプローチを検討するようになりました。
考え方は、論理制約に基づいて調査モデルをトレーニングすることです。モデルのステートメントの表現とその否定は、複数のステートメントにわたって一貫して対照的な真偽極にマッピングされなければなりません。
すべての項目が一貫したペアごとまたはリストごとの比較によって関連付けられているランク付けタスクにも、同様の制約が適用されると仮説を立てます。
この目的を達成するために、最大マージン損失、トリプレット損失、順序回帰目標などの既存のランキング手法を適応させることで、バイナリ CCS 手法をコントラスト一貫性ランキング (CCR) に拡張します。
私たちの結果は、同じ言語モデルの場合、CCR プローブのパフォーマンスがプロンプトを上回り、はるかに大規模な言語モデルのプロンプトと同等のパフォーマンスを発揮することさえ確認しています。
要約(オリジナル)
Language models contain ranking-based knowledge and are powerful solvers of in-context ranking tasks. For instance, they may have parametric knowledge about the ordering of countries by size or may be able to rank reviews by sentiment. Recent work focuses on pairwise, pointwise, and listwise prompting techniques to elicit a language model’s ranking knowledge. However, we find that even with careful calibration and constrained decoding, prompting-based techniques may not always be self-consistent in the rankings they produce. This motivates us to explore an alternative approach that is inspired by an unsupervised probing method called Contrast-Consistent Search (CCS). The idea is to train a probing model guided by a logical constraint: a model’s representation of a statement and its negation must be mapped to contrastive true-false poles consistently across multiple statements. We hypothesize that similar constraints apply to ranking tasks where all items are related via consistent pairwise or listwise comparisons. To this end, we extend the binary CCS method to Contrast-Consistent Ranking (CCR) by adapting existing ranking methods such as the Max-Margin Loss, Triplet Loss, and Ordinal Regression objective. Our results confirm that, for the same language model, CCR probing outperforms prompting and even performs on a par with prompting much larger language models.
arxiv情報
著者 | Niklas Stoehr,Pengxiang Cheng,Jing Wang,Daniel Preotiuc-Pietro,Rajarshi Bhowmik |
発行日 | 2023-09-13 14:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google