Meaning Representations from Trajectories in Autoregressive Models

要約

入力テキストを拡張するすべての可能な軌跡の分布を考慮することにより、自己回帰言語モデルから意味表現を抽出することを提案します。
この戦略はプロンプトを必要とせず、微調整を必要とせず、事前トレーニングされた自己回帰モデルに適用できます。
さらに、ベクトルベースの表現とは異なり、分布ベースの表現は、尤度関数間の代数演算を使用することにより、非対称関係 (論理含意の方向、上位名/下位名関係など) をモデル化することもできます。
これらのアイデアは意味論に関する分布的な観点に基づいており、オートマトン理論の標準的な構造に関連していますが、私たちの知る限り、現代の言語モデルには適用されていません。
私たちは、大規模なモデルから得られた表現が人間の注釈とよく一致し、意味的類似性タスクにおいて他のゼロショットおよびプロンプトフリーの方法よりも優れたパフォーマンスを発揮し、標準の埋め込みでは処理できないより複雑な含意および包含タスクを解決するために使用できることを経験的に示しています。
最後に、マルチモーダル自己回帰モデルを使用して、さまざまなモダリティ (画像やテキストなど) からのデータを表現する方法を拡張します。

要約(オリジナル)

We propose to extract meaning representations from autoregressive language models by considering the distribution of all possible trajectories extending an input text. This strategy is prompt-free, does not require fine-tuning, and is applicable to any pre-trained autoregressive model. Moreover, unlike vector-based representations, distribution-based representations can also model asymmetric relations (e.g., direction of logical entailment, hypernym/hyponym relations) by using algebraic operations between likelihood functions. These ideas are grounded in distributional perspectives on semantics and are connected to standard constructions in automata theory, but to our knowledge they have not been applied to modern language models. We empirically show that the representations obtained from large models align well with human annotations, outperform other zero-shot and prompt-free methods on semantic similarity tasks, and can be used to solve more complex entailment and containment tasks that standard embeddings cannot handle. Finally, we extend our method to represent data from different modalities (e.g., image and text) using multimodal autoregressive models.

arxiv情報

著者 Tian Yu Liu,Matthew Trager,Alessandro Achille,Pramuditha Perera,Luca Zancato,Stefano Soatto
発行日 2023-11-02 03:33:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク