要約
情報を文字列として柔軟に処理する大規模言語モデル (LLM) の台頭により、自然なアプリケーションは回帰です。具体的には、文字列表現を前処理してメトリクス予測の下流特徴として LLM 埋め込みにすることによる回帰です。
このペーパーでは、埋め込みベースの回帰に関する最初の包括的な調査の 1 つを提供し、特徴量としての LLM 埋め込みが従来の特徴量エンジニアリングを使用するよりも高次元の回帰タスクに適していることを示します。
この回帰パフォーマンスは、数値データに対する LLM 埋め込みが特徴空間全体にわたるリプシッツ連続性を本質的に維持するため、部分的に説明できます。
さらに、さまざまなモデル効果、特にモデル サイズと言語理解の寄与を定量化しましたが、驚くべきことに、これらが常に回帰パフォーマンスを向上させるわけではないことがわかりました。
要約(オリジナル)
With the rise of large language models (LLMs) for flexibly processing information as strings, a natural application is regression, specifically by preprocessing string representations into LLM embeddings as downstream features for metric prediction. In this paper, we provide one of the first comprehensive investigations into embedding-based regression and demonstrate that LLM embeddings as features can be better for high-dimensional regression tasks than using traditional feature engineering. This regression performance can be explained in part due to LLM embeddings over numeric data inherently preserving Lipschitz continuity over the feature space. Furthermore, we quantify the contribution of different model effects, most notably model size and language understanding, which we find surprisingly do not always improve regression performance.
arxiv情報
著者 | Eric Tang,Bangding Yang,Xingyou Song |
発行日 | 2024-12-02 10:52:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google