要約
大規模な意味論的な知識ベースは事実の知識に基づいています。
ただし、密なテキスト表現 (つまり、埋め込み) に対する最近のアプローチでは、これらのリソースが効率的に活用されていません。
ダウンストリームの分類および検索タスクを効果的に解決するには、ドキュメントの高密度で堅牢な表現が不可欠です。
この研究は、ナレッジ ベースから埋め込み情報を注入することで、テキスト分類タスクに対する現代の大規模言語モデル (LLM) ベースの表現のパフォーマンスを強化できることを示しています。
さらに、融合表現空間を使用した自動機械学習 (AutoML) を考慮することで、効率的な行列分解によって得られた元の表現空間の低次元射影を使用した場合でも、分類精度を向上できることを示します。
この結果は、6 つの多様な現実のデータセットに対する 5 つの強力な LLM ベースラインを使用して実証されたように、予測パフォーマンスの損失を最小限に抑えながら、大幅に高速な分類器を達成できることを示しています。
コードは \url{https://github.com/bkolosk1/bablfusion.git} から無料で入手できます。
要約(オリジナル)
Large semantic knowledge bases are grounded in factual knowledge. However, recent approaches to dense text representations (i.e. embeddings) do not efficiently exploit these resources. Dense and robust representations of documents are essential for effectively solving downstream classification and retrieval tasks. This work demonstrates that injecting embedded information from knowledge bases can augment the performance of contemporary Large Language Model (LLM)-based representations for the task of text classification. Further, by considering automated machine learning (AutoML) with the fused representation space, we demonstrate it is possible to improve classification accuracy even if we use low-dimensional projections of the original representation space obtained via efficient matrix factorization. This result shows that significantly faster classifiers can be achieved with minimal or no loss in predictive performance, as demonstrated using five strong LLM baselines on six diverse real-life datasets. The code is freely available at \url{https://github.com/bkolosk1/bablfusion.git}.
arxiv情報
著者 | Boshko Koloski,Senja Pollak,Roberto Navigli,Blaž Škrlj |
発行日 | 2024-09-30 14:02:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google