Asterisk*: Keep it Simple

要約

このペーパーでは、テキスト埋め込みを生成するためのコンパクトな GPT ベースのモデルである Asterisk について説明します。
このモデルは、2 つのレイヤー、2 つのアテンション ヘッド、および 256 の埋め込み次元を備えたミニマリスト アーキテクチャを使用します。
大規模な事前トレーニング済みモデルからの知識の抽出を適用することで、計算要件とメモリ要件を最小限に抑えながら、モデルのサイズとパフォーマンスの間のトレードオフを調査します。
このモデルは主に分類タスク用に評価および最適化されており、実験結果ではさまざまな下流アプリケーションにわたるゼロショット分類で中程度のパフォーマンスが示されています。
構成を追加すると、モデルのパフォーマンスは、特定の分類タスクにおいて大規模なアーキテクチャのパフォーマンスに近づくか、さらにはそれを上回る可能性があります。

要約(オリジナル)

This paper describes Asterisk, a compact GPT-based model for generating text embeddings. The model uses a minimalist architecture with two layers, two attention heads, and 256 embedding dimensions. By applying knowledge distillation from larger pretrained models, we explore the trade-offs between model size and performance while minimizing computational and memory requirements. The model is primarily evaluated and optimized for classification tasks, with experimental results showing its moderate performance in zero-shot classification across various downstream applications. With additional configuration, the model performance can approach or even surpass that of larger architectures on specific classification tasks.

arxiv情報

著者 Andrew Semenov
発行日 2024-11-08 16:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク