G-SPEED: General SParse Efficient Editing MoDel

要約

Large Language Models~(LLM) は、言語の理解、生成、操作において驚くべき能力を実証してきました。
人間とモデルの対話を通じて、LLM は人間が発行した指示を自動的に理解し、期待された内容を出力できるため、作業効率が大幅に向上します。
現実世界のさまざまな種類の需要では、編集指向のタスクがかなりの割合を占めており、これには特定の基準を満たすために既存のテキストを継続的に改良するインタラクティブなプロセスが含まれます。
複数ラウンドの人間モデルの対話と複雑な編集タスクの生成の必要性により、効率的な一般編集モデルの必要性が急増しています。
この論文では、\underline{\textbf{G}}一般的な \underline{\textbf{SP}}arse \underline{\textbf{E}}効率的な \underline{\textbf{E}}diting Mo\underline{ を提案します。
\textbf{D}}el~(\textbf{G-SPEED}) は、低い計算コストを維持しながら、単一のモデルを通じて多様な編集要件を満たすことができます。
具体的には、まず、データ不足の問題に対処するための新しい教師なしテキスト編集データ クラスタリング アルゴリズムを提案します。
続いて、小規模な言語モデルの本質的に制限された学習能力を軽減するために、スパース編集モデル アーキテクチャを導入します。
実験結果は、508M パラメータを備えた G-SPEED が 175B パラメータを備えた LLM を上回ることができることを示しています。
コードとモデルのチェックポイントは \url{https://github.com/Banner-Z/G-SPEED} で入手できます。

要約(オリジナル)

Large Language Models~(LLMs) have demonstrated incredible capabilities in understanding, generating, and manipulating languages. Through human-model interactions, LLMs can automatically understand human-issued instructions and output the expected contents, which can significantly increase working efficiency. In various types of real-world demands, editing-oriented tasks account for a considerable proportion, which involves an interactive process that entails the continuous refinement of existing texts to meet specific criteria. Due to the need for multi-round human-model interaction and the generation of complicated editing tasks, there is an emergent need for efficient general editing models. In this paper, we propose \underline{\textbf{G}}eneral \underline{\textbf{SP}}arse \underline{\textbf{E}}fficient \underline{\textbf{E}}diting Mo\underline{\textbf{D}}el~(\textbf{G-SPEED}), which can fulfill diverse editing requirements through a single model while maintaining low computational costs. Specifically, we first propose a novel unsupervised text editing data clustering algorithm to deal with the data scarcity problem. Subsequently, we introduce a sparse editing model architecture to mitigate the inherently limited learning capabilities of small language models. The experimental outcomes indicate that G-SPEED, with its 508M parameters, can surpass LLMs equipped with 175B parameters. Our code and model checkpoints are available at \url{https://github.com/Banner-Z/G-SPEED}.

arxiv情報

著者 Haoke Zhang,Yue Wang,Juntao Li,Xiabing Zhou,Min Zhang
発行日 2023-10-16 15:01:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク