要約
生成言語モデルは、さまざまな分野で人間の文章を支援するのに有望です。
この原稿は、特許領域で生成言語モデルを構築し、人間中心の観点からモデルのパフォーマンスを評価することを目的としています。
視点は、生成特許言語モデルに基づくオートコンプリートによって節約できるキーストロークの割合を測定することです。
比率が高いほど、より多くのキーストロークを節約できる、より効果的なモデルを意味します。
このメトリックは、モデルのパフォーマンスのベンチマークに使用できます。
このメトリックは、キーストローク ベースではなくトークン ベースである従来のマシン中心のメトリックとは異なります。
モデルのサイズに関しては、この原稿で構築された最大のモデルは 6B であり、特許分野では最先端のものです。
この指標に基づいて、最大のモデルが必ずしも人間中心の指標に最適であるわけではないことがわかります。
この発見は、目的がオートコンプリートで人間の執筆を支援することである場合、特許領域でモデルのサイズを増加し続ける必要がない可能性があることを意味します。
この研究では、いくつかの特許言語モデルが最初から事前トレーニングされています。
事前トレーニングされたモデルは、将来の研究者のためにリリースされます。
いくつかの視覚化ツールも提供されています。
特許領域で生成言語モデルを構築することの重要性は、将来の創造性と革新を促進する可能性を秘めています。
要約(オリジナル)
Generative language models are promising for assisting human writing in various domains. This manuscript aims to build generative language models in the patent domain and evaluate model performance from a human-centric perspective. The perspective is to measure the ratio of keystrokes that can be saved by autocompletion based on generative patent language models. A higher ratio means a more effective model which can save more keystrokes. This metric can be used to benchmark model performance. The metric is different from conventional machine-centric metrics that are token-based instead of keystroke-based. In terms of model size, the largest model built in this manuscript is 6B, which is state-of-the-art in the patent domain. Based on the metric, it is found that the largest model is not necessarily the best for the human-centric metric. The finding means that keeping increasing model sizes in the patent domain might be unnecessary if the purpose is to assist human writing with autocompletion. Several patent language models are pre-trained from scratch in this research. The pre-trained models are released for future researchers. Several visualization tools are also provided. The importance of building a generative language model in the patent domain is the potential to facilitate creativity and innovations in the future.
arxiv情報
| 著者 | Jieh-Sheng Lee |
| 発行日 | 2023-06-05 09:02:01+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google