Teaching Specific Scientific Knowledge into Large Language Models through Additional Training

要約

追加のトレーニングを通じて、専門的な科学知識を Llama 2 大規模言語モデル (LLM) に組み込むことを検討します。
主な調査結果は、効果的な知識の統合には、特に教育形式でテキストを複数の視点から読む必要があることを明らかにしています。
私たちはテキスト拡張を利用して、スタイル変換や翻訳などの専門テキストの不足に取り組んでいます。
ハイパーパラメータの最適化は、さまざまなサイズのモデル (7b、13b、および 70b) に追加のトレーニングを合理的に適用することで重要であることがわかります。
私たちの手法を検証するために、65,000 件の科学論文のデータセットを構築しました。
部分的に知識を埋め込むことには成功しましたが、この研究では、特殊な情報を LLM に組み込むことの複雑さと限界を浮き彫りにし、さらなる改善の余地がある領域を示唆しています。

要約(オリジナル)

Through additional training, we explore embedding specialized scientific knowledge into the Llama 2 Large Language Model (LLM). Key findings reveal that effective knowledge integration requires reading texts from multiple perspectives, especially in instructional formats. We utilize text augmentation to tackle the scarcity of specialized texts, including style conversions and translations. Hyperparameter optimization proves crucial, with different size models (7b, 13b, and 70b) reasonably undergoing additional training. Validating our methods, we construct a dataset of 65,000 scientific papers. Although we have succeeded in partially embedding knowledge, the study highlights the complexities and limitations of incorporating specialized information into LLMs, suggesting areas for further improvement.

arxiv情報

著者 Kan Hatakeyama-Sato,Yasuhiko Igarashi,Shun Katakami,Yuta Nabae,Teruaki Hayakawa
発行日 2023-12-06 08:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク