要約
データは大規模な言語モデルを微調整するための基礎ですが、適切なデータを取得することは依然として困難です。
課題には、データ不足、言語の多様性、ドメイン固有のコンテンツなどが含まれていました。
このペーパーでは、ベトナム語モデルの微調整に合わせてデータをクローリングおよび調整する際に学んだ教訓を紹介します。
言語の複雑さを考慮し、包括性と正確性のバランスをとりながらこのようなデータセットを作成するには、綿密な計画が必要です。
私たちの論文では、英語の既存のデータセットの活用や、生成 AI ツールの支援によるカスタマイズされたデータ クローリング スクリプトの開発など、多次元の戦略を紹介しています。
結果として得られたデータセットを使用して生成された、ベトナム語用に微調整された LLM モデルは、プロンプトからベトナム語のニュース記事を生成する際に優れたパフォーマンスを示しました。
この研究は、ベトナム語などの言語での将来の微調整モデルのための実用的な解決策とガイダンスを提供します。
要約(オリジナル)
Data is a cornerstone for fine-tuning large language models, yet acquiring suitable data remains challenging. Challenges encompassed data scarcity, linguistic diversity, and domain-specific content. This paper presents lessons learned while crawling and refining data tailored for fine-tuning Vietnamese language models. Crafting such a dataset, while accounting for linguistic intricacies and striking a balance between inclusivity and accuracy, demands meticulous planning. Our paper presents a multidimensional strategy including leveraging existing datasets in the English language and developing customized data-crawling scripts with the assistance of generative AI tools. A fine-tuned LLM model for the Vietnamese language, which was produced using resultant datasets, demonstrated good performance while generating Vietnamese news articles from prompts. The study offers practical solutions and guidance for future fine-tuning models in languages like Vietnamese.
arxiv情報
著者 | Thanh Nguyen Ngoc,Quang Nhat Tran,Arthur Tang,Bao Nguyen,Thuy Nguyen,Thanh Pham |
発行日 | 2023-11-02 07:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google