MediaGPT : A Large Language Model For Chinese Media

要約

大規模言語モデル (LLM) は、高品質のテキストを生成し、メディア ドメインを含む大量のデータに基づいて予測を行う際に、優れた機能を示しています。
しかし、実際のアプリケーションでは、メディアの使用例と LLM の汎用アプリケーションとの違いが、特に中国語でますます明らかになってきています。
この論文では、一般的な LLM と比較したメディア ドメイン固有の LLM の独自の特性を検証し、ドメインの特定の要件に応えるさまざまなタスク命令タイプのセットを設計し、メディア ドメインに合わせた独自のデータセットを構築しました。
これらを踏まえ、我々は、ドメイン固有のデータと専門家のSFTデータによる学習を行う、中国メディアドメイン向けのドメイン固有LLMであるMediaGPTを提案した。
この論文では、検証セットに対して人間の専門家による評価と強力なモデルの評価を実行することで、MediaGPT がさまざまな中国のメディア ドメイン タスクで主流のモデルよりも優れたパフォーマンスを発揮することを実証し、効果的なドメイン固有の LLM を構築するためのドメイン データとドメイン定義のプロンプト タイプの重要性を検証しました。

要約(オリジナル)

Large language models (LLMs) have shown remarkable capabilities in generating high-quality text and making predictions based on large amounts of data, including the media domain. However, in practical applications, the differences between the media’s use cases and the general-purpose applications of LLMs have become increasingly apparent, especially Chinese. This paper examines the unique characteristics of media-domain-specific LLMs compared to general LLMs, designed a diverse set of task instruction types to cater the specific requirements of the domain and constructed unique datasets that are tailored to the media domain. Based on these, we proposed MediaGPT, a domain-specific LLM for the Chinese media domain, training by domain-specific data and experts SFT data. By performing human experts evaluation and strong model evaluation on a validation set, this paper demonstrated that MediaGPT outperforms mainstream models on various Chinese media domain tasks and verifies the importance of domain data and domain-defined prompt types for building an effective domain-specific LLM.

arxiv情報

著者 Zhonghao Wang,Zijia Lu,Bo Jin,Haiying Deng
発行日 2023-07-26 14:21:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク