要約
GPT-4 のような大規模言語モデル (LLM) は最近、一般的なドメイン タスクにおいて驚くべきゼロショット機能を実証していますが、中国の法律などの特定のドメインでは幻覚を含むコンテンツを生成することが多く、これらの分野での適用を妨げています。
これは通常、そのような特定のドメインを網羅するトレーニング データが存在せず、GPT-4 がドメイン内の知識を取得できないことが原因です。
差し迫った課題は、このような規模の LLM をドメイン内データでトレーニングし続けるのは妥当ではないということです。
この論文では、生成を \textbf{adapt-retrieve-revise} プロセスとして再定式化することにより、GPT-4 用のシンプルで効果的なドメイン アダプテーション フレームワークを紹介します。
最初のステップは、ドメイン内データの学習を継続することで、手頃な価格の 70 億 LLM をターゲット ドメインに \textbf{適応}することです。
タスクを解決するときは、適応された LLM を利用して、タスク クエリに基づいて回答の下書きを生成します。
次に、回答草案は、外部のドメイン内ナレッジ ベースから裏付けとなる証拠候補を \textbf{取得}するために使用されます。
最後に、回答草案と取得した証拠がプロンプト全体に連結され、GPT-4 が証拠を評価し、回答草案を \textbf{改訂}して最終回答を生成します。
私たちの提案は、より小さな 7B モデルを適応させる効率の利点と GPT-4 の証拠評価機能を組み合わせ、GPT-4 による幻覚コンテンツの生成を効果的に防ぎます。
4 つの中国の法的タスクのゼロショット設定では、私たちの方法は GPT-4 による直接生成と比較して精度が 33.3% 向上しました。
2 つの強力な検索ベースのベースラインと比較すると、私たちの方法は 15.4\% および 23.9\% 優れています。
私たちのコードが公開されます
要約(オリジナル)
While large language models (LLMs) like GPT-4 have recently demonstrated astonishing zero-shot capabilities in general domain tasks, they often generate content with hallucinations in specific domains such as Chinese law, hindering their application in these areas. This is typically due to the absence of training data that encompasses such a specific domain, preventing GPT-4 from acquiring in-domain knowledge. A pressing challenge is that it’s not plausible to continue training LLMs of such scale on in-domain data. This paper introduces a simple and effective domain adaptation framework for GPT-4 by reformulating generation as an \textbf{adapt-retrieve-revise} process. The initial step is to \textbf{adapt} an affordable 7B LLM to the target domain by continuing learning on in-domain data. When solving a task, we leverage the adapted LLM to generate a draft answer given a task query. Then, the draft answer will be used to \textbf{retrieve} supporting evidence candidates from an external in-domain knowledge base. Finally, the draft answer and retrieved evidence are concatenated into a whole prompt to let GPT-4 assess the evidence and \textbf{revise} the draft answer to generate the final answer. Our proposal combines the advantages of the efficiency of adapting a smaller 7B model with the evidence-assessing capability of GPT-4 and effectively prevents GPT-4 from generating hallucinatory content. In the zero-shot setting of four Chinese legal tasks, our method improves accuracy by 33.3\% compared to the direct generation by GPT-4. When compared to two stronger retrieval-based baselines, our method outperforms them by 15.4\% and 23.9\%. Our code will be released
arxiv情報
著者 | Zhen wan,Yating Zhang,Yexiang Wang,Fei Cheng,Sadao Kurohashi |
発行日 | 2023-10-05 05:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google