要約
ChatGPT のような大規模言語モデルは、メディアの大きな注目を集め、短い自然言語プロンプトから一貫したテキストを生成するその驚くべき能力で一般の人々を驚かせました。
この論文では、ChatGPT の出力をさまざまな対象読者 (専門家と素人) および書き方 (公式と非公式) に適応させる能力に関して、2 つの制御可能な生成タスクにおける ChatGPT のパフォーマンスの体系的な検査を行うことを目的としています。
さらに、生成されたテキストの忠実性を評価し、モデルのパフォーマンスを人間が作成したテキストと比較します。
私たちの調査結果は、人間によって生成された文体のバリエーションは ChatGPT によって示されたものよりもかなり大きく、生成されたテキストは単語の種類の分布などのいくつかの特徴において人間のサンプルとは異なっていることを示しています。
さらに、特定のスタイルに合わせてテキストを調整する際に、ChatGPT が事実誤認や幻覚を組み込む場合があることが観察されています。
要約(オリジナル)
Large-scale language models, like ChatGPT, have garnered significant media attention and stunned the public with their remarkable capacity for generating coherent text from short natural language prompts. In this paper, we aim to conduct a systematic inspection of ChatGPT’s performance in two controllable generation tasks, with respect to ChatGPT’s ability to adapt its output to different target audiences (expert vs. layman) and writing styles (formal vs. informal). Additionally, we evaluate the faithfulness of the generated text, and compare the model’s performance with human-authored texts. Our findings indicate that the stylistic variations produced by humans are considerably larger than those demonstrated by ChatGPT, and the generated texts diverge from human samples in several characteristics, such as the distribution of word types. Moreover, we observe that ChatGPT sometimes incorporates factual errors or hallucinations when adapting the text to suit a specific style.
arxiv情報
著者 | Dongqi Liu,Vera Demberg |
発行日 | 2024-12-10 09:06:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google