Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and Statistical Approach

要約

ChatGPT に代表されるニューラル機械翻訳 (NMT) と LLM の人気の高まりは、それらの独特の特性と関係をより深く理解する必要性を強調しています。
このような理解は、言語の専門家や研究者が情報に基づいた意思決定を行い、最先端の翻訳テクノロジーを巧みに使用するために重要ですが、依然として十分に解明されていません。
この研究は、3 つの重要な質問を調査することによってこのギャップを埋めることを目的としています: (1) ChatGPT によって生成された翻訳と NMT および人間による翻訳 (HT) の区別可能性、(2) 各翻訳タイプの言語的特徴、および (3) 翻訳の程度
ChatGPT で生成された翻訳と HT または NMT との類似性。
これらの目的を達成するために、当社は統計テスト、機械学習アルゴリズム、多次元分析 (MDA) を採用して報道官の発言とその翻訳を分析します。
広範囲の言語特徴を抽出した後、教師あり分類器は 3 つの翻訳タイプを区別する際に高い精度を示しますが、教師なしクラスタリング手法では満足のいく結果が得られません。
もう 1 つの主要な発見は、ChatGPT で生成された翻訳が、ほとんどの MDA 次元において HT よりも NMT との類似性が高いことです。これは距離計算と視覚化によってさらに裏付けられます。
これらの新しい洞察は、3 つの翻訳タイプ間の相互関係に光を当て、NMT と生成 AI の将来の進歩に影響を与えます。

要約(オリジナル)

The growing popularity of neural machine translation (NMT) and LLMs represented by ChatGPT underscores the need for a deeper understanding of their distinct characteristics and relationships. Such understanding is crucial for language professionals and researchers to make informed decisions and tactful use of these cutting-edge translation technology, but remains underexplored. This study aims to fill this gap by investigating three key questions: (1) the distinguishability of ChatGPT-generated translations from NMT and human translation (HT), (2) the linguistic characteristics of each translation type, and (3) the degree of resemblance between ChatGPT-produced translations and HT or NMT. To achieve these objectives, we employ statistical testing, machine learning algorithms, and multidimensional analysis (MDA) to analyze Spokesperson’s Remarks and their translations. After extracting a wide range of linguistic features, supervised classifiers demonstrate high accuracy in distinguishing the three translation types, whereas unsupervised clustering techniques do not yield satisfactory results. Another major finding is that ChatGPT-produced translations exhibit greater similarity with NMT than HT in most MDA dimensions, which is further corroborated by distance computing and visualization. These novel insights shed light on the interrelationships among the three translation types and have implications for the future advancements of NMT and generative AI.

arxiv情報

著者 Zhaokun Jiang,Qianxi Lv,Ziyin Zhang
発行日 2023-12-17 15:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク