要約
既存の研究では、自然テキスト内の単語の順序の影響が研究されています。
通常、元の単語の順序を破壊してスクランブルされたシーケンスを作成し、元のシーケンスとスクランブルされたシーケンスの間でモデルのパフォーマンスを比較することによって分析します。
実験結果は、限界低下を示しています。
この発見を考慮して、「単語の順序は語彙意味論と冗長である」、「モデルは語順に依存しない」など、語順に関する別の仮説が提案されています。
この論文では、次数再構成の観点を追加し、異なるスペクトルのデータセットを選択することによって、前述の仮説を再検討します。
具体的には、まず 4 つの異なるデータセットを選択し、次に順序再構成タスクと継続生成タスクを設計します。
経験的な発見は、ChatGPT が語順に依存して推論していることを裏付けていますが、語順語彙意味論間の冗長関係を裏付けたり否定したりすることはできません。
要約(オリジナル)
Existing works have studied the impacts of the order of words within natural text. They usually analyze it by destroying the original order of words to create a scrambled sequence, and then comparing the models’ performance between the original and scrambled sequences. The experimental results demonstrate marginal drops. Considering this findings, different hypothesis about word order is proposed, including “the order of words is redundant with lexical semantics”, and “models do not rely on word order”. In this paper, we revisit the aforementioned hypotheses by adding a order reconstruction perspective, and selecting datasets of different spectrum. Specifically, we first select four different datasets, and then design order reconstruction and continuing generation tasks. Empirical findings support that ChatGPT relies on word order to infer, but cannot support or negate the redundancy relations between word order lexical semantics.
arxiv情報
著者 | Qinghua Zhao,Jiaang Li,Lei Li,Zenghui Zhou,Junfeng Liu |
発行日 | 2024-03-18 04:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google