EMTeC: A Corpus of Eye Movements on Machine-Generated Texts

要約

機械生成テキストの目の動きコーパス (EMTeC) は、107 人の英語ネイティブ スピーカーが機械生成テキストを読んでいるときの自然な目の動きのコーパスです。
テキストは 5 つの異なるデコード戦略を使用する 3 つの大きな言語モデルによって生成され、6 つの異なるテキスト タイプ カテゴリに分類されます。
EMTeC には、前処理のすべての段階での眼球運動データ、つまり 2000 Hz でサンプリングされた生の座標データ、固視シーケンス、および読み取り測定が必要です。
さらに、垂直方向のキャリブレーション ドリフトを考慮して、固定シーケンスの元のバージョンと修正されたバージョンの両方を提供します。
さらに、コーパスには、刺激テキストの生成の基礎となる言語モデルの内部構造 (遷移スコア、注意スコア、隠れ状態) が含まれています。
刺激には、テキストレベルと単語レベルの両方で、さまざまな言語特徴の注釈が付けられます。
私たちは、EMTeC がさまざまなユースケースに利用されることを期待しています。たとえば、機械生成テキストの読み取り動作やさまざまなデコード戦略の影響の調査などですが、これらに限定されません。
さまざまなテキストタイプでの読み取り動作。
新しい前処理、データフィルタリング、ドリフト補正アルゴリズムの開発。
認知的解釈可能性と言語モデルの強化。
そして人間の読書時間に対する驚きとエントロピーの予測力の評価。
前処理のすべての段階のデータ、モデルの内部構造、刺激の生成、データの前処理、分析を再現するコードには、https://github.com/DiLi-Lab/EMTeC/ からアクセスできます。

要約(オリジナル)

The Eye Movements on Machine-Generated Texts Corpus (EMTeC) is a naturalistic eye-movements-while-reading corpus of 107 native English speakers reading machine-generated texts. The texts are generated by three large language models using five different decoding strategies, and they fall into six different text type categories. EMTeC entails the eye movement data at all stages of pre-processing, i.e., the raw coordinate data sampled at 2000 Hz, the fixation sequences, and the reading measures. It further provides both the original and a corrected version of the fixation sequences, accounting for vertical calibration drift. Moreover, the corpus includes the language models’ internals that underlie the generation of the stimulus texts: the transition scores, the attention scores, and the hidden states. The stimuli are annotated for a range of linguistic features both at text and at word level. We anticipate EMTeC to be utilized for a variety of use cases such as, but not restricted to, the investigation of reading behavior on machine-generated text and the impact of different decoding strategies; reading behavior on different text types; the development of new pre-processing, data filtering, and drift correction algorithms; the cognitive interpretability and enhancement of language models; and the assessment of the predictive power of surprisal and entropy for human reading times. The data at all stages of pre-processing, the model internals, and the code to reproduce the stimulus generation, data pre-processing and analyses can be accessed via https://github.com/DiLi-Lab/EMTeC/.

arxiv情報

著者 Lena Sophia Bolliger,Patrick Haller,Isabelle Caroline Rose Cretton,David Robert Reich,Tannon Kew,Lena Ann Jäger
発行日 2024-08-08 08:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク