要約
NLP では、インクリメンタル プロセッサは、言語入力の受信プレフィックスに基づいて、分割して出力を生成します。
一部のトークンは改訂をトリガーし、出力仮説の編集を引き起こしますが、モデルが改訂されるときになぜ改訂されるのかについてはほとんどわかっていません。
リビジョンが発生するタイムステップを検出するポリシーにより、効率を向上させることができます。
それでも、リビジョン ポリシーをトレーニングするための適切な信号を取得することは未解決の問題です。データセットでは信号が自然に利用できないためです。
この研究では、増分配列ラベル付けにおける改訂ポリシーを通知する信号として、人間の読書視線追跡データにおける回帰とスキップの適切性を調査します。
一般化された混合効果モデルを使用すると、人間による回帰とスキップの確率が、BiLSTM および Transformer モデルの改訂の有用な予測因子として機能する可能性があり、さまざまな言語で一貫した結果が得られることがわかりました。
要約(オリジナル)
In NLP, incremental processors produce output in instalments, based on incoming prefixes of the linguistic input. Some tokens trigger revisions, causing edits to the output hypothesis, but little is known about why models revise when they revise. A policy that detects the time steps where revisions should happen can improve efficiency. Still, retrieving a suitable signal to train a revision policy is an open problem, since it is not naturally available in datasets. In this work, we investigate the appropriateness of regressions and skips in human reading eye-tracking data as signals to inform revision policies in incremental sequence labelling. Using generalised mixed-effects models, we find that the probability of regressions and skips by humans can potentially serve as useful predictors for revisions in BiLSTMs and Transformer models, with consistent results for various languages.
arxiv情報
著者 | Brielen Madureira,Pelin Çelikkol,David Schlangen |
発行日 | 2023-10-27 16:08:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google