A Side-by-side Comparison of Transformers for English Implicit Discourse Relation Classification

要約

談話解析は複数の NLP 分野に役立ちますが、暗黙的な談話関係分類に関して広範な言語モデルの検索が行われたことはありません。
このため、研究者は談話分析において公開されているモデルを十分に活用することができません。
この研究は、7 つの事前トレーニング済み言語モデルの単純で微調整された談話パフォーマンスの比較です。
私たちは、人気のある談話関係の注釈付きデータセットである PDTB-3 を使用します。
モデル検索を通じて、SOTA を 0.671 ACC に引き上げ、新しい観察結果を取得しました。
文レベルの事前トレーニング目標 (NSP、SBO、SOP) は一般に、暗黙的な談話関係分類に最高のパフォーマンスを発揮するモデルを生成できないという、以前に報告された内容 (Shi と Demberg、2019b) に反する意見もあります。
直観に反しますが、MLM と最大限の注意力を備えた同様のサイズの PLM は、パフォーマンスの向上につながりました。

要約(オリジナル)

Though discourse parsing can help multiple NLP fields, there has been no wide language model search done on implicit discourse relation classification. This hinders researchers from fully utilizing public-available models in discourse analysis. This work is a straightforward, fine-tuned discourse performance comparison of seven pre-trained language models. We use PDTB-3, a popular discourse relation annotated dataset. Through our model search, we raise SOTA to 0.671 ACC and obtain novel observations. Some are contrary to what has been reported before (Shi and Demberg, 2019b), that sentence-level pre-training objectives (NSP, SBO, SOP) generally fail to produce the best performing model for implicit discourse relation classification. Counterintuitively, similar-sized PLMs with MLM and full attention led to better performance.

arxiv情報

著者 Bruce W. Lee,BongSeok Yang,Jason Hyung-Jong Lee
発行日 2023-07-07 04:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク