要約
ニューラル ネットワーク パイプラインを使用した自然言語理解 (NLU) では、多くの場合、入力データにのみ存在するわけではない追加のコンテキストが必要になります。
これまでの調査を通じて、NLU ベンチマークがニューラル モデルによる操作の影響を受けやすいことが明らかであり、これらのモデルは、エンコードされた外部知識内の統計的アーティファクトを利用して、下流タスクのパフォーマンス メトリクスを人為的に増大させます。
Recap、Deliberate、Respond (RDR) パラダイムとして知られる私たちが提案するアプローチは、ニューラル ネットワーク パイプライン内に 3 つの異なる目的を組み込むことでこの問題に対処します。
まず、要約の目的には、言い換えモデルを使用して入力テキストを言い換えて、その本質を要約してカプセル化することが含まれます。
第 2 に、審議の目的には、グラフ埋め込みモデルを利用して、入力テキストで言及されているエンティティに関連する外部グラフ情報をエンコードすることが含まれます。
最後に、応答目標では、要約モジュールと審議モジュールからの表現を利用して最終予測を生成する分類ヘッド モデルを採用します。
これら 3 つのモデルをカスケード接続し、複合損失を最小限に抑えることで、ベンチマークをゲームする可能性を軽減し、基礎となるセマンティック パターンを捕捉するための堅牢な方法を確立し、正確な予測を可能にします。
RDR 手法の有効性を評価するために、複数の GLUE ベンチマーク タスクでテストを実施します。
当社の結果は、競合ベースラインと比較してパフォーマンスが向上し、標準指標で最大 2\% 向上していることを示しています。
さらに、RDR モデルによって示された意味理解に関する観察された証拠を分析し、ベンチマークのゲームを回避し、その代わりに真の根底にある意味パターンを正確に捕捉する RDR モデルの能力を強調します。
要約(オリジナル)
Natural language understanding (NLU) using neural network pipelines often requires additional context that is not solely present in the input data. Through Prior research, it has been evident that NLU benchmarks are susceptible to manipulation by neural models, wherein these models exploit statistical artifacts within the encoded external knowledge to artificially inflate performance metrics for downstream tasks. Our proposed approach, known as the Recap, Deliberate, and Respond (RDR) paradigm, addresses this issue by incorporating three distinct objectives within the neural network pipeline. Firstly, the Recap objective involves paraphrasing the input text using a paraphrasing model in order to summarize and encapsulate its essence. Secondly, the Deliberation objective entails encoding external graph information related to entities mentioned in the input text, utilizing a graph embedding model. Finally, the Respond objective employs a classification head model that utilizes representations from the Recap and Deliberation modules to generate the final prediction. By cascading these three models and minimizing a combined loss, we mitigate the potential for gaming the benchmark and establish a robust method for capturing the underlying semantic patterns, thus enabling accurate predictions. To evaluate the effectiveness of the RDR method, we conduct tests on multiple GLUE benchmark tasks. Our results demonstrate improved performance compared to competitive baselines, with an enhancement of up to 2\% on standard metrics. Furthermore, we analyze the observed evidence for semantic understanding exhibited by RDR models, emphasizing their ability to avoid gaming the benchmark and instead accurately capture the true underlying semantic patterns.
arxiv情報
著者 | Yuxin Zi,Hariram Veeramani,Kaushik Roy,Amit Sheth |
発行日 | 2024-03-05 17:29:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google