要約
長い形式の文書の照合は、2 つの文書間の関連性を判断することを目的としており、さまざまなシナリオに適用されています。
既存の作品のほとんどは、文書を処理するために階層的または長いコンテキスト モデルを利用しており、大まかな理解は達成できますが、詳細は無視される可能性があります。
研究者の中には、詳細な一致信号に焦点を当てるために、整列された文書のサブトピックに関する同様の文を含む文書ビューを構築する人もいます。
ただし、長い文書には通常、複数のサブトピックが含まれます。
一致するシグナルは複数のトピックからの異種混合です。
相同に整列されたサブトピックのみを考慮すると、十分に代表的ではない可能性があり、偏ったモデリングが発生する可能性があります。
この論文では、代表的な一致信号をモデル化するための新しいフレームワークを紹介します。
まず、文書ペアのサブトピックを通じてさまざまな一致シグナルをキャプチャすることを提案します。
次に、異質で貴重な詳細をカバーするために、サブトピックに基づいて複数のドキュメント ビューを構築します。
ただし、これらすべてのビューを同時に統合するアテンションのような既存の空間集約手法では、異種の情報を統合するのが困難です。
代わりに、トレーニングの進行につれてさまざまなビューを徐々に効果的に統合する時間的集約を提案します。
実験結果は、私たちの学習フレームワークが、ニュースの重複や訴訟の検索など、いくつかの文書照合タスクに効果的であることを示しています。
要約(オリジナル)
Long-form document matching aims to judge the relevance between two documents and has been applied to various scenarios. Most existing works utilize hierarchical or long context models to process documents, which achieve coarse understanding but may ignore details. Some researchers construct a document view with similar sentences about aligned document subtopics to focus on detailed matching signals. However, a long document generally contains multiple subtopics. The matching signals are heterogeneous from multiple topics. Considering only the homologous aligned subtopics may not be representative enough and may cause biased modeling. In this paper, we introduce a new framework to model representative matching signals. First, we propose to capture various matching signals through subtopics of document pairs. Next, We construct multiple document views based on subtopics to cover heterogeneous and valuable details. However, existing spatial aggregation methods like attention, which integrate all these views simultaneously, are hard to integrate heterogeneous information. Instead, we propose temporal aggregation, which effectively integrates different views gradually as the training progresses. Experimental results show that our learning framework is effective on several document-matching tasks, including news duplication and legal case retrieval.
arxiv情報
著者 | Youchao Zhou,Heyan Huang,Zhijing Wu,Yuhang Liu,Xinglin Wang |
発行日 | 2024-12-10 15:06:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google