A Massive Scale Semantic Similarity Dataset of Historical English

要約

さまざまなタスクで、意味的類似性データに基づいてトレーニングされた言語モデルが使用されます。
意味的な類似性を捉えるさまざまなデータセットがありますが、それらは最新の Web データから構築されているか、ヒューマン アノテーターによって過去 10 年間に作成された比較的小規模なデータセットです。
この研究は、著作権が切れた米国の地元新聞から新たにデジタル化された記事という新しいソースを利用して、1920 年から 1989 年までの 70 年間にわたる、約 4 億の正の意味的類似性ペアを含む大規模な意味的類似性データセットを構築します。
歴史的に、米国の地方紙の記事の約半分は AP 通信などの通信社からのものでした。
地方紙はニュースワイヤーの記事を転載する一方で、関連する記事の抽象的な要約を形成する独自の見出しを書きました。
私たちは文書のレイアウトと言語の理解を活用して、記事とその見出しを関連付けます。
次に、ディープ ニューラル手法を使用して、相当なノイズや要約が存在する場合でも、どの記事が同じ基礎ソースからのものであるかを検出します。
複製された記事の見出しは、肯定的な意味的類似性のペアを形成します。
結果として公開される HEADLINES データセットは、既存のほとんどの意味的類似性データセットよりも大幅に大きく、はるかに長い期間をカバーします。
これにより、対照的にトレーニングされた意味的類似性モデルを、空間と時間にわたる意味的変化の研究を含むさまざまなタスクに適用することが容易になります。

要約(オリジナル)

A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relatively small datasets created in the past decade by human annotators. This study utilizes a novel source, newly digitized articles from off-copyright, local U.S. newspapers, to assemble a massive-scale semantic similarity dataset spanning 70 years from 1920 to 1989 and containing nearly 400M positive semantic similarity pairs. Historically, around half of articles in U.S. local newspapers came from newswires like the Associated Press. While local papers reproduced articles from the newswire, they wrote their own headlines, which form abstractive summaries of the associated articles. We associate articles and their headlines by exploiting document layouts and language understanding. We then use deep neural methods to detect which articles are from the same underlying source, in the presence of substantial noise and abridgement. The headlines of reproduced articles form positive semantic similarity pairs. The resulting publicly available HEADLINES dataset is significantly larger than most existing semantic similarity datasets and covers a much longer span of time. It will facilitate the application of contrastively trained semantic similarity models to a variety of tasks, including the study of semantic change across space and time.

arxiv情報

著者 Emily Silcock,Melissa Dell
発行日 2023-08-24 01:22:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, econ.GN, q-fin.EC パーマリンク