Enriching Social Science Research via Survey Item Linking

要約

調査項目と呼ばれる調査内の質問は、社会科学において、生活の満足度に影響を与える要因などの潜在的な概念を研究するために使用されます。
研究者は明示的な引用を使用する代わりに、テキスト内で使用する調査項目の内容を言い換えます。
ただし、このため、関連する調査を比較するときに、関心のある調査項目を見つけることが困難になります。
これらの暗黙的な言及を自動的に解析してナレッジ ベース内の調査項目にリンクすると、より詳細な参照を提供できます。
調査項目リンク (SIL) と呼ばれるこのタスクを、言及の検出とエンティティの曖昧さの解消という 2 つの段階でモデル化します。
タスクの定義が不正確であるため、SIL のパフォーマンスの評価に使用される既存のデータセットは小さすぎて低品質です。
私たちは、潜在的な概念と調査項目の言及は区別されるべきであると主張します。
この目的を達成するために、20,454 の英語とドイツ語の文から構成される高品質で豊富な注釈が付けられたデータセットを作成します。
2 つのステージのそれぞれで深層学習システムのベンチマークを独立して順次実行することで、タスクが実行可能であることを実証しましたが、最初のステージからエラーが伝播し、全体的なタスクのパフォーマンスが低下することが観察されました。
さらに、複数の文のコンテキストを必要とする言及は、最初の段階でモデルの識別がより困難になります。
文書のコンテキスト全体をモデル化し、2 つの段階をエンドツーエンドのシステムに結合することで、将来の作業でこれらの問題を軽減できる可能性があり、さらに、より多様なデータを収集し、ナレッジ ベースの品質を向上させることでエラーを減らすこともできます。
データとコードは https://github.com/e-tornike/SIL で入手できます。

要約(オリジナル)

Questions within surveys, called survey items, are used in the social sciences to study latent concepts, such as the factors influencing life satisfaction. Instead of using explicit citations, researchers paraphrase the content of the survey items they use in-text. However, this makes it challenging to find survey items of interest when comparing related work. Automatically parsing and linking these implicit mentions to survey items in a knowledge base can provide more fine-grained references. We model this task, called Survey Item Linking (SIL), in two stages: mention detection and entity disambiguation. Due to an imprecise definition of the task, existing datasets used for evaluating the performance for SIL are too small and of low-quality. We argue that latent concepts and survey item mentions should be differentiated. To this end, we create a high-quality and richly annotated dataset consisting of 20,454 English and German sentences. By benchmarking deep learning systems for each of the two stages independently and sequentially, we demonstrate that the task is feasible, but observe that errors propagate from the first stage, leading to a lower overall task performance. Moreover, mentions that require the context of multiple sentences are more challenging to identify for models in the first stage. Modeling the entire context of a document and combining the two stages into an end-to-end system could mitigate these problems in future work, and errors could additionally be reduced by collecting more diverse data and by improving the quality of the knowledge base. The data and code are available at https://github.com/e-tornike/SIL .

arxiv情報

著者 Tornike Tsereteli,Daniel Ruffinelli,Simone Paolo Ponzetto
発行日 2024-12-20 12:14:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク