CORE: A Few-Shot Company Relation Classification Dataset for Robust Domain Adaptation

要約

企業関係とビジネスエンティティに焦点を当てた少数ショット関係分類 (RC) 用のデータセットである CORE を紹介します。
CORE には、12 の関係タイプの 4,708 個のインスタンスと、企業の Wikipedia ページから抽出された対応するテキスト証拠が含まれています。
会社名や事業体に関連する情報は豊富で多様であるため、数ショットの RC モデルでは課題が生じます。
たとえば、企業名は、状況に応じて、法人、製品、人物、または事業部門を表す場合があります。
したがって、エンティティ間の関係タイプの導出は、テキストのコンテキストに大きく依存します。
CORE データセット上で最先端の RC モデルのパフォーマンスを評価するために、少数ショット ドメイン適応設定で実験を実施します。
私たちの結果は、パフォーマンスに大きなギャップがあることを明らかにし、異なるドメインでトレーニングされたモデルが CORE に適応するのに苦労していることを裏付けています。
興味深いことに、CORE でトレーニングされたモデルはドメイン外のパフォーマンスが向上していることがわかりました。これは、堅牢なドメイン適応のための高品質データの重要性を強調しています。
具体的には、ビジネス エンティティに豊富な情報が埋め込まれているため、モデルは文脈上のニュアンスに焦点を当てることができ、関係固有の動詞などの表面的な手がかりへの依存が軽減されます。
データセットに加えて、再現性を高め、この分野でのさらなる研究を促進するために、関連するコード スニペットも提供します。

要約(オリジナル)

We introduce CORE, a dataset for few-shot relation classification (RC) focused on company relations and business entities. CORE includes 4,708 instances of 12 relation types with corresponding textual evidence extracted from company Wikipedia pages. Company names and business entities pose a challenge for few-shot RC models due to the rich and diverse information associated with them. For example, a company name may represent the legal entity, products, people, or business divisions depending on the context. Therefore, deriving the relation type between entities is highly dependent on textual context. To evaluate the performance of state-of-the-art RC models on the CORE dataset, we conduct experiments in the few-shot domain adaptation setting. Our results reveal substantial performance gaps, confirming that models trained on different domains struggle to adapt to CORE. Interestingly, we find that models trained on CORE showcase improved out-of-domain performance, which highlights the importance of high-quality data for robust domain adaptation. Specifically, the information richness embedded in business entities allows models to focus on contextual nuances, reducing their reliance on superficial clues such as relation-specific verbs. In addition to the dataset, we provide relevant code snippets to facilitate reproducibility and encourage further research in the field.

arxiv情報

著者 Philipp Borchert,Jochen De Weerdt,Kristof Coussement,Arno De Caigny,Marie-Francine Moens
発行日 2023-10-18 14:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク