要約
共参照解決は従来、個々の文書を理解するためのコンポーネントとして使用されてきましたが、この研究では、よりグローバルな視点を取り、大規模なコーパスに存在するすべての文書レベルの共参照関係のセットからドメインについて何が学べるかを調査します。
私たちは、3,000 万件の生物医学抄録のコーパスから共参照チェーンを導出し、これらのチェーン内の文字列フレーズに基づいてグラフを構築し、同じ共参照チェーン内で共起するフレーズ間の接続を確立します。
次に、グラフ構造と媒介中心性の尺度を使用して、階層、アイデンティティ、およびノイズを示すエッジを区別し、階層を示すエッジに方向性を割り当て、複数の異なる概念に対応するノード (文字列) を分割します。
その結果、生物医学領域の概念を超えた豊富なデータ駆動型オントロジーが生まれ、その一部は人間が作成したオントロジーと大きく重複します。
相互参照チェーンとその結果として得られるオントロジーを、コードとともにクリエイティブ コモンズ ライセンスの下でリリースします。
要約(オリジナル)
While coreference resolution is traditionally used as a component in individual document understanding, in this work we take a more global view and explore what can we learn about a domain from the set of all document-level coreference relations that are present in a large corpus. We derive coreference chains from a corpus of 30 million biomedical abstracts and construct a graph based on the string phrases within these chains, establishing connections between phrases if they co-occur within the same coreference chain. We then use the graph structure and the betweeness centrality measure to distinguish between edges denoting hierarchy, identity and noise, assign directionality to edges denoting hierarchy, and split nodes (strings) that correspond to multiple distinct concepts. The result is a rich, data-driven ontology over concepts in the biomedical domain, parts of which overlaps significantly with human-authored ontologies. We release the coreference chains and resulting ontology under a creative-commons license, along with the code.
arxiv情報
著者 | Shir Ashury-Tahan,Amir David Nissan Cohen,Nadav Cohen,Yoram Louzoun,Yoav Goldberg |
発行日 | 2024-10-22 14:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google