Enhancing Software Related Information Extraction with Generative Language Models through Single-Choice Question Answering

要約

この文書では、単一選択の質問応答を使用した生成言語モデル (GLM) による学術文書内の関係抽出の改善に焦点を当てた、ソフトウェア言及曖昧さ回避 (SOMD) に関する共有タスクへの参加について説明します。
この方法では、GLM のインコンテキスト学習機能の使用を優先して、ソフトウェア関連エンティティとその記述的属性 (配布情報など) を抽出します。
私たちのアプローチでは、検索拡張生成 (RAG) 技術と、固有表現認識 (NER) および属性 NER 用の GLM を使用して、抽出されたソフトウェア エンティティ間の関係を特定し、学術文献におけるソフトウェア引用を分析するための構造化されたソリューションを提供します。
この論文では、私たちのアプローチについて詳細に説明し、単一選択の QA パラダイムで GLM を使用することで、IE 方法論がどのように大幅に強化されるかを示しています。
SOMD 共有タスクへの当社の参加は、ソフトウェア引用の正確な実践の重要性を強調し、ソフトウェア言及間の関係を曖昧さなくして抽出するという課題を克服する当社のシステムの能力を実証します。
これは、この分野における将来の研究開発の基礎となります。

要約(オリジナル)

This paper describes our participation in the Shared Task on Software Mentions Disambiguation (SOMD), with a focus on improving relation extraction in scholarly texts through Generative Language Models (GLMs) using single-choice question-answering. The methodology prioritises the use of in-context learning capabilities of GLMs to extract software-related entities and their descriptive attributes, such as distributive information. Our approach uses Retrieval-Augmented Generation (RAG) techniques and GLMs for Named Entity Recognition (NER) and Attributive NER to identify relationships between extracted software entities, providing a structured solution for analysing software citations in academic literature. The paper provides a detailed description of our approach, demonstrating how using GLMs in a single-choice QA paradigm can greatly enhance IE methodologies. Our participation in the SOMD shared task highlights the importance of precise software citation practices and showcases our system’s ability to overcome the challenges of disambiguating and extracting relationships between software mentions. This sets the groundwork for future research and development in this field.

arxiv情報

著者 Wolfgang Otto,Sharmila Upadhyaya,Stefan Dietze
発行日 2024-04-08 15:00:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク