Falcon 7b for Software Mention Detection in Scholarly Documents

要約

この論文は、学術文書内のソフトウェアの言及の検出と分類のための Falcon-7b の応用を調査することにより、さまざまな分野にわたる研究におけるソフトウェア ツールの統合の増加によってもたらされる課題に取り組むことを目的としています。
具体的には、この研究は、学術出版物におけるソフトウェア言及検出 (SOMD) のサブタスク I を解決することに焦点を当てています。これには、学術文献からのソフトウェア言及の特定と分類が含まれます。
この論文では、包括的な実験を通じて、クラスの不均衡や学術論文の微妙な構文の複雑さを克服しながら検出精度を向上させるために、二重分類子アプローチ、適応サンプリング、加重損失スケーリングなどのさまざまなトレーニング戦略を検討しています。
この調査結果は、モデルのパフォーマンス向上における選択的ラベリングと適応サンプリングの利点を強調しています。
ただし、複数の戦略を統合しても、必ずしも累積的な改善がもたらされるわけではないことも示しています。
この研究は、SOMD などの特定のタスクに対する大規模な言語モデルの効果的な適用に関する洞察を提供し、学術文書分析によって提示される固有の課題に対処するためのカスタマイズされたアプローチの重要性を強調しています。

要約(オリジナル)

This paper aims to tackle the challenge posed by the increasing integration of software tools in research across various disciplines by investigating the application of Falcon-7b for the detection and classification of software mentions within scholarly texts. Specifically, the study focuses on solving Subtask I of the Software Mention Detection in Scholarly Publications (SOMD), which entails identifying and categorizing software mentions from academic literature. Through comprehensive experimentation, the paper explores different training strategies, including a dual-classifier approach, adaptive sampling, and weighted loss scaling, to enhance detection accuracy while overcoming the complexities of class imbalance and the nuanced syntax of scholarly writing. The findings highlight the benefits of selective labelling and adaptive sampling in improving the model’s performance. However, they also indicate that integrating multiple strategies does not necessarily result in cumulative improvements. This research offers insights into the effective application of large language models for specific tasks such as SOMD, underlining the importance of tailored approaches to address the unique challenges presented by academic text analysis.

arxiv情報

著者 AmeerAli Khan,Qusai Ramadan,Cong Yang,Zeyd Boukhers
発行日 2024-05-14 11:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL, cs.LG パーマリンク