要約
現代の研究は、研究者を支援するために自動化された手法にますます依存しています。
この例としては、化学者が大量の文書から化学物質に関する情報を取得するのに役立つ光学化学構造認識 (OCSR) があります。
マークーシュ構造は、OCSR によって正しく解析できず、エラーの原因となる化学構造です。
この研究の焦点は、マークーシュ構造を分類するための新しい方法を提案し、テストすることでした。
この方法では、固定特徴抽出とエンドツーエンド学習 (CNN) の間で比較が行われました。
エンドツーエンド手法は固定特徴手法よりも大幅にパフォーマンスが良く、固定特徴手法の 0.701 (0.052 SD) と比較して 0.928 (0.035 SD) のマクロ F1 を達成しました。
実験の性質上、これらの数値は下限であり、さらに改善することができます。
これらの結果は、提案された方法を使用してマークーシュ構造を効果的かつ正確にフィルタリングできることを示唆しています。
このメソッドを OCSR パイプラインに実装すると、パフォーマンスが向上し、他の研究者が使用できるようになります。
要約(オリジナル)
Modern research increasingly relies on automated methods to assist researchers. An example of this is Optical Chemical Structure Recognition (OCSR), which aids chemists in retrieving information about chemicals from large amounts of documents. Markush structures are chemical structures that cannot be parsed correctly by OCSR and cause errors. The focus of this research was to propose and test a novel method for classifying Markush structures. Within this method, a comparison was made between fixed-feature extraction and end-to-end learning (CNN). The end-to-end method performed significantly better than the fixed-feature method, achieving 0.928 (0.035 SD) Macro F1 compared to the fixed-feature method’s 0.701 (0.052 SD). Because of the nature of the experiment, these figures are a lower bound and can be improved further. These results suggest that Markush structures can be filtered out effectively and accurately using the proposed method. When implemented into OCSR pipelines, this method can improve their performance and use to other researchers.
arxiv情報
著者 | Thomas Jurriaans,Kinga Szarkowska,Eric Nalisnick,Markus Schwoerer,Camilo Thorne,Saber Akhondi |
発行日 | 2023-11-24 18:02:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google