An Information Extraction Study: Take In Mind the Tokenization!

要約

深層学習モデルの入力として、トークン化されたテキストの代わりに文字を使用することの利点とトレードオフに関する現在の研究は、大幅に進化しています。
新しいトークンフリー モデルでは、従来のトークン化手順が削除されます。
ただし、それらの効率は不明のままです。
さらに、トークン化の効果は、シーケンスのタグ付けタスクでは比較的調査されていません。
この目的のために、ドキュメントから情報を抽出する際のトークン化の影響を調査し、サブワードベースと文字ベースのモデルの比較研究と分析を提示します。
具体的には、生物医学テキストからの情報抽出 (IE) を研究しています。
主な結果は 2 つあります。トークン化パターンは、最先端のパフォーマンスをもたらす帰納的バイアスを導入する可能性があり、文字ベースのモデルは有望な結果を生み出します。
したがって、トークンのない IE モデルへの移行は実現可能です。

要約(オリジナル)

Current research on the advantages and trade-offs of using characters, instead of tokenized text, as input for deep learning models, has evolved substantially. New token-free models remove the traditional tokenization step; however, their efficiency remains unclear. Moreover, the effect of tokenization is relatively unexplored in sequence tagging tasks. To this end, we investigate the impact of tokenization when extracting information from documents and present a comparative study and analysis of subword-based and character-based models. Specifically, we study Information Extraction (IE) from biomedical texts. The main outcome is twofold: tokenization patterns can introduce inductive bias that results in state-of-the-art performance, and the character-based models produce promising results; thus, transitioning to token-free IE models is feasible.

arxiv情報

著者 Christos Theodoropoulos,Marie-Francine Moens
発行日 2023-03-27 11:08:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク