An Information Extraction Study: Take In Mind the Tokenization!

要約

タイトル:情報抽出調査:トークナイズを考慮に入れる!
要約:
– 今日、トークン化されたテキストの代わりに文字を深層学習モデルの入力として使用する利点とトレードオフに関する現在の研究は大幅に進化しています。
– 新しいトークンフリーモデルは従来のトークナイゼーションステップを削除しますが、その効率性は未だ不明です。
– さらに、シーケンスタグ付けタスクにおけるトークナイゼーションの影響は比較的未調査です。
– このため、私たちは文書から情報を抽出する際のトークナイゼーションの影響を調査し、サブワードベースのモデルと文字ベースのモデルの比較研究と分析を行います。
– 具体的には、バイオメディカルテキストから情報を抽出しています。
– 主な結果は2つあります。トークナイゼーションパターンは帰納バイアスを導入し、最先端のパフォーマンスをもたらし、文字ベースのモデルは有望な結果を生み出すため、トークンフリーの情報抽出モデルへの移行は実現可能です。

要約(オリジナル)

Current research on the advantages and trade-offs of using characters, instead of tokenized text, as input for deep learning models, has evolved substantially. New token-free models remove the traditional tokenization step; however, their efficiency remains unclear. Moreover, the effect of tokenization is relatively unexplored in sequence tagging tasks. To this end, we investigate the impact of tokenization when extracting information from documents and present a comparative study and analysis of subword-based and character-based models. Specifically, we study Information Extraction (IE) from biomedical texts. The main outcome is twofold: tokenization patterns can introduce inductive bias that results in state-of-the-art performance, and the character-based models produce promising results; thus, transitioning to token-free IE models is feasible.

arxiv情報

著者 Christos Theodoropoulos,Marie-Francine Moens
発行日 2023-04-01 19:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク