Linguistic Laws Meet Protein Sequences: A Comparative Analysis of Subword Tokenization Methods

要約

タンパク質はアミノ酸の複雑な配列であり、その機能的および構造的特性を捕捉するには意味のあるセグメンテーションが必要であるため、トークン化は機械学習モデル用のタンパク質配列を処理する際の重要なステップです。
ただし、主に人間の言語用に開発された既存のサブワードトークン化手法は、独自のパターンと制約を持つタンパク質配列には不適切である可能性があります。
この研究では、さまざまな語彙サイズ (400 ~ 6400) にわたって、バイトペア エンコーディング (BPE)、WordPiece、SentencePiece という 3 つの著名なトークン化アプローチを評価し、タンパク質配列表現、ドメイン境界の保存、確立された言語法則の順守におけるそれらの有効性を分析しています。
私たちの包括的な分析により、語彙のサイズがパフォーマンスに大きく影響する、トークナイザー間の異なる行動パターンが明らかになりました。
BPE は、より優れた文脈上の専門化と、より小さな語彙でのドメイン境界の保持のわずかな改善を示しますが、SentencePiece はより優れたエンコード効率を実現し、妊孕性スコアの低下につながります。
WordPiece は、これらの特性の間でバランスの取れた妥協点を提供します。
ただし、すべてのトークナイザーは、特に語彙サイズが増加するにつれて、タンパク質ドメインの完全性を維持することに限界を示します。
言語法則の遵守の分析では、Zipf の法則と Brevity の法則には部分的に準拠しているが、メンゼラートの法則からは顕著な逸脱が示されており、タンパク質配列が自然言語とは異なる組織原理に従っている可能性があることが示唆されています。
これらの発見は、従来の NLP トークン化手法をタンパク質配列に適用することの限界を浮き彫りにし、タンパク質の固有の特性をより適切に説明する特殊なトークン化戦略を開発する必要性を強調しています。

要約(オリジナル)

Tokenization is a crucial step in processing protein sequences for machine learning models, as proteins are complex sequences of amino acids that require meaningful segmentation to capture their functional and structural properties. However, existing subword tokenization methods, developed primarily for human language, may be inadequate for protein sequences, which have unique patterns and constraints. This study evaluates three prominent tokenization approaches, Byte-Pair Encoding (BPE), WordPiece, and SentencePiece, across varying vocabulary sizes (400-6400), analyzing their effectiveness in protein sequence representation, domain boundary preservation, and adherence to established linguistic laws. Our comprehensive analysis reveals distinct behavioral patterns among these tokenizers, with vocabulary size significantly influencing their performance. BPE demonstrates better contextual specialization and marginally better domain boundary preservation at smaller vocabularies, while SentencePiece achieves better encoding efficiency, leading to lower fertility scores. WordPiece offers a balanced compromise between these characteristics. However, all tokenizers show limitations in maintaining protein domain integrity, particularly as vocabulary size increases. Analysis of linguistic law adherence shows partial compliance with Zipf’s and Brevity laws but notable deviations from Menzerath’s law, suggesting that protein sequences may follow distinct organizational principles from natural languages. These findings highlight the limitations of applying traditional NLP tokenization methods to protein sequences and emphasize the need for developing specialized tokenization strategies that better account for the unique characteristics of proteins.

arxiv情報

著者 Burak Suyunu,Enes Taylan,Arzucan Özgür
発行日 2024-11-26 18:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.QM パーマリンク