要約
英語、ロシア語、中国語の言語非依存型教師なしトークン化問題に対して、メタ学習の可能性を探る。我々は、教師なしトークン化モデルのハイパーパラメータを自動的に決定するためのメタ学習アプローチを実装し、正規化アンチエントロピー、圧縮係数、クロススプリットF 1スコア、およびこれら3つの指標の加算・乗算合成といった人間に依存しないフィットネス関数を用いて、従来のF1トークン化スコアに対してテストを行った。英語とロシア語では、F1スコアと前者の3つのメトリクスの相加的な組み合わせの間にかなり良い相関があることがわかった。中国語の場合、F1スコアと圧縮率の間に有意な相関があることがわかった。この結果は、低リソース言語や死語の頑健な教師なしトークン化の可能性を示唆し、人類の言語を、異なる人類文化において進化した、異なる構造最適化スキームを持つ効率的な記号通信コードの進化という観点から考えることを可能にする。
要約(オリジナル)
We explore the possibility of meta-learning for the language-independent unsupervised tokenization problem for English, Russian, and Chinese. We implement the meta-learning approach for automatic determination of hyper-parameters of the unsupervised tokenization model proposed in earlier works, relying on various human-independent fitness functions such as normalised anti-entropy, compression factor and cross-split F 1 score, as well as additive and multiplicative composite combinations of the three metrics, testing them against the conventional F1 tokenization score. We find a fairly good correlation between the latter and the additive combination of the former three metrics for English and Russian. In case of Chinese, we find a significant correlation between the F 1 score and the compression factor. Our results suggest the possibility of robust unsupervised tokenization of low-resource and dead languages and allow us to think about human languages in terms of the evolution of efficient symbolic communication codes with different structural optimisation schemes that have evolved in different human cultures.
arxiv情報
著者 | Anton Kolonin |
発行日 | 2023-03-04 14:23:02+00:00 |
arxivサイト | arxiv_id(pdf) |