Can linguists better understand DNA?

要約

多言語伝達能力は、1 つのソース言語で微調整されたモデルが他の言語にどの程度適用できるかを反映しており、多言語の事前トレーニング済みモデルでよく研究されています。
しかし、自然言語と遺伝子配列/言語の間のそのような能力伝達の存在は依然として解明されていません。この研究は、自然言語における文の類似性を評価するために使用される文ペア分類タスクからインスピレーションを得て、このギャップに取り組んでいます。
我々は、DNA ペア分類 (DNA 配列の類似性) と DNA タンパク質ペア分類 (遺伝子コードの決定) という 2 つの類似したタスクを構築しました。
これらのタスクは、自然言語から遺伝子配列への能力の伝達可能性を検証するために設計されました。
英語で事前トレーニングされた GPT-2-small のような小規模な事前トレーニング モデルでさえ、英語の文ペア分類データで微調整された後、DNA ペア分類タスクで 78% の精度を達成しました(
XTREME PAWS-X)。
多言語テキストで BERT モデルをトレーニングすると、精度は 82% に達しました。しかし、より複雑な DNA-タンパク質ペアの分類タスクでは、モデルの出力はランダムな出力とほとんど区別できませんでした。実験は、自然言語からの能力の伝達がある可能性を示唆しています。
言語から遺伝言語への変換ですが、これを確認するにはさらなるタスクテストが必要です。

要約(オリジナル)

Multilingual transfer ability, which reflects how well models fine-tuned on one source language can be applied to other languages, has been well studied in multilingual pre-trained models. However, the existence of such capability transfer between natural language and gene sequences/languages remains underexplored.This study addresses this gap by drawing inspiration from the sentence-pair classification task used for evaluating sentence similarity in natural language. We constructed two analogous tasks: DNA-pair classification(DNA sequence similarity) and DNA-protein-pair classification(gene coding determination). These tasks were designed to validate the transferability of capabilities from natural language to gene sequences. Even a small-scale pre-trained model like GPT-2-small, which was pre-trained on English, achieved an accuracy of 78% on the DNA-pair classification task after being fine-tuned on English sentence-pair classification data(XTREME PAWS-X). While training a BERT model on multilingual text, the precision reached 82%.On the more complex DNA-protein-pair classification task, however, the model’s output was barely distinguishable from random output.Experiments suggest that there may be a capability transfer from natural language to genetic language, but further task testing is needed to confirm this.

arxiv情報

著者 Wang Liang
発行日 2024-12-10 17:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 92-10, cs.CL, J.3, q-bio.GN パーマリンク