Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy in Mental Health and Beyond

要約

私たちは、生成パイプラインを下流タスクの詳細に適応させ、メンタルヘルスにおける長文生成を強化する方法として、タスク適応型トークン化を提案します。
認知科学からの洞察に触発されたタスク適応トークナイザーは、タスク固有のデータに基づいて最適化されたサンプリング確率を使用して、複数の結果からさまざまなセグメンテーションをサンプリングします。
特殊な語彙を構築するための戦略を導入し、タスク固有のトークンを事前トレーニングされたモデルのトークン化ステップに統合できるようにする語彙結合プロトコルを導入します。
中国語と英語の両方での心理学的質問応答タスクに関する広範な実験を通じて、タスク適応型トークン化アプローチが、トークンの使用量を最大 60% 削減しながら、生成パフォーマンスの大幅な向上をもたらすことがわかりました。
予備実験では、非常に大規模な言語モデルでトークン化アプローチを使用した場合に有望な結果が得られることが示されています。

要約(オリジナル)

We propose task-adaptive tokenization as a way to adapt the generation pipeline to the specifics of a downstream task and enhance long-form generation in mental health. Inspired by insights from cognitive science, our task-adaptive tokenizer samples variable segmentations from multiple outcomes, with sampling probabilities optimized based on task-specific data. We introduce a strategy for building a specialized vocabulary and introduce a vocabulary merging protocol that allows for the integration of task-specific tokens into the pre-trained model’s tokenization step. Through extensive experiments on psychological question-answering tasks in both Chinese and English, we find that our task-adaptive tokenization approach brings a significant improvement in generation performance while using up to 60% fewer tokens. Preliminary experiments point to promising results when using our tokenization approach with very large language models.

arxiv情報

著者 Siyang Liu,Naihao Deng,Sahand Sabour,Yilin Jia,Minlie Huang,Rada Mihalcea
発行日 2023-11-13 14:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68, cs.AI, cs.CL, I.2.7 パーマリンク