要約
人間のユーザーと会話する機械知能を設計するには、必然的に人間がどのように会話に参加するかを理解する必要があるため、会話のモデリングは自然言語処理における重要なタスクです。
アーキテクチャとデータ収集における新たな進歩により、このような会話型 AI モデルのパフォーマンスが向上し続けています。
しかし、デザインは、人間がコミュニケーションを学ぶにつれて徐々に蓄積される文構造と複雑さを無視しています。
トレーニング中、私たちのモデルは 1 つ以上の文を入力として受け入れ、会話の次の文を一度に 1 単語ずつ予測しようとします。そのため、私たちの目標は、トレーニングをセグメントに分割し、各セグメントのコーパスが以前よりも長い文のペアで構成されるようにすることです。
一。
これは、人間の学習に望ましい「構築」要素を模倣します。
最初は「短い」長さの文のペアのみ、次に「中程度」の長さのペアのみ、というように続きます。
詳細の多くは新たな疑問であったため、私たちの実験の大部分は、この手法の最適化を目的としており、この手法の可能性を適切に表現することが保証されていました。
セグメントでトレーニングされたモデルは、標準的なテキスト準備でトレーニングされたモデルよりもトレーニング終了時の検証損失が低くなりました。
このセグメント化されたトレーニングは実装が簡単であり、私たちの結果は、それを実装および改善するための将来の研究に一般的な方向性を提供します。
要約(オリジナル)
Designing machine intelligence to converse with a human user necessarily requires an understanding of how humans participate in conversation, and thus conversation modeling is an important task in natural language processing. New breakthroughs in architecture and data gathering continue to push the performance of such conversational AI models. However, designs neglect the gradual buildup in sentence structure and complexity experienced by humans as we learn to communicate. During training, our model accepts one or more sentences as input and attempts to predict the next sentence in the conversation one word at a time, so our goal is to separate training into segments, with each segment’s corpus comprised of longer sentence pairs than the previous one. This will mimic the desired ‘buildup’ component of human learning. We begin with only ‘short’ length sentence pairs, then only ‘medium’ length pairs, and so on. A majority of our experiments were toward optimizing this technique, ensuring a proper representation of the technique’s potential, since many of the details were new questions. Our segment-trained models were then able to achieve lower validation loss at the end of training than models trained with standard text preparation. This segmented training is straightforward to implement and our results provide a general direction for future research to implement and improve it.
arxiv情報
著者 | Sean Paulsen |
発行日 | 2023-05-15 17:28:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google