Zero-Shot Cross-Domain Dialogue State Tracking via Dual Low-Rank Adaptation

要約

ゼロショット対話状態追跡 (DST) は、手動による注釈や大規模な再トレーニングを行わずに、対話システムがなじみのないドメインに移行できるようにすることを目指しています。
これまでの研究では、プロンプトを言語モデル (LM) に埋め込むことでこの目的にアプローチしてきました。
一般的な方法論には、入力層でのプロンプトの統合や、各変換層での学習可能な変数の導入が含まれます。
それにもかかわらず、それぞれの戦略には固有の限界があります。
入力層に統合されたプロンプトは十分に活用されないリスクがあり、その影響は後続のトランス層全体で減少する可能性があります。
逆に、各層に学習可能な変数を追加すると、トレーニング プロセスが複雑になり、推論のレイテンシが増加する可能性があります。
上記の問題に取り組むために、この文書では、ゼロショット DST 用に設計されたプラグ アンド プレイ アーキテクチャであるデュアル ローランク アダプテーション (DualLoRA) を提案します。
DualLoRA には、ダイアログ コンテキスト処理とプロンプト最適化の両方を対象とした 2 つの異なる低ランク適応 (LoRA) コンポーネントが組み込まれており、トランスフォーマー モデル レイヤー全体にわたるプロンプトの包括的な影響を確実にします。
これは、追加の推論レイテンシを発生させることなく実現され、既存のアーキテクチャへの効率的な統合を示しています。
MultiWOZ および SGD データセットの厳密な評価を通じて、DualLoRA は複数のドメインにわたって顕著な改善を示し、ゼロショット設定で従来のベースライン手法を上回りました。
私たちのコードは \url{https://github.com/suntea233/DualLoRA} からアクセスできます。

要約(オリジナル)

Zero-shot dialogue state tracking (DST) seeks to enable dialogue systems to transition to unfamiliar domains without manual annotation or extensive retraining. Prior research has approached this objective by embedding prompts into language models (LMs). Common methodologies include integrating prompts at the input layer or introducing learnable variables at each transformer layer. Nonetheless, each strategy exhibits inherent limitations. Prompts integrated at the input layer risk underutilization, with their impact potentially diminishing across successive transformer layers. Conversely, the addition of learnable variables to each layer can complicate the training process and increase inference latency. To tackle the issues mentioned above, this paper proposes Dual Low-Rank Adaptation (DualLoRA), a plug-and-play architecture designed for zero-shot DST. DualLoRA incorporates two distinct Low-Rank Adaptation (LoRA) components, targeting both dialogue context processing and prompt optimization, to ensure the comprehensive influence of prompts throughout the transformer model layers. This is achieved without incurring additional inference latency, showcasing an efficient integration into existing architectures. Through rigorous evaluation on the MultiWOZ and SGD datasets, DualLoRA demonstrates notable improvements across multiple domains, outperforming traditional baseline methods in zero-shot settings. Our code is accessible at: \url{https://github.com/suntea233/DualLoRA}.

arxiv情報

著者 Xiang Luo,Zhiwen Tang,Jin Wang,Xuejie Zhang
発行日 2024-07-31 14:26:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク