Adapter-based Selective Knowledge Distillation for Federated Multi-domain Meeting Summarization

要約

会議の要約は、ユーザーに要約された要約を提供するための有望な技術として浮上しています。
しかし、既存の研究は集中化されたデータに基づくモデルのトレーニングに焦点を当てており、機密性の高い会議データを一元的に収集することが不可能である現実世界のシナリオを無視しています。
このギャップが、私たちが会議の要約のためのフェデレーテッド ラーニングを検討する動機となっています。
2 つの重大な課題が進歩を妨げています。
まず、最先端のサマライザーは、パラメーターを大量に使用する事前トレーニング済みモデルに基づいています。
このようなモデルのパラメータをクライアント間で交換すると、多大な帯域幅コストがかかります。
第 2 に、現実世界の会議データはさまざまなドメインに属し、クライアント間で分散されるため、同一ではなく独立して分散される (非 IID) インスタンスになります。
IID の仮定は当てはまらないため、どの形式の学習アルゴリズムが最適に適用されるかが変わります。
これに対処するために、パフォーマンスの高いクライアント モデルをトレーニングするためのアダプターベースの Federated Selective Knowledge Distillation (AdaFedSelecKD) を提案します。
具体的には、2 つのアダプターが連携して、より少ないパラメーターを使用して学習を促進し、通信コストを削減するアダプターベースの要約モデルを開発します。
次に、選択的な知識の蒸留戦略を考案し、非 IID データに基づくグローバル パラメーターを活用しながら、クライアントが独自のデータに基づいてドメインに焦点を当てたモデリングを確実に処理できるように支援します。
QMSum ベンチマークに関する広範な実験により、AdaFedSelecKD が強力な集中トレーニング方法で同等のパフォーマンスを達成できることが実証され、その汎用性と堅牢性が示されました。

要約(オリジナル)

Meeting summarization has emerged as a promising technique for providing users with condensed summaries. However, existing work has focused on training models on centralized data, neglecting real-world scenarios where meeting data are infeasible to collect centrally, due to their sensitive nature. This gap motivates us to explore federated learning for meeting summarization. Two critical challenges impede progress. First, state-of-the-art summarizers are based on parameter-heavy pre-trained models. Exchanging such a model’s parameters across clients imposes large bandwidth costs. Second, as real-world meeting data belong to various domains and are distributed across clients, they are instances of non-identically and independently distributed (non-IID). IID assumptions do not hold, which changes which forms of learning algorithms best apply. To address this, we propose Adapter-based Federated Selective Knowledge Distillation (AdaFedSelecKD) for training performant client models. Specifically, we develop an adapter-based summarization model where two adapters cooperatively facilitate learning using fewer parameters to reduce communication costs. Then, we devise a selective knowledge distillation strategy, assisting clients in robustly handling domain-focused modelling on their own data, while leveraging global parameters based on non-IID data. Extensive experiments on the QMSum benchmark demonstrate AdaFedSelecKD can achieve comparable performance with powerful centralized training methods, and shows its generalizability and robustness.

arxiv情報

著者 Xiachong Feng,Xiaocheng Feng,Xiyuan Du,Min-Yen Kan,Bing Qin
発行日 2023-08-07 03:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク