要約
監視された神経アプローチは、大規模で細心の注意を払って注釈付きのデータセットに依存することによって妨げられます。これは、連続したタスクに特に面倒な要件です。
注釈の品質は、専門家ベースからクラウドソースのラベル付けへの移行とともに、悪化する傾向があります。
これらの課題に対処するために、順次マルチアウトプットの問題に合わせて調整されたプールベースのアクティブ学習フレームワークであるCamel(効率的な自己監視アクティブ学習のための信頼ベースの取得モデル)を提示します。
Camelは2つのコア機能を備えています。(1)エキスパートアノテーターが選択されたシーケンスのほんの一部のみにラベルを付ける必要があり、(2)残りのシーケンスのセルフスーパービジョンを促進します。
ラベル補正メカニズムを展開することにより、ラクダはデータクリーニングにも利用できます。
対話の信念追跡に特に重点を置いて、2つの連続したタスクでラクダを評価します。これは、限られた騒々しいデータセットの制約に悩まされているタスクです。
私たちの実験は、ラクダが効率性の点でベースラインを大幅に上回ることを示しています。
さらに、私たちの方法によって提案されたデータ修正は、結果のデータセットの品質の全体的な改善に貢献します。
要約(オリジナル)
Supervised neural approaches are hindered by their dependence on large, meticulously annotated datasets, a requirement that is particularly cumbersome for sequential tasks. The quality of annotations tends to deteriorate with the transition from expert-based to crowd-sourced labelling. To address these challenges, we present CAMEL (Confidence-based Acquisition Model for Efficient self-supervised active Learning), a pool-based active learning framework tailored to sequential multi-output problems. CAMEL possesses two core features: (1) it requires expert annotators to label only a fraction of a chosen sequence, and (2) it facilitates self-supervision for the remainder of the sequence. By deploying a label correction mechanism, CAMEL can also be utilised for data cleaning. We evaluate CAMEL on two sequential tasks, with a special emphasis on dialogue belief tracking, a task plagued by the constraints of limited and noisy datasets. Our experiments demonstrate that CAMEL significantly outperforms the baselines in terms of efficiency. Furthermore, the data corrections suggested by our method contribute to an overall improvement in the quality of the resulting datasets.
arxiv情報
著者 | Carel van Niekerk,Christian Geishauser,Michael Heck,Shutong Feng,Hsien-chin Lin,Nurul Lubis,Benjamin Ruppik,Renato Vukovic,Milica Gašić |
発行日 | 2025-03-07 11:23:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google