要約
ディープラーニングの過去10年間で、多種多様なアプリケーションに展開されるシステムの性能はますます向上している。自然言語処理では、大規模な言語モデルを含む数多くのブレークスルーにより、この分野は大きく変貌し、ますます多くのユーザー向けアプリケーションで使用されるようになっている。この技術の恩恵を享受し、潜在的な弊害を軽減するためには、モデル予測の信頼性と、その開発に覆いかぶさる不確実性を定量化することが重要である。 本論文では、自然言語処理における不確実性を、言語学的、統計学的、神経学的観点からどのように特徴付けることができるか、また、実験パイプラインの設計を通じて、どのように不確実性を低減し、定量化できるかを研究する。さらに、テキスト分類タスクにおける帰納的モデルバイアスの効果を理論的・実証的に調査することで、モデリングにおける不確実性の定量化を探求する。対応する実験には、3つの異なる言語(デンマーク語、英語、フィンランド語)とタスクのデータと、異なる不確実性定量化アプローチの大規模なセットが含まれる。さらに、非交換的な共形予測に基づく自然言語生成における較正サンプリングの手法を提案する。最後に、補助予測子を用いて、大規模なブラックボックス言語モデルの信頼度を定量化するアプローチを開発する。
要約(オリジナル)
The last decade in deep learning has brought on increasingly capable systems that are deployed on a wide variety of applications. In natural language processing, the field has been transformed by a number of breakthroughs including large language models, which are used in increasingly many user-facing applications. In order to reap the benefits of this technology and reduce potential harms, it is important to quantify the reliability of model predictions and the uncertainties that shroud their development. This thesis studies how uncertainty in natural language processing can be characterized from a linguistic, statistical and neural perspective, and how it can be reduced and quantified through the design of the experimental pipeline. We further explore uncertainty quantification in modeling by theoretically and empirically investigating the effect of inductive model biases in text classification tasks. The corresponding experiments include data for three different languages (Danish, English and Finnish) and tasks as well as a large set of different uncertainty quantification approaches. Additionally, we propose a method for calibrated sampling in natural language generation based on non-exchangeable conformal prediction, which provides tighter token sets with better coverage of the actual continuation. Lastly, we develop an approach to quantify confidence in large black-box language models using auxiliary predictors, where the confidence is predicted from the input to and generated output text of the target model alone.
arxiv情報
著者 | Dennis Ulmer |
発行日 | 2024-10-04 14:08:02+00:00 |
arxivサイト | arxiv_id(pdf) |