Towards Trustworthy and Aligned Machine Learning: A Data-centric Survey with Causality Perspectives

要約

機械学習の信頼性は、堅牢性、セキュリティ、解釈可能性、公平性などのさまざまなアプリケーションや研究分野を網羅するこの分野の重要なトピックとして浮上しています。
過去 10 年間に、これらの課題に対処する多くの方法が開発されました。
この調査では、データ中心の観点からこれらの進歩を体系的にレビューし、データによってもたらされる課題に対処する際の従来の経験的リスク最小化 (ERM) トレーニングの欠点を強調しています。
興味深いことに、信頼できる機械学習サブフィールド全体で個別に開発されているにもかかわらず、これらの手法が収束していることが観察されています。
Pearl の因果関係の階層は、これらの技術に統一的なフレームワークを提供します。
したがって、この調査では、統一された一連の概念を使用して信頼できる機械学習開発の背景を示し、この言語をパールの因果階層に結び付け、最後に因果関係の文献から明示的にインスピレーションを得た方法について議論します。
私たちは、堅牢性、敵対的堅牢性、解釈可能性、公平性にわたってこれらの手法をリンクする数学的語彙を備えた統一言語を提供し、この分野のより一貫した理解を促進します。
さらに、大規模な事前トレーニング済みモデルの信頼性を調査します。
微調整、パラメーター効率の高い微調整、プロンプト、人間のフィードバックによる強化学習などの主要な手法を要約した後、それらと標準的な ERM との間のつながりを描きます。
このつながりにより、信頼できるメソッドの原則的な理解に基づいて構築し、それを大規模な事前トレーニング済みモデルの新しい手法に拡張して、将来のメソッドへの道を開くことができます。
この観点に基づく既存の手法もレビューされます。
最後に、これらの手法の応用について簡単にまとめ、調査に関連する将来の可能性について説明します。
詳細については、http://trustai.one をご覧ください。

要約(オリジナル)

The trustworthiness of machine learning has emerged as a critical topic in the field, encompassing various applications and research areas such as robustness, security, interpretability, and fairness. The last decade saw the development of numerous methods addressing these challenges. In this survey, we systematically review these advancements from a data-centric perspective, highlighting the shortcomings of traditional empirical risk minimization (ERM) training in handling challenges posed by the data. Interestingly, we observe a convergence of these methods, despite being developed independently across trustworthy machine learning subfields. Pearl’s hierarchy of causality offers a unifying framework for these techniques. Accordingly, this survey presents the background of trustworthy machine learning development using a unified set of concepts, connects this language to Pearl’s causal hierarchy, and finally discusses methods explicitly inspired by causality literature. We provide a unified language with mathematical vocabulary to link these methods across robustness, adversarial robustness, interpretability, and fairness, fostering a more cohesive understanding of the field. Further, we explore the trustworthiness of large pretrained models. After summarizing dominant techniques like fine-tuning, parameter-efficient fine-tuning, prompting, and reinforcement learning with human feedback, we draw connections between them and the standard ERM. This connection allows us to build upon the principled understanding of trustworthy methods, extending it to these new techniques in large pretrained models, paving the way for future methods. Existing methods under this perspective are also reviewed. Lastly, we offer a brief summary of the applications of these methods and discuss potential future aspects related to our survey. For more information, please visit http://trustai.one.

arxiv情報

著者 Haoyang Liu,Maheep Chaudhary,Haohan Wang
発行日 2023-07-31 17:11:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク