Denoising Cosine Similarity: A Theory-Driven Approach for Efficient Representation Learning

要約

【タイトル】
効率化された表現学習のための理論駆動アプローチによるノイズ除去コサイン類似度

【要約】
– 表現学習は、様々な下流タスクに適用できる表現を効率的に学習できるため、機械学習の研究や実践において影響力を増している。
– しかし、表現学習の段階で使われる現実世界のデータセットは、ノイズにより汚染されていることが多く、学習された表現の品質を低下させる可能性がある。
– この論文では、生のデータセットに対してノイズに強い表現を学習する問題に取り組んでいる。
– この問題に対して、最近のノイズ除去に関する研究と表現学習におけるコサイン類似度ベースの目的関数の成功を受けて、本研究では「ノイズ除去コサイン類似度 (dCS) ロス」を提案している。
– dCSロスは、修正されたコサイン類似度ロスであり、ノイズ除去の性質を組み込んでおり、理論的および実証的にサポートされている。
– dCSロスを実装可能にするために、dCSロスの推定量も統計的な保証を持って構築されている。
– 最後に、視覚および音声ドメインにおけるベースラインの目的関数に比べて、dCSロスの効率性を実証している。

要約(オリジナル)

Representation learning has been increasing its impact on the research and practice of machine learning, since it enables to learn representations that can apply to various downstream tasks efficiently. However, recent works pay little attention to the fact that real-world datasets used during the stage of representation learning are commonly contaminated by noise, which can degrade the quality of learned representations. This paper tackles the problem to learn robust representations against noise in a raw dataset. To this end, inspired by recent works on denoising and the success of the cosine-similarity-based objective functions in representation learning, we propose the denoising Cosine-Similarity (dCS) loss. The dCS loss is a modified cosine-similarity loss and incorporates a denoising property, which is supported by both our theoretical and empirical findings. To make the dCS loss implementable, we also construct the estimators of the dCS loss with statistical guarantees. Finally, we empirically show the efficiency of the dCS loss over the baseline objective functions in vision and speech domains.

arxiv情報

著者 Takumi Nakagawa,Yutaro Sanada,Hiroki Waida,Yuhui Zhang,Yuichiro Wada,Kōsaku Takanashi,Tomonori Yamada,Takafumi Kanamori
発行日 2023-04-19 10:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク