要約
$n$ の結果に対するマルチクラス分類では、データの分布に関係なく、「正しい」分類につながる一貫した代理損失を設計するために、結果を少なくとも $n-1$ の次元を持つ実数に埋め込む必要があります。
情報検索や構造化予測タスクなど、大規模な $n$ の場合、$n-1$ 次元でのサロゲートの最適化は困難なことがよくあります。
私たちは、代理損失の次元、問題インスタンスの数、およびマルチクラス分類のシンプレックス内の一貫性領域の制限をトレードオフする方法を調査します。
過去の研究に続いて、結果を低次元代理空間の凸多面体の頂点にマッピングする直感的な埋め込み手順を検討します。
我々は、整合性が保たれる各点質量分布の周囲に単体の全次元サブセットが存在することを示しますが、$n-1$ 次元未満では、幻覚と呼ばれる現象が発生する分布も存在します。
代理損失に基づくレポートは確率ゼロの結果です。
アプリケーションに目を向けると、特定のポリトープ埋め込みと低ノイズの仮定の下で一貫性が保たれているかどうかを確認する結果を導き出し、特定の埋め込みをいつ使用するかについての洞察を提供します。
低ノイズ仮定の下で、 $n = 2^{d}$ の結果を $d$ 次元の単位立方体に埋め込み、 $n = d!$ の結果を $d$ 次元の順平面体に埋め込む例を示します。
最後に、複数の問題インスタンスを使用して、単体全体にわたる $\frac{n}{2}$ 次元のモードを学習できることを示します。
要約(オリジナル)
In multiclass classification over $n$ outcomes, the outcomes must be embedded into the reals with dimension at least $n-1$ in order to design a consistent surrogate loss that leads to the ‘correct’ classification, regardless of the data distribution. For large $n$, such as in information retrieval and structured prediction tasks, optimizing a surrogate in $n-1$ dimensions is often intractable. We investigate ways to trade off surrogate loss dimension, the number of problem instances, and restricting the region of consistency in the simplex for multiclass classification. Following past work, we examine an intuitive embedding procedure that maps outcomes into the vertices of convex polytopes in a low-dimensional surrogate space. We show that full-dimensional subsets of the simplex exist around each point mass distribution for which consistency holds, but also, with less than $n-1$ dimensions, there exist distributions for which a phenomenon called hallucination occurs, which is when the optimal report under the surrogate loss is an outcome with zero probability. Looking towards application, we derive a result to check if consistency holds under a given polytope embedding and low-noise assumption, providing insight into when to use a particular embedding. We provide examples of embedding $n = 2^{d}$ outcomes into the $d$-dimensional unit cube and $n = d!$ outcomes into the $d$-dimensional permutahedron under low-noise assumptions. Finally, we demonstrate that with multiple problem instances, we can learn the mode with $\frac{n}{2}$ dimensions over the whole simplex.
arxiv情報
著者 | Enrique Nueve,Bo Waggoner,Dhamma Kimpara,Jessie Finocchiaro |
発行日 | 2024-02-16 16:42:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google