Fast and Robust Rank Aggregation against Model Misspecification

要約

【タイトル】モデル誤りに対する高速かつ堅牢なランク集計

【要約】
– ランク集計(RA)で、異なるユーザーからの嗜好を均質性の仮定の下で全体的な順序にまとめる
– モデル誤りは、均質性の仮定が複雑な現実世界の状況では達成されなくなるため発生する
– 既存の堅牢なRAは、ランキングモデルの拡張に頼って追加ノイズを考慮することができる。したがって、収集された嗜好は理想化された嗜好のノイズ混じりとして扱われる
– 多くの堅牢なRAは特定の摂動の仮定に依存しているため、現実世界の無関心なノイズに対して一般化することはできない
– この論文では、モデル誤りに対する堅牢性を持つCoarsenRankを提案する
– CoarsenRankは、理想的な嗜好が実際の嗜好の近傍にあると仮定する、軽度のモデル誤りに対して設計されている
– CoarsenRankは、元のデータセットではなく、嗜好の近傍で通常のRAを実行するため、モデル誤りに対する堅牢性を享受する
– データセットの近傍は、実データ分布によって定義される。さらに、未知の近傍のサイズに指数関数の事前分布を置き、特定の分散度測度に対してCoarsenRankの簡単な事後式を導く
– CoarsenRankは、三つの人気のある確率ランキングモデルであるCoarsened Thurstone、Coarsened Bradly-Terry、Coarsened Plackett-Luceに具体化され、それぞれについてのトラクタブルな最適化戦略が紹介される。
– 最後に、CoarsenRankを4つの実世界のデータセットに適用する。

要約(オリジナル)

In rank aggregation (RA), a collection of preferences from different users are summarized into a total order under the assumption of homogeneity of users. Model misspecification in RA arises since the homogeneity assumption fails to be satisfied in the complex real-world situation. Existing robust RAs usually resort to an augmentation of the ranking model to account for additional noises, where the collected preferences can be treated as a noisy perturbation of idealized preferences. Since the majority of robust RAs rely on certain perturbation assumptions, they cannot generalize well to agnostic noise-corrupted preferences in the real world. In this paper, we propose CoarsenRank, which possesses robustness against model misspecification. Specifically, the properties of our CoarsenRank are summarized as follows: (1) CoarsenRank is designed for mild model misspecification, which assumes there exist the ideal preferences (consistent with model assumption) that locates in a neighborhood of the actual preferences. (2) CoarsenRank then performs regular RAs over a neighborhood of the preferences instead of the original dataset directly. Therefore, CoarsenRank enjoys robustness against model misspecification within a neighborhood. (3) The neighborhood of the dataset is defined via their empirical data distributions. Further, we put an exponential prior on the unknown size of the neighborhood, and derive a much-simplified posterior formula for CoarsenRank under particular divergence measures. (4) CoarsenRank is further instantiated to Coarsened Thurstone, Coarsened Bradly-Terry, and Coarsened Plackett-Luce with three popular probability ranking models. Meanwhile, tractable optimization strategies are introduced with regards to each instantiation respectively. In the end, we apply CoarsenRank on four real-world datasets.

arxiv情報

著者 Yuangang Pan,Weijie Chen,Gang Niu,Ivor W. Tsang,Masashi Sugiyama
発行日 2023-05-05 08:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク