Learning to Defer in Content Moderation: The Human-AI Interplay

要約

オンライン プラットフォームでコンテンツ モデレーションを成功させるには、人間と AI のコラボレーション アプローチが必要です。
一般的なヒューリスティックでは、投稿の予想される有害性を推定し、固定のしきい値を使用して投稿を削除するかどうか、および人間によるレビューに送信するかどうかを決定します。
これは、予測の不確実性、人間のレビュー能力と投稿到着の時間変動要素、およびデータセット内の選択的サンプリング (人間は承認アルゴリズムによってフィルターされた投稿のみをレビューします) を無視します。
この論文では、コンテンツモデレーションにおける人間と AI の相互作用を捉えるモデルを紹介します。
このアルゴリズムは、受信した投稿のコンテキスト情報を観察し、分類と承認の決定を行い、人間によるレビューのために投稿をスケジュールします。
承認された投稿のみが、その有害性について人間によるレビューを受けます。
これらのレビューは機械学習アルゴリズムの教育に役立ちますが、人間によるレビュー システムの混雑により遅延します。
この人間と AI の相互作用を捉える古典的な学習理論的な方法は、延期学習のフレームワークを経由するもので、アルゴリズムには、固定コストで分類タスクを人間に延期し、すぐにフィードバックを受け取るオプションがあります。
私たちのモデルは人間によるレビュー システムに輻輳を導入することでこの文献に貢献します。
さらに、フィードバックの遅延がアルゴリズムの決定に外生的な遅延フィードバックを伴うオンライン学習の研究とは異なり、モデルの遅延は入場とスケジュールの決定の両方に内生的です。
私たちは、選択的にサンプリングされたデータセットからの分類損失、レビューされていない投稿の特異な損失、人間によるレビュー システムの輻輳による遅延損失のバランスを慎重にとった、最適に近い学習アルゴリズムを提案します。
私たちの知る限り、これはコンテキスト キュー システムでのオンライン学習の最初の結果であるため、私たちの分析フレームワークは独立して興味深いものになる可能性があります。

要約(オリジナル)

Successful content moderation in online platforms relies on a human-AI collaboration approach. A typical heuristic estimates the expected harmfulness of a post and uses fixed thresholds to decide whether to remove it and whether to send it for human review. This disregards the prediction uncertainty, the time-varying element of human review capacity and post arrivals, and the selective sampling in the dataset (humans only review posts filtered by the admission algorithm). In this paper, we introduce a model to capture the human-AI interplay in content moderation. The algorithm observes contextual information for incoming posts, makes classification and admission decisions, and schedules posts for human review. Only admitted posts receive human reviews on their harmfulness. These reviews help educate the machine-learning algorithms but are delayed due to congestion in the human review system. The classical learning-theoretic way to capture this human-AI interplay is via the framework of learning to defer, where the algorithm has the option to defer a classification task to humans for a fixed cost and immediately receive feedback. Our model contributes to this literature by introducing congestion in the human review system. Moreover, unlike work on online learning with delayed feedback where the delay in the feedback is exogenous to the algorithm’s decisions, the delay in our model is endogenous to both the admission and the scheduling decisions. We propose a near-optimal learning algorithm that carefully balances the classification loss from a selectively sampled dataset, the idiosyncratic loss of non-reviewed posts, and the delay loss of having congestion in the human review system. To the best of our knowledge, this is the first result for online learning in contextual queueing systems and hence our analytical framework may be of independent interest.

arxiv情報

著者 Thodoris Lykouris,Wentao Weng
発行日 2024-02-19 15:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.PF パーマリンク