TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection

要約

タイトル:多様な憎悪検知のためのトポロジー認識最適輸送

要約:

– 多様な憎悪を検知することは、ウェブ環境を発展的にするには重要です。
– 以前の研究で、語彙的暴言を検知することが明らかにされました。
– しかしながら、いくつかのアプローチは、暗黙の有害性を分析せず、曲がっていたり欠落していることが多い明示的テキストマーカーと、人口統計学的視覚的手がかりの問題を無視しています。
– クロスモーダルアテンションの機構も、分布モーダリティギャップと論理的な解釈の欠如の問題があります。
– これらの意味的なギャップを解決するために、我々はTOTを提唱します。
– TOTは、クロスモーダルの整列問題を最適輸送プランの解決策として定式化して、ミームのシナリオで暗黙的有害性を解読するためのトポロジー認識最適輸送フレームワークです。
– 具体的には、複数のモダリティから補完的な情報をキャプチャするために最適輸送カーネルメソッドを活用しています。
– カーネル埋め込みは、カーネルヒルベルト空間(RKHS)を再生する非線形変換能力を提供し、分布モーダリティギャップを除去するための重要性を反映します。
– さらに、整列された表現に基づくトポロジー情報を知覚して、二部グラフパス推論を行うことで、トポロジー情報を得ます。
– 公開されている2つのベンチマークデータセットでの最新の高水準のパフォーマンス、さらに視覚分析により、TOTの暗黙的なクロスモーダル整列を捕捉する優越性が証明されました。

要約(オリジナル)

Multimodal hate detection, which aims to identify harmful content online such as memes, is crucial for building a wholesome internet environment. Previous work has made enlightening exploration in detecting explicit hate remarks. However, most of their approaches neglect the analysis of implicit harm, which is particularly challenging as explicit text markers and demographic visual cues are often twisted or missing. The leveraged cross-modal attention mechanisms also suffer from the distributional modality gap and lack logical interpretability. To address these semantic gaps issues, we propose TOT: a topology-aware optimal transport framework to decipher the implicit harm in memes scenario, which formulates the cross-modal aligning problem as solutions for optimal transportation plans. Specifically, we leverage an optimal transport kernel method to capture complementary information from multiple modalities. The kernel embedding provides a non-linear transformation ability to reproduce a kernel Hilbert space (RKHS), which reflects significance for eliminating the distributional modality gap. Moreover, we perceive the topology information based on aligned representations to conduct bipartite graph path reasoning. The newly achieved state-of-the-art performance on two publicly available benchmark datasets, together with further visual analysis, demonstrate the superiority of TOT in capturing implicit cross-modal alignment.

arxiv情報

著者 Linhao Zhang,Li Jin,Xian Sun,Guangluan Xu,Zequn Zhang,Xiaoyu Li,Nayu Liu,Qing Liu,Shiyao Yan
発行日 2023-04-24 09:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.MM パーマリンク