Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

要約

トレーニング前の後、大規模な言語モデルは、ペアワイズ比較に基づいて人間の好みと整合しています。
最先端のアライメントメソッド(PPOベースのRLHFやDPOなど)は、ユーザーが多様な選好を持っている設定に展開されているにもかかわらず、単一の優先モデルと整合するという仮定に基づいて構築されます。
その結果、これらのアライメントメソッドがユーザーを平均して満たすモデルを生成することさえ明らかではありません。
ソーシャル選択理論に基づいて、個々のBradley-Terry(BT)モデルを通じてユーザーの比較をモデル化すると、アライメント方法の歪みを導入します。最適な達成可能な平均ユーティリティと学習ポリシーの平均ユーティリティの最悪の比率です。
歪みの概念は、アライメント方法間の鋭い区別を引き出すのに役立ちます:nash人間のフィードバックからの学習は、$(\ frac {1} {2} + o(1))\ cdot \ beta $(bt温度$ \ beta $)の最適な歪みを達成します。
対照的に、rlhfとdpoは、$ \ geq(1 -o(1))\ cdot \ beta $の歪みをklの制約なしで既に患っています。

要約(オリジナル)

After pre-training, large language models are aligned with human preferences based on pairwise comparisons. State-of-the-art alignment methods (such as PPO-based RLHF and DPO) are built on the assumption of aligning with a single preference model, despite being deployed in settings where users have diverse preferences. As a result, it is not even clear that these alignment methods produce models that satisfy users on average — a minimal requirement for pluralistic alignment. Drawing on social choice theory and modeling users’ comparisons through individual Bradley-Terry (BT) models, we introduce an alignment method’s distortion: the worst-case ratio between the optimal achievable average utility, and the average utility of the learned policy. The notion of distortion helps draw sharp distinctions between alignment methods: Nash Learning from Human Feedback achieves the minimax optimal distortion of $(\frac{1}{2} + o(1)) \cdot \beta$ (for the BT temperature $\beta$), robustly across utility distributions, distributions of comparison pairs, and permissible KL divergences from the reference policy. RLHF and DPO, by contrast, suffer $\geq (1 – o(1)) \cdot \beta$ distortion already without a KL constraint, and $e^{\Omega(\beta)}$ or even unbounded distortion in the full setting, depending on how comparison pairs are sampled.

arxiv情報

著者 Paul Gölz,Nika Haghtalab,Kunhe Yang
発行日 2025-05-29 17:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG | Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? はコメントを受け付けていません

Model Immunization from a Condition Number Perspective

要約

モデル予防接種の目的は、他の非耐性タスクで有用性を維持しながら、有害なタスクを微調整することが困難な訓練前モデルを目的としています。
以前の研究では、テキストから画像へのモデルを予防するための経験的証拠が示されていますが、予防接種がいつ可能かについての重要な理解と予防接種モデルの正確な定義は不明のままです。
この作業では、ヘシアンマトリックスの条件番号に基づいて、線形モデルのモデル予防接種を分析するフレームワークを提案します。
このフレームワークに基づいて、トレーニング前に結果の条件数を制御するために、正規化項を備えたアルゴリズムを設計します。
線形モデルと非線形ディープネットの経験的結果は、モデルの予防接種に対する提案されたアルゴリズムの有効性を示しています。
このコードは、https://github.com/amberyzheng/model-immunization-cond-numで入手できます。

要約(オリジナル)

Model immunization aims to pre-train models that are difficult to fine-tune on harmful tasks while retaining their utility on other non-harmful tasks. Though prior work has shown empirical evidence for immunizing text-to-image models, the key understanding of when immunization is possible and a precise definition of an immunized model remain unclear. In this work, we propose a framework, based on the condition number of a Hessian matrix, to analyze model immunization for linear models. Building on this framework, we design an algorithm with regularization terms to control the resulting condition numbers after pre-training. Empirical results on linear models and non-linear deep-nets demonstrate the effectiveness of the proposed algorithm on model immunization. The code is available at https://github.com/amberyzheng/model-immunization-cond-num.

arxiv情報

著者 Amber Yijia Zheng,Cedar Site Bai,Brian Bullins,Raymond A. Yeh
発行日 2025-05-29 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Model Immunization from a Condition Number Perspective はコメントを受け付けていません

Fast Large Language Model Collaborative Decoding via Speculation

要約

大規模な言語モデル(LLM)コラボレーションデコード手法は、各世代のステップで複数のモデルの出力を組み合わせることにより、出力品質を改善しますが、高い計算コストが発生します。
このホワイトペーパーでは、パフォーマンスを損なうことなく共同デコードを加速する新しいフレームワークである投機(COS)を介して共同デコードを紹介します。
投機的なデコードに触発されました – 小さな提案モデルがトークンを順次生成し、より大きなターゲットモデルが並行してそれらを検証し、私たちのアプローチは2つの重要な洞察に基づいて構築されます。
この方法は、Nモデル間のコラボレーションに一般化し、理論的にはCOSが標準的なコラボレーションデコードよりも遅くなることはなく、通常はより速い速度を達成することを証明します。
大規模な実験により、COSは、発電の品質を損なうことなく、標準の共同デコードよりも1.11x-2.23xが速いことを示しています。
私たちのコードは、https://github.com/kamichanw/cos/で入手できます。

要約(オリジナル)

Large Language Model (LLM) collaborative decoding techniques improve output quality by combining the outputs of multiple models at each generation step, but they incur high computational costs. In this paper, we introduce Collaborative decoding via Speculation (CoS), a novel framework that accelerates collaborative decoding without compromising performance. Inspired by Speculative Decoding–where a small proposal model generates tokens sequentially, and a larger target model verifies them in parallel, our approach builds on two key insights: (1) the verification distribution can be the combined distribution of both the proposal and target models, and (2) alternating each model as the proposer and verifier can further enhance efficiency. We generalize this method to collaboration among n models and theoretically prove that CoS is never slower than standard collaborative decoding, typically achieving faster speed. Extensive experiments demonstrate CoS is 1.11x-2.23x faster than standard collaborative decoding without compromising generation quality. Our code is available at https://github.com/Kamichanw/CoS/.

arxiv情報

著者 Jiale Fu,Yuchu Jiang,Junkai Chen,Jiaming Fan,Xin Geng,Xu Yang
発行日 2025-05-29 15:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Fast Large Language Model Collaborative Decoding via Speculation はコメントを受け付けていません

Probability-Consistent Preference Optimization for Enhanced LLM Reasoning

要約

優先最適化の最近の進歩は、大規模な言語モデル(LLM)の数学的推論能力を改善する重要な可能性を示しています。
現在のアプローチは、回答の正確性や一貫性などの結果ベースの基準を通じて高品質のペアワイズ優先データを活用していますが、応答の内部論理的一貫性を基本的に無視しています。
これを克服するために、優先選択のための二重定量的メトリックを確立する新しいフレームワークである確率一貫した優先順位(PCPO)を提案します。
広範な実験は、PCPOが、多様なLLMとベンチマークにわたって既存の結果のみの基準アプローチを常に上回ることを示しています。
私たちのコードは、https://github.com/yunqiaoyang/pcpoで公開されています。

要約(オリジナル)

Recent advances in preference optimization have demonstrated significant potential for improving mathematical reasoning capabilities in large language models (LLMs). While current approaches leverage high-quality pairwise preference data through outcome-based criteria like answer correctness or consistency, they fundamentally neglect the internal logical coherence of responses. To overcome this, we propose Probability-Consistent Preference Optimization (PCPO), a novel framework that establishes dual quantitative metrics for preference selection: (1) surface-level answer correctness and (2) intrinsic token-level probability consistency across responses. Extensive experiments show that our PCPO consistently outperforms existing outcome-only criterion approaches across a diverse range of LLMs and benchmarks. Our code is publicly available at https://github.com/YunqiaoYang/PCPO.

arxiv情報

著者 Yunqiao Yang,Houxing Ren,Zimu Lu,Ke Wang,Weikang Shi,Aojun Zhou,Junting Pan,Mingjie Zhan,Hongsheng Li
発行日 2025-05-29 15:20:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Probability-Consistent Preference Optimization for Enhanced LLM Reasoning はコメントを受け付けていません

Translation in the Wild

要約

大規模な言語モデル(LLM)は、とりわけ翻訳に優れており、ゼロおよび少数のショット設定で多くの言語ペアの競争力のあるパフォーマンスを示しています。
しかし、専用のニューラルマシン翻訳モデルとは異なり、LLMは翻訳関連の目的で訓練されていません。
彼らの驚くべき翻訳能力を説明するものは何ですか?
これらの能力は、トレーニングデータにおける「偶発的なバイリンガリズム」(Briakou etal。2023)に基づいていますか?
指示の調整はそれに貢献しますか?
LLMは、単一のコンテキストウィンドウに収まる可能性が低いインターネットの異なるコーナーから、意味的に同一または類似した単一言語の内容を調整および活用することができますか?
私は、このトピックについていくつかの考察を提供し、最近の研究とユーザーエクスペリエンスの高まりから知らされています。
私の作業仮説は、LLMSの翻訳能力は、モデルによって異なる方法で内在化される可能性のある2つの異なるタイプのプリトレーニングデータに由来するというものです。
「二重性」仮説を経験的にテストする見込みと、深い学習の時代における翻訳、人間と機械の再概念化に対するその意味について説明します。

要約(オリジナル)

Large Language Models (LLMs) excel in translation among other things, demonstrating competitive performance for many language pairs in zero- and few-shot settings. But unlike dedicated neural machine translation models, LLMs are not trained on any translation-related objective. What explains their remarkable translation abilities? Are these abilities grounded in ‘incidental bilingualism’ (Briakou et al. 2023) in training data? Does instruction tuning contribute to it? Are LLMs capable of aligning and leveraging semantically identical or similar monolingual contents from different corners of the internet that are unlikely to fit in a single context window? I offer some reflections on this topic, informed by recent studies and growing user experience. My working hypothesis is that LLMs’ translation abilities originate in two different types of pre-training data that may be internalized by the models in different ways. I discuss the prospects for testing the ‘duality’ hypothesis empirically and its implications for reconceptualizing translation, human and machine, in the age of deep learning.

arxiv情報

著者 Yuri Balashov
発行日 2025-05-29 15:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Translation in the Wild はコメントを受け付けていません

Enhancing Automated Interpretability with Output-Centric Feature Descriptions

要約

自動化された解釈可能性パイプラインは、植物や文の最初の単語など、大規模な言語モデル(LLM)の機能によって表される概念の自然言語の説明を生成します。
これらの説明は、モデルの表現空間の寸法または方向である可能性のある機能をアクティブにする入力を使用して導出されます。
ただし、アクティブ化入力の識別は費用がかかり、モデルの動作における機能の機械的役割は、入力が機能をアクティブにする方法と、機能のアクティベーションが出力にどのように影響するかの両方によって決定されます。
ステアリング評価を使用して、現在のパイプラインが出力に対する特徴の因果効果をキャプチャできない説明を提供することを明らかにします。
これを修正するために、機能の説明を自動的に生成するための効率的な出力中心の方法を提案します。
これらの方法は、特徴刺激後に高く重み付けされたトークンまたは最高の重量トークンを使用して、語彙の「具体化されていない」ヘッドをこの機能に直接適用しました。
出力中心の説明は、入力中心の説明よりもモデル出力に対する特徴の因果効果をよりよくキャプチャしますが、2つを入力評価と出力評価の両方で最高のパフォーマンスに導きます。
最後に、出力中心の説明を使用して、以前は「死んでいる」と考えられていた機能をアクティブ化する入力を見つけることができることを示します。

要約(オリジナル)

Automated interpretability pipelines generate natural language descriptions for the concepts represented by features in large language models (LLMs), such as plants or the first word in a sentence. These descriptions are derived using inputs that activate the feature, which may be a dimension or a direction in the model’s representation space. However, identifying activating inputs is costly, and the mechanistic role of a feature in model behavior is determined both by how inputs cause a feature to activate and by how feature activation affects outputs. Using steering evaluations, we reveal that current pipelines provide descriptions that fail to capture the causal effect of the feature on outputs. To fix this, we propose efficient, output-centric methods for automatically generating feature descriptions. These methods use the tokens weighted higher after feature stimulation or the highest weight tokens after applying the vocabulary ‘unembedding’ head directly to the feature. Our output-centric descriptions better capture the causal effect of a feature on model outputs than input-centric descriptions, but combining the two leads to the best performance on both input and output evaluations. Lastly, we show that output-centric descriptions can be used to find inputs that activate features previously thought to be ‘dead’.

arxiv情報

著者 Yoav Gur-Arieh,Roy Mayan,Chen Agassy,Atticus Geiger,Mor Geva
発行日 2025-05-29 15:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Automated Interpretability with Output-Centric Feature Descriptions はコメントを受け付けていません

Understanding Refusal in Language Models with Sparse Autoencoders

要約

拒否は、整合した言語モデルの重要な安全行動ですが、拒否を促進する内部メカニズムは不透明のままです。
この作業では、スパース自動エンコーダーを使用して命令チューニングLLMSの拒否の機械的研究を実施し、拒否行動を因果的に媒介する潜在的な特徴を特定します。
2つのオープンソースチャットモデルに方法を適用し、拒否関連の機能に介入して、生成への影響​​を評価し、複数の有害なデータセットにわたる行動への影響を検証します。
これにより、活性化レベルで拒否がどのように現れるかをよく調べ、上流のストリーム潜在関係を調査し、敵対的なパームブレイクテクニックのメカニズムを理解するなどの重要な研究質問に対処することができます。
また、分類タスクにおける分散型敵対サンプルに対する線形プローブの一般化を強化する際の拒否機能の有用性を確立します。
https://github.com/wj210/refusal_saeでコードをオープンします。

要約(オリジナル)

Refusal is a key safety behavior in aligned language models, yet the internal mechanisms driving refusals remain opaque. In this work, we conduct a mechanistic study of refusal in instruction-tuned LLMs using sparse autoencoders to identify latent features that causally mediate refusal behaviors. We apply our method to two open-source chat models and intervene on refusal-related features to assess their influence on generation, validating their behavioral impact across multiple harmful datasets. This enables a fine-grained inspection of how refusal manifests at the activation level and addresses key research questions such as investigating upstream-downstream latent relationship and understanding the mechanisms of adversarial jailbreaking techniques. We also establish the usefulness of refusal features in enhancing generalization for linear probes to out-of-distribution adversarial samples in classification tasks. We open source our code in https://github.com/wj210/refusal_sae.

arxiv情報

著者 Wei Jie Yeo,Nirmalendu Prakash,Clement Neo,Roy Ka-Wei Lee,Erik Cambria,Ranjan Satapathy
発行日 2025-05-29 15:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Understanding Refusal in Language Models with Sparse Autoencoders はコメントを受け付けていません

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

要約

テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然として大きな言語モデル(LLMS)にとって重要な課題です。
Lexamは、さまざまな科目と学位レベルにわたって116のロースクールコースにまたがる340の法律試験から派生した新しいベンチマークである紹介を紹介します。
データセットには、2,841個のロングフォーム、自由回答形式の質問、2,045個の複数選択の質問を含む、英語とドイツ語の4,886個の法律試験の質問が含まれます。
参照の回答に加えて、未解決の質問には、発行スポット、ルールリコール、またはルールアプリケーションなどの予想される法的推論アプローチの概要を示す明示的なガイダンスも伴います。
オープンエンドと複数の選択の両方の質問に関する私たちの評価は、現在のLLMに大きな課題を提示しています。
特に、彼らは特に、構造化されたマルチステップの法的推論を必要とする未解決の質問と闘っています。
さらに、我々の結果は、さまざまな機能を備えたモデルを区別する上でのデータセットの有効性を強調しています。
厳密な人間の専門家の検証でLLM-A-A-A-Judgeパラダイムを採用すると、モデル生成の推論ステップを一貫して正確に評価する方法を示します。
評価セットアップは、単純な精度メトリックを超えて法的推論の質を評価するためのスケーラブルな方法を提供します。
プロジェクトページ:https://lexam-benchmark.github.io/

要約(オリジナル)

Long-form legal reasoning remains a key challenge for large language models (LLMs) in spite of recent advances in test-time scaling. We introduce LEXam, a novel benchmark derived from 340 law exams spanning 116 law school courses across a range of subjects and degree levels. The dataset comprises 4,886 law exam questions in English and German, including 2,841 long-form, open-ended questions and 2,045 multiple-choice questions. Besides reference answers, the open questions are also accompanied by explicit guidance outlining the expected legal reasoning approach such as issue spotting, rule recall, or rule application. Our evaluation on both open-ended and multiple-choice questions present significant challenges for current LLMs; in particular, they notably struggle with open questions that require structured, multi-step legal reasoning. Moreover, our results underscore the effectiveness of the dataset in differentiating between models with varying capabilities. Adopting an LLM-as-a-Judge paradigm with rigorous human expert validation, we demonstrate how model-generated reasoning steps can be evaluated consistently and accurately. Our evaluation setup provides a scalable method to assess legal reasoning quality beyond simple accuracy metrics. Project page: https://lexam-benchmark.github.io/

arxiv情報

著者 Yu Fan,Jingwei Ni,Jakob Merane,Etienne Salimbeni,Yang Tian,Yoan Hermstrüwer,Yinya Huang,Mubashara Akhtar,Florian Geering,Oliver Dreyer,Daniel Brunner,Markus Leippold,Mrinmaya Sachan,Alexander Stremitzer,Christoph Engel,Elliott Ash,Joel Niklaus
発行日 2025-05-29 15:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | LEXam: Benchmarking Legal Reasoning on 340 Law Exams はコメントを受け付けていません

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

要約

強化学習(RL)を使用して効果的に大規模な言語モデルの推論能力を強化することは、依然として重要な課題です。
既存のアプローチは、主に2つの対照的な利点推定の粒度を採用しています。トークンレベルの方法(例:PPO)は、微調整されたアドバンテージシグナルを提供することを目的としていますが、正確な批評家モデルのトレーニングが難しいために不正確な推定に悩まされています。
もう1つの極端に、軌道レベルのメソッド(GRPOなど)は、最終報酬からの粗粒のアドバンテージ信号にのみ依存しており、不正確なクレジット割り当てにつながります。
これらの制限に対処するために、セグメントポリシー最適化(SPO)を提案します。これは、中間の粒度でセグメントレベルのアドバンテージ推定を活用する新しいRLフレームワークであり、軌跡レベルの方法よりも正確なクレジット割り当てを提供することにより、より正確なクレジット割り当てを提供することにより、トークンレベルの方法よりも少ない推定ポイントを必要とすることにより、MC. Carlo(MC)の場合に基づく推定値を強化します。
SPOは、新しい戦略を備えた3つのコンポーネントを備えています。(1)柔軟なセグメントパーティション。
(2)正確なセグメントアドバンテージの推定。
(3)新しい確率マスク戦略を含むセグメントの利点を使用したポリシーの最適化。
さらに、2つの特定のシナリオのSPOをインスタンス化します。(1)新しいカットポイントベースのパーティションとチェーンベースのアドバンテージ推定を特徴とする短いチェーンオブサート(COT)のSPOチェーン。
(2)長いCOTのSPO-Treeは、新しいツリーベースのアドバンテージ推定を特徴としており、MCの推定コストを大幅に削減し、2Kおよび4Kコンテキスト評価の下でMath500のGRPOよりも7ドル$ 11 $ 11ドルのポイント改善を達成します。
コードをhttps://github.com/aiframeresearch/spoで公開しています。

要約(オリジナル)

Enhancing the reasoning capabilities of large language models effectively using reinforcement learning (RL) remains a crucial challenge. Existing approaches primarily adopt two contrasting advantage estimation granularities: Token-level methods (e.g., PPO) aim to provide the fine-grained advantage signals but suffer from inaccurate estimation due to difficulties in training an accurate critic model. On the other extreme, trajectory-level methods (e.g., GRPO) solely rely on a coarse-grained advantage signal from the final reward, leading to imprecise credit assignment. To address these limitations, we propose Segment Policy Optimization (SPO), a novel RL framework that leverages segment-level advantage estimation at an intermediate granularity, achieving a better balance by offering more precise credit assignment than trajectory-level methods and requiring fewer estimation points than token-level methods, enabling accurate advantage estimation based on Monte Carlo (MC) without a critic model. SPO features three components with novel strategies: (1) flexible segment partition; (2) accurate segment advantage estimation; and (3) policy optimization using segment advantages, including a novel probability-mask strategy. We further instantiate SPO for two specific scenarios: (1) SPO-chain for short chain-of-thought (CoT), featuring novel cutpoint-based partition and chain-based advantage estimation, achieving $6$-$12$ percentage point improvements in accuracy over PPO and GRPO on GSM8K. (2) SPO-tree for long CoT, featuring novel tree-based advantage estimation, which significantly reduces the cost of MC estimation, achieving $7$-$11$ percentage point improvements over GRPO on MATH500 under 2K and 4K context evaluation. We make our code publicly available at https://github.com/AIFrameResearch/SPO.

arxiv情報

著者 Yiran Guo,Lijie Xu,Jie Liu,Dan Ye,Shuang Qiu
発行日 2025-05-29 15:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models はコメントを受け付けていません

Evaluating AI capabilities in detecting conspiracy theories on YouTube

要約

膨大なグローバルな視聴者を持つ大手オンラインプラットフォームとして、YouTubeの広範なリーチは、偽情報や陰謀理論など、有害なコンテンツをホストすることにも影響を与えます。
この研究では、YouTubeで共有されている陰謀理論の動画を特定するために、テキストのみおよびマルチモーダルの両方のオープンウェイトラージランゲージモデル(LLMS)の使用を調査します。
数千のビデオのラベル付きデータセットを活用して、ゼロショット設定でさまざまなLLMを評価し、そのパフォーマンスを微調整されたRobertaベースラインと比較します。
結果は、テキストベースのLLMが高いリコールを達成するが、精度が低く、誤検知を増加させることを示しています。
マルチモーダルモデルは、テキストのみのカウンターパートに遅れをとっており、視覚的なデータ統合による利点が限られていることを示しています。
現実世界の適用性を評価するために、ラベルのないデータセットで最も正確なモデルを評価し、Robertaがより多くのパラメーターでLLMに近いパフォーマンスを達成することを発見しました。
私たちの仕事は、オンラインの有害なコンテンツ検出のための現在のLLMベースのアプローチの強みと制限を強調し、より正確で堅牢なシステムの必要性を強調しています。

要約(オリジナル)

As a leading online platform with a vast global audience, YouTube’s extensive reach also makes it susceptible to hosting harmful content, including disinformation and conspiracy theories. This study explores the use of open-weight Large Language Models (LLMs), both text-only and multimodal, for identifying conspiracy theory videos shared on YouTube. Leveraging a labeled dataset of thousands of videos, we evaluate a variety of LLMs in a zero-shot setting and compare their performance to a fine-tuned RoBERTa baseline. Results show that text-based LLMs achieve high recall but lower precision, leading to increased false positives. Multimodal models lag behind their text-only counterparts, indicating limited benefits from visual data integration. To assess real-world applicability, we evaluate the most accurate models on an unlabeled dataset, finding that RoBERTa achieves performance close to LLMs with a larger number of parameters. Our work highlights the strengths and limitations of current LLM-based approaches for online harmful content detection, emphasizing the need for more precise and robust systems.

arxiv情報

著者 Leonardo La Rocca,Francesco Corso,Francesco Pierri
発行日 2025-05-29 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.SI | Evaluating AI capabilities in detecting conspiracy theories on YouTube はコメントを受け付けていません