Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims

要約

個人または団体によってなされた主張はしばしば微妙であり、科学的および政治的主張の場合に頻繁にそうであるように、完全に「真」または「偽」と明確に分類することはできません。
ただし、クレーム(たとえば、「ワクチンAはワクチンBよりも優れています」)は、個別に検証しやすい、その積分の側面とサブアスペクト(有効性、安全性、分布など)に分析できます。
これにより、特定の問題に関するバランスのとれた視点を提供すると同時に、より包括的な構造化された応答が可能になり、読者がクレーム内で特定の関心のある角度(たとえば、子供に対する安全性)を優先することができます。
したがって、クレームに対処し、コーパス固有の視点でそれらを豊かにするときに通常考慮される側面の階層を自動的に構築するための検索された生成ベースのフレームワークであるクレームスペクトルを提案します。
この構造は、入力コーパスを階層的に分割して、関連するセグメントを取得し、新しいサブアスペクトの発見を支援します。
さらに、これらのセグメントは、主張の側面(サポート、ニュートラル、またはオポスポンシなど)とそれぞれの有病率(例えば、ワクチンAがBよりも輸送可能であると信じている」)に向けてさまざまな視点の発見を可能にします。
私たちは、私たちの構築されたデータセットに掲載されている多種多様な現実世界の科学的および政治的主張に請求を適用し、微妙な主張を解体し、コーパス内の視点を表す際にその堅牢性と正確さを示します。
現実世界のケーススタディと人間の評価を通じて、複数のベースラインに対するその有効性を検証します。

要約(オリジナル)

Claims made by individuals or entities are oftentimes nuanced and cannot be clearly labeled as entirely ‘true’ or ‘false’ — as is frequently the case with scientific and political claims. However, a claim (e.g., ‘vaccine A is better than vaccine B’) can be dissected into its integral aspects and sub-aspects (e.g., efficacy, safety, distribution), which are individually easier to validate. This enables a more comprehensive, structured response that provides a well-rounded perspective on a given problem while also allowing the reader to prioritize specific angles of interest within the claim (e.g., safety towards children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based framework for automatically constructing a hierarchy of aspects typically considered when addressing a claim and enriching them with corpus-specific perspectives. This structure hierarchically partitions an input corpus to retrieve relevant segments, which assist in discovering new sub-aspects. Moreover, these segments enable the discovery of varying perspectives towards an aspect of the claim (e.g., support, neutral, or oppose) and their respective prevalence (e.g., ‘how many biomedical papers believe vaccine A is more transportable than B?’). We apply ClaimSpect to a wide variety of real-world scientific and political claims featured in our constructed dataset, showcasing its robustness and accuracy in deconstructing a nuanced claim and representing perspectives within a corpus. Through real-world case studies and human evaluation, we validate its effectiveness over multiple baselines.

arxiv情報

著者 Priyanka Kargupta,Runchu Tian,Jiawei Han
発行日 2025-06-12 14:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims はコメントを受け付けていません

TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora

要約

科学分野の急速な進化は、科学文献の組織化と取得における課題をもたらします。
専門家が治療した分類法は伝統的にこのニーズに対処してきましたが、このプロセスは時間がかかり、高価です。
さらに、最近の自動分類法の構築方法のいずれかのいずれかのいずれかです。(1)特定のコーパスの依存、一般化を犠牲にするか、(2)進化する科学的領域の動的な性質を過剰に監視することが多いトレーニング前のデータセットに含まれる大規模な言語モデル(LLM)の一般的な知識に大きく依存しています。
さらに、これらのアプローチは、単一の研究論文が複数の次元(方法論、新しいタスク、評価メトリック、ベンチマークなど)に寄与する科学文献の多面的な性質を説明できません。
これらのギャップに対処するために、TaxoAdaptを提案します。これは、LLM生成された分類法を複数の次元にわたって特定のコーパスに動的に適応させるフレームワークです。
TaxoAdaptは反復的な階層分類を実行し、コーパスの局所分布に基づいて分類幅と深さの両方を拡大します。
科学的分野の進化を構成して捉える能力を紹介するために、長年にわたって多様なコンピューターサイエンス会議のセットで最先端のパフォーマンスを実証しています。
多次元の方法として、TaxoAdaptは、LLMSで判断された最も競争の激しいベースラインよりも26.51%の粒度性存在と50.41%の一貫性のある分類法を生成します。

要約(オリジナル)

The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus’ topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.

arxiv情報

著者 Priyanka Kargupta,Nan Zhang,Yunyi Zhang,Rui Zhang,Prasenjit Mitra,Jiawei Han
発行日 2025-06-12 14:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | TaxoAdapt: Aligning LLM-Based Multidimensional Taxonomy Construction to Evolving Research Corpora はコメントを受け付けていません

Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering

要約

電子ヘルス記録(EHR)を介した自動化された質問応答(QA)は、臨床医と患者の重要な情報ギャップを埋めることができますが、限られた監督の下で正確な証拠検索と忠実な回答生成の両方を要求します。
この作業では、Bionlp 2025 Archehr-Qaの準優勝であるNeuralを、証拠に基づいた臨床QAで共有タスクを提示します。
提案された方法は、タスクを(1)文レベルの証拠識別と(2)明示的な引用を伴う回答統合に切り離します。
各段階で、DSPYのMIPROV2オプティマイザーを使用したプロンプトスペースを自動的に調査し、開発セットで指示と少数のショットデモンストレーションを調整します。
自己整合の投票スキームは、精度を犠牲にすることなく、証拠のリコールをさらに改善します。
隠されたテストセットでは、私たちの方法は51.5の総合スコアを達成し、それぞれ20ポイント以上の標準ゼロショットと少数のショットプロンプトを上回りながら2番目のステージを配置します。
これらの結果は、データ駆動型の迅速な最適化が、ハイステークス臨床QAのモデル微調整に代わる費用対効果の高い代替品であり、ヘルスケアにおけるAIアシスタントの信頼性を高めることを示しています。

要約(オリジナル)

Automated question answering (QA) over electronic health records (EHRs) can bridge critical information gaps for clinicians and patients, yet it demands both precise evidence retrieval and faithful answer generation under limited supervision. In this work, we present Neural, the runner-up in the BioNLP 2025 ArchEHR-QA shared task on evidence-grounded clinical QA. Our proposed method decouples the task into (1) sentence-level evidence identification and (2) answer synthesis with explicit citations. For each stage, we automatically explore the prompt space with DSPy’s MIPROv2 optimizer, jointly tuning instructions and few-shot demonstrations on the development set. A self-consistency voting scheme further improves evidence recall without sacrificing precision. On the hidden test set, our method attains an overall score of 51.5, placing second stage while outperforming standard zero-shot and few-shot prompting by over 20 and 10 points, respectively. These results indicate that data-driven prompt optimization is a cost-effective alternative to model fine-tuning for high-stakes clinical QA, advancing the reliability of AI assistants in healthcare.

arxiv情報

著者 Sai Prasanna Teja Reddy Bogireddy,Abrar Majeedi,Viswanatha Reddy Gajjala,Zhuoyan Xu,Siddhant Rai,Vaishnav Potlapalli
発行日 2025-06-12 14:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Neural at ArchEHR-QA 2025: Agentic Prompt Optimization for Evidence-Grounded Clinical Question Answering はコメントを受け付けていません

Persistent Topological Features in Large Language Models

要約

大規模な言語モデルの意思決定プロセスを理解することは、広範なアプリケーションを考えると重要です。
これを達成するために、正式な数学的フレームワーク(トポロジーデータ分析からのジグザグの持続性)を、実用的で簡単に適用可能なアルゴリズムと結びつけることを目指しています。
Zigzagの持続性は、モデルレイヤー間で動的に変換されるため、データを特徴付けるのに特に効果的です。
このフレームワーク内で、トポロジー特徴、$ p $ dimensionalの穴が層全体にどのように持続し、進化するかを測定するトポロジー記述子を紹介します。
各レイヤーを個別に評価してから結果を集約する方法とは異なり、私たちのアプローチは、これらの機能の完全な進化パスを直接追跡します。
これにより、プロンプトがどのように再配置され、その相対的な位置が表現空間で変化するかについての統計的な視点が提供され、統合された全体としてのシステムの操作に関する洞察を提供します。
フレームワークの表現性と適用性を実証するために、これらの記述子がさまざまなモデルとさまざまなデータセットにどれほど敏感であるかを強調します。
ダウンストリームタスクへのショーケースアプリケーションとして、Zigzag Persistenceを使用して層剪定の基準を確立し、システムレベルの視点を維持しながら最新の方法に匹敵する結果を達成します。

要約(オリジナル)

Understanding the decision-making processes of large language models is critical given their widespread applications. To achieve this, we aim to connect a formal mathematical framework — zigzag persistence from topological data analysis — with practical and easily applicable algorithms. Zigzag persistence is particularly effective for characterizing data as it dynamically transforms across model layers. Within this framework, we introduce topological descriptors that measure how topological features, $p$-dimensional holes, persist and evolve throughout the layers. Unlike methods that assess each layer individually and then aggregate the results, our approach directly tracks the full evolutionary path of these features. This offers a statistical perspective on how prompts are rearranged and their relative positions changed in the representation space, providing insights into the system’s operation as an integrated whole. To demonstrate the expressivity and applicability of our framework, we highlight how sensitive these descriptors are to different models and a variety of datasets. As a showcase application to a downstream task, we use zigzag persistence to establish a criterion for layer pruning, achieving results comparable to state-of-the-art methods while preserving the system-level perspective.

arxiv情報

著者 Yuri Gardinazzi,Karthik Viswanathan,Giada Panerai,Alessio Ansuini,Alberto Cazzaniga,Matteo Biagetti
発行日 2025-06-12 14:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CG, cs.CL, cs.LG | Persistent Topological Features in Large Language Models はコメントを受け付けていません

Great Models Think Alike and this Undermines AI Oversight

要約

言語モデル(LM)機能が進歩するにつれて、それらを大規模に評価および監督することは、人間にとって難しくなっています。
他の言語モデルがこれらの両方のタスクを自動化できることを期待しています。これは「AI監視」と呼ばれます。
モデルの類似性がAIの監視の両方の側面にどのように影響するかを研究します。チャンス調整済み確率的合意(CAPA)を提案することで、モデルミスのオーバーラップに基づくLMの類似性のメトリックです。
CAPAを使用して、最初にLLM-A-A-A-Judgeスコアが裁判官と同様のモデルを好むことを示し、最近の自己プレファレンスの結果を一般化します。
次に、LMアノテーションに関するトレーニングを研究し、弱い監督者と強力な学生モデルの間の補完的な知識を見つけます。
モデル機能が増加するにつれて、間違いを見つけるのが難しくなり、AIの監視により多くの延期を繰り返す可能性があります。
ただし、懸念される傾向が観察されます。モデルの間違いは、能力の増加とともにより類似しており、相関障害からのリスクを指し示しています。
私たちの仕事は、特にAI監視の新たなパラダイムにおいて、モデルの類似性を報告し、修正することの重要性を強調しています。

要約(オリジナル)

As Language Model (LM) capabilities advance, evaluating and supervising them at scale is getting harder for humans. There is hope that other language models can automate both these tasks, which we refer to as ”AI Oversight”. We study how model similarity affects both aspects of AI oversight by proposing Chance Adjusted Probabilistic Agreement (CAPA): a metric for LM similarity based on overlap in model mistakes. Using CAPA, we first show that LLM-as-a-judge scores favor models similar to the judge, generalizing recent self-preference results. Then, we study training on LM annotations, and find complementary knowledge between the weak supervisor and strong student model plays a crucial role in gains from ”weak-to-strong generalization”. As model capabilities increase, it becomes harder to find their mistakes, and we might defer more to AI oversight. However, we observe a concerning trend — model mistakes are becoming more similar with increasing capabilities, pointing to risks from correlated failures. Our work underscores the importance of reporting and correcting for model similarity, especially in the emerging paradigm of AI oversight.

arxiv情報

著者 Shashwat Goel,Joschka Struber,Ilze Amanda Auzina,Karuna K Chandra,Ponnurangam Kumaraguru,Douwe Kiela,Ameya Prabhu,Matthias Bethge,Jonas Geiping
発行日 2025-06-12 14:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Great Models Think Alike and this Undermines AI Oversight はコメントを受け付けていません

One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers

要約

多くの言語の大規模な大規模な言語モデル(LLMS)を一度に事前に削除することは、モデル容量が限られているため、高品質のデータが乏しいため、制約の計算により困難です。
さらに、トークン剤の言語カバレッジの欠如により、トレーニング後の段階で純粋に新しい言語のギャップに対処することが困難になります。
この作業では、トレーニングの早い段階で比較的安価な介入が「言語の可塑性」、または新しい言語へのトレーニング後のモデルの適応能力を改善するものを研究します。
トークン剤の設計に焦点を当て、主要な前提条件よりも多くの言語のために訓練されたユニバーサルトークンザーを使用して、事前削除後の言語カバレッジを拡大する際の効率的な適応を可能にすることを提案します。
言語の多様なグループとさまざまなトレーニング戦略にわたる私たちの体系的な実験は、普遍的なトンナイザーが前の言語に特有のトークンザーと比較して、最大20.2%のWIN率の上昇を可能にすることを示しています。
さらに、普遍的なトークナイザーは、最大5%の勝利率の向上により、トークン剤や事前脱出で完全に目に見えない言語に対する可塑性が向上します。
私たちは、事前トレーニングに含まれる言語の大部分のパフォーマンスの妥協を最小限に抑えて、拡張された一連の言語セットへのこの適応を達成します。

要約(オリジナル)

Pretraining massively multilingual Large Language Models (LLMs) for many languages at once is challenging due to limited model capacity, scarce high-quality data, and compute constraints. Moreover, the lack of language coverage of the tokenizer makes it harder to address the gap for new languages purely at the post-training stage. In this work, we study what relatively cheap interventions early on in training improve ‘language plasticity’, or adaptation capabilities of the model post-training to new languages. We focus on tokenizer design and propose using a universal tokenizer that is trained for more languages than the primary pretraining languages to enable efficient adaptation in expanding language coverage after pretraining. Our systematic experiments across diverse groups of languages and different training strategies show that a universal tokenizer enables significantly higher language adaptation, with up to 20.2% increase in win rates compared to tokenizers specific to pretraining languages. Furthermore, a universal tokenizer also leads to better plasticity towards languages that are completely unseen in the tokenizer and pretraining, by up to 5% win rate gain. We achieve this adaptation to an expanded set of languages with minimal compromise in performance on the majority of languages included in pretraining.

arxiv情報

著者 Diana Abagyan,Alejandro R. Salamanca,Andres Felipe Cruz-Salinas,Kris Cao,Hangyu Lin,Acyr Locatelli,Marzieh Fadaee,Ahmet Üstün,Sara Hooker
発行日 2025-06-12 14:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | One Tokenizer To Rule Them All: Emergent Language Plasticity via Multilingual Tokenizers はコメントを受け付けていません

Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation

要約

大規模な言語モデル(LLMS)は、コード生成、数学的問題解決、アルゴリズム合成など、複雑な推論を必要とするタスクで顕著な成功を収めています。
しかし、中核的な疑問は残っています。これらのモデルは本当に理由がありますか、それとも浅い統計パターンを悪用するだけですか?
この論文では、チェーンオブコードの崩壊を紹介します。ここでは、意味的に忠実でありながら敵対的に構造化された迅速な摂動を導入することにより、LLMSの推論の堅牢性を体系的に調査します。
リートコードスタイルの問題から派生した700の摂動コード世代にまたがる私たちの評価は、ストーリーテリングの再構成、無関係な制約注入、並べ替えの例、数値摂動などの変換を適用します。
特定の変更はパフォーマンスをひどく低下させるが(精度が-42.1%まで低下する)、モデルの精度を最大35.3%驚くほど改善し、セマンティクスだけでなく表面レベルのプロンプトダイナミクスに対する感度も示唆していることが観察されます。
これらの発見は、現在の推論システムの脆弱性と予測不可能性を明らかにし、推論の調整と堅牢性を促すためのより多くの原則アプローチの必要性を強調しています。
摂動データセットと評価フレームワークをリリースして、信頼できる回復力のあるLLM推論のさらなる研究を促進します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success in tasks requiring complex reasoning, such as code generation, mathematical problem solving, and algorithmic synthesis — especially when aided by reasoning tokens and Chain-of-Thought prompting. Yet, a core question remains: do these models truly reason, or do they merely exploit shallow statistical patterns? In this paper, we introduce Chain-of-Code Collapse, where we systematically investigate the robustness of reasoning LLMs by introducing a suite of semantically faithful yet adversarially structured prompt perturbations. Our evaluation — spanning 700 perturbed code generations derived from LeetCode-style problems — applies transformations such as storytelling reframing, irrelevant constraint injection, example reordering, and numeric perturbation. We observe that while certain modifications severely degrade performance (with accuracy drops up to -42.1%), others surprisingly improve model accuracy by up to 35.3%, suggesting sensitivity not only to semantics but also to surface-level prompt dynamics. These findings expose the fragility and unpredictability of current reasoning systems, underscoring the need for more principles approaches to reasoning alignments and prompting robustness. We release our perturbation datasets and evaluation framework to promote further research in trustworthy and resilient LLM reasoning.

arxiv情報

著者 Jaechul Roh,Varun Gandhi,Shivani Anilkumar,Arin Garg
発行日 2025-06-12 14:47:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation はコメントを受け付けていません

Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs

要約

正確で校正された不確実性の推定値は、臨床的意思決定サポートなどのハイステークスドメインに大規模な言語モデル(LLM)を展開するために不可欠です。
2つのデータセット、11の医療専門分野、6つの質問タイプにわたって、10のオープンソースLLM(汎用、生物医学、および推論モデル)をカバーする、臨床的複数選択質問応答の不確実性推定方法の細粒度評価を提示します。
標準的な単一生成とサンプリングベースの方法を比較し、推論トレースの行動信号に基づいて単純なシングルパス推定器を探索するケーススタディを提示します。
これらの軽量の方法は、セマンティックエントロピーのパフォーマンスに近づいていますが、1世代のみが必要です。
私たちの結果は、専門分野と質問の種類にわたって実質的な変動を明らかにし、質問の性質とモデル固有の強さの両方に基づいてモデルを選択することの重要性を強調しています。

要約(オリジナル)

Accurate and well-calibrated uncertainty estimates are essential for deploying large language models (LLMs) in high-stakes domains such as clinical decision support. We present a fine-grained evaluation of uncertainty estimation methods for clinical multiple-choice question answering, covering ten open-source LLMs (general-purpose, biomedical, and reasoning models) across two datasets, eleven medical specialties, and six question types. We compare standard single-generation and sampling-based methods, and present a case study exploring simple, single-pass estimators based on behavioral signals in reasoning traces. These lightweight methods approach the performance of Semantic Entropy while requiring only one generation. Our results reveal substantial variation across specialties and question types, underscoring the importance of selecting models based on both the nature of the question and model-specific strengths.

arxiv情報

著者 Alberto Testoni,Iacer Calixto
発行日 2025-06-12 14:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs はコメントを受け付けていません

Improving Named Entity Transcription with Contextual LLM-based Revision

要約

モデリングの最近の進歩と監視されたトレーニングデータの量の増加により、自動音声認識(ASR)システムは一般的な音声で顕著なパフォーマンスを達成しました。
ただし、最先端のASRの単語エラー率(WER)は、指定されたエンティティでは高いままです。
多くの場合、指定されたエンティティは最も重要なキーワードであるため、それらを誤って認識することは、特にASRシステムが複雑なシステムのフロントエンドとして機能する場合、すべてのダウンストリームアプリケーションに影響を与える可能性があります。
この論文では、LLMの推論能力と正しい名前付きエンティティのセットを含むローカルコンテキスト(講義ノート)を活用することにより、ASR予測の誤った名前のエンティティを修正するために、大規模な言語モデル(LLM)改訂メカニズムを紹介します。
最後に、開発とテストのためにMITコースから45時間のデータを含むNER-MIT-Opencoursewareデータセットを紹介します。
このデータセットでは、提案された手法は、指定されたエンティティで最大30 \%の相対的な削減を達成します。

要約(オリジナル)

With recent advances in modeling and the increasing amount of supervised training data, automatic speech recognition (ASR) systems have achieved remarkable performance on general speech. However, the word error rate (WER) of state-of-the-art ASR remains high for named entities. Since named entities are often the most critical keywords, misrecognizing them can affect all downstream applications, especially when the ASR system functions as the front end of a complex system. In this paper, we introduce a large language model (LLM) revision mechanism to revise incorrect named entities in ASR predictions by leveraging the LLM’s reasoning ability as well as local context (e.g., lecture notes) containing a set of correct named entities. Finally, we introduce the NER-MIT-OpenCourseWare dataset, containing 45 hours of data from MIT courses for development and testing. On this dataset, our proposed technique achieves up to 30\% relative WER reduction for named entities.

arxiv情報

著者 Viet Anh Trinh,Xinlu He,Jacob Whitehill
発行日 2025-06-12 14:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Improving Named Entity Transcription with Contextual LLM-based Revision はコメントを受け付けていません

FASCIST-O-METER: Classifier for Neo-fascist Discourse Online

要約

ネオファシズムは、アメリカ合衆国(米国)および他の西部社会でも過去10年間に顕著な成長を遂げてきた政治的および社会的イデオロギーです。
それは民主主義とそれが標的とする少数派に重大な危険をもたらし、それはエスカレーションを避けるためにそれに対する積極的な行動を必要とします。
この作品は、政治学の研究者によって監督された米国社会的文脈におけるデジタル談話のための、最初の類のないネオファシストコーディングスキームを提示します。
私たちの仕事は、この現象に対する自然言語加工(NLP)と政治学の間のギャップを橋渡ししています。
さらに、コーディングスキームをテストするために、著名なネオファシストグループ(Iron March and Stormfront.orgのフォーラム)からインターネット上で膨大な量のアクティビティを収集し、ガイドラインが収集されたポストのサブセットに適用されます。
クラウドソーシングを通じて、ネオファシストまたは非ネオファシストとラベル付けされた合計1000の投稿に注釈を付けます。
このラベルの付いたデータセットを使用すると、小さな言語モデル(SLM)と大規模な言語モデル(LLM)の両方を微調整およびテストし、ネオファシストの談話の最初の分類モデルを取得します。
この種のフォーラムでのネオファシストのレトリックの有病率は常に存在しており、将来の研究の良いターゲットになっていることがわかります。
社会的文脈は、NLPの研究を実施する際のネオファシストのスピーチの重要な考慮事項です。
最後に、この種の政治運動に対する仕事は、民主社会の幸福のために迫られ続けなければなりません。
免責事項:この調査では、個人や組織にラベルを付けることなく、他のヘイトスピーチ分析と同様に、テキストのネオファシストコンテンツの検出に焦点を当てています。

要約(オリジナル)

Neo-fascism is a political and societal ideology that has been having remarkable growth in the last decade in the United States of America (USA), as well as in other Western societies. It poses a grave danger to democracy and the minorities it targets, and it requires active actions against it to avoid escalation. This work presents the first-of-its-kind neo-fascist coding scheme for digital discourse in the USA societal context, overseen by political science researchers. Our work bridges the gap between Natural Language Processing (NLP) and political science against this phenomena. Furthermore, to test the coding scheme, we collect a tremendous amount of activity on the internet from notable neo-fascist groups (the forums of Iron March and Stormfront.org), and the guidelines are applied to a subset of the collected posts. Through crowdsourcing, we annotate a total of a thousand posts that are labeled as neo-fascist or non-neo-fascist. With this labeled data set, we fine-tune and test both Small Language Models (SLMs) and Large Language Models (LLMs), obtaining the very first classification models for neo-fascist discourse. We find that the prevalence of neo-fascist rhetoric in this kind of forum is ever-present, making them a good target for future research. The societal context is a key consideration for neo-fascist speech when conducting NLP research. Finally, the work against this kind of political movement must be pressed upon and continued for the well-being of a democratic society. Disclaimer: This study focuses on detecting neo-fascist content in text, similar to other hate speech analyses, without labeling individuals or organizations.

arxiv情報

著者 Rudy Alexandro Garrido Veliz,Martin Semmann,Chris Biemann,Seid Muhie Yimam
発行日 2025-06-12 15:02:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | FASCIST-O-METER: Classifier for Neo-fascist Discourse Online はコメントを受け付けていません