Synthetic-Powered Predictive Inference

要約

コンフォーマル予測は、分布のない有限サンプル保証を伴う予測推論のフレームワークです。
ただし、キャリブレーションデータが不足している場合、情報のない予測セットを提供する傾向があります。
このペーパーでは、サンプルの効率を改善するために、合成データ(たとえば生成モデルからの合成データ)を組み込んだ新しいフレームワークである合成駆動の予測推論(SPPI)を紹介します。
私たちの方法のコアには、スコアトランスポーターがあります。信頼できる実際のデータからの不適合スコアを合成データからのものと並べる経験的分位マッピングです。
スコアトランスポーターをキャリブレーションプロセスに慎重に統合することにより、SPPIは、実際のデータ分布と合成データ分布について仮定することなく、有限サンプルのカバレッジ保証を実現することを証明します。
スコア分布が十分に調整されている場合、SPPIは標準的なコンフォーマル予測よりも実質的にタイトで有益な予測セットを生成します。
画像分類と表形式の回帰に関する実験は、データスカース設定の予測効率の顕著な改善を示しています。

要約(オリジナル)

Conformal prediction is a framework for predictive inference with a distribution-free, finite-sample guarantee. However, it tends to provide uninformative prediction sets when calibration data are scarce. This paper introduces Synthetic-powered predictive inference (SPPI), a novel framework that incorporates synthetic data — e.g., from a generative model — to improve sample efficiency. At the core of our method is a score transporter: an empirical quantile mapping that aligns nonconformity scores from trusted, real data with those from synthetic data. By carefully integrating the score transporter into the calibration process, SPPI provably achieves finite-sample coverage guarantees without making any assumptions about the real and synthetic data distributions. When the score distributions are well aligned, SPPI yields substantially tighter and more informative prediction sets than standard conformal prediction. Experiments on image classification and tabular regression demonstrate notable improvements in predictive efficiency in data-scarce settings.

arxiv情報

著者 Meshi Bashari,Roy Maor Lotan,Yonghoon Lee,Edgar Dobriban,Yaniv Romano
発行日 2025-05-19 17:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Synthetic-Powered Predictive Inference はコメントを受け付けていません

Pre-Training Estimators for Structural Models: Application to Consumer Search

要約

構造経済モデルの事前トレーニング推定器を探索します。
推定量は、計算コストと研究者の努力の大部分が推定器の建設中に発生するという意味で「前処理された」ものです。
異なるデータセットへの推定器のその後のアプリケーションは、計算コストや研究者の努力がほとんど必要ありません。
推定は、データパターンから構造モデルのパラメーターを認識するためにニューラルネットを活用します。
最初の試験として、このペーパーでは、推定が困難であることが知られている連続検索モデルの前提条件の推定器を構築します。
12個の実際のデータセットで事前に処理された推定器を評価します。
推定は実行に数秒かかり、高い精度を示します。
pnnehome.github.ioで推定器を提供します。
より一般的には、前払いされた既製の推定器は、研究者や実践者が構造モデルをよりアクセスしやすくすることができます。

要約(オリジナル)

We explore pretraining estimators for structural econometric models. The estimator is ‘pretrained’ in the sense that the bulk of the computational cost and researcher effort occur during the construction of the estimator. Subsequent applications of the estimator to different datasets require little computational cost or researcher effort. The estimation leverages a neural net to recognize the structural model’s parameter from data patterns. As an initial trial, this paper builds a pretrained estimator for a sequential search model that is known to be difficult to estimate. We evaluate the pretrained estimator on 12 real datasets. The estimation takes seconds to run and shows high accuracy. We provide the estimator at pnnehome.github.io. More generally, pretrained, off-the-shelf estimators can make structural models more accessible to researchers and practitioners.

arxiv情報

著者 Yanhao ‘Max’ Wei,Zhenling Jiang
発行日 2025-05-19 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, G.3, stat.CO | Pre-Training Estimators for Structural Models: Application to Consumer Search はコメントを受け付けていません

Unlocking Non-Invasive Brain-to-Text

要約

外科的脳からテキスト(B2T)の大きな進歩、つまり侵襲的な脳記録からの転写音声にもかかわらず、非侵襲的な代替品はまだ標準的なメトリックのチャンスさえも超えていません。
これは、手術なしで麻痺した個人のコミュニケーションを復元できる非侵襲的な脳コンピューターインターフェイス(BCI)を構築する障壁のままです。
ここでは、これらの重要なベースラインを大幅に超える最初の非侵襲的B2T結果を提示し、BLEUを1.4 \ MathRM { – } 2.6 \ Times $ $ $ 1.4 \ MathRM { – } \ Times $ ase by by by by by by by by by by by by by by by by by by by by by bleuにします。
この結果は、次の3つの貢献によって駆動されます。(1)LLMベースの救助で最近の単語分類モデルを拡張し、単一ワード予測因子を閉鎖的なB2Tシステムに変換します。
(2)予測中のアプローチを導入して、予測中のアプローチを導入して、表記(OOV)の単語を処理し、効果的な語彙を大幅に拡大します。
(3)データセット全体で非侵襲的なB2Tモデルをスケーリングし、大規模な深い学習のロックを解除し、2.1 \ MathRM { – } 2.3 \ Times $による精度を改善する方法を初めて示します。
これらの貢献を通じて、データの品質と語彙サイズの役割に関する新しい洞察を提供します。
一緒に、私たちの結果は、実用的な非侵襲的B2Tシステムを実現するための大きな障害を取り除きます。

要約(オリジナル)

Despite major advances in surgical brain-to-text (B2T), i.e. transcribing speech from invasive brain recordings, non-invasive alternatives have yet to surpass even chance on standard metrics. This remains a barrier to building a non-invasive brain-computer interface (BCI) capable of restoring communication in paralysed individuals without surgery. Here, we present the first non-invasive B2T result that significantly exceeds these critical baselines, raising BLEU by $1.4\mathrm{-}2.6\times$ over prior work. This result is driven by three contributions: (1) we extend recent word-classification models with LLM-based rescoring, transforming single-word predictors into closed-vocabulary B2T systems; (2) we introduce a predictive in-filling approach to handle out-of-vocabulary (OOV) words, substantially expanding the effective vocabulary; and (3) we demonstrate, for the first time, how to scale non-invasive B2T models across datasets, unlocking deep learning at scale and improving accuracy by $2.1\mathrm{-}2.3\times$. Through these contributions, we offer new insights into the roles of data quality and vocabulary size. Together, our results remove a major obstacle to realising practical non-invasive B2T systems.

arxiv情報

著者 Dulhan Jayalath,Gilad Landau,Oiwi Parker Jones
発行日 2025-05-19 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Unlocking Non-Invasive Brain-to-Text はコメントを受け付けていません

From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets

要約

憎しみの認識は、文化的文脈によって大きく異なります。
ただし、ヘイトスピーチ(HS)データセットは、伝統的に言語によって開発されてきました。
これは、異なる文化の本拠地であるさまざまな国で1つの言語が話される可能性があるため、潜在的な文化的偏見を隠しています。
この作業では、2つの相互に関連する文化的プロキシという言語と地理を活用することにより、HSデータセットの文化的バイアスを評価します。
HSデータセットの体系的な調査を8つの言語で実施し、英語のバイアスに関する過去の調査結果を確認しますが、このバイアスが過去数年で着実に減少していることも示しています。
英語、アラビア語、スペイン語の3つの地理的に広がっている言語では、地理的メタデータをツイートから活用して、言語と国の情報を組み合わせることにより、地理文化的コンテキストを近似します。
これらの言語のHSデータセットは、より広範なソーシャルメディア集団とこれらの言語を話す一般人口の両方での顕著な点と比較して、ほんの一握りの国(例えば、米国と英国)を過剰に表現する強力な地理文化的バイアスを示していることがわかります。
これらの調査結果に基づいて、将来のHSデータセットの作成に関する推奨事項を策定します。

要約(オリジナル)

Perceptions of hate can vary greatly across cultural contexts. Hate speech (HS) datasets, however, have traditionally been developed by language. This hides potential cultural biases, as one language may be spoken in different countries home to different cultures. In this work, we evaluate cultural bias in HS datasets by leveraging two interrelated cultural proxies: language and geography. We conduct a systematic survey of HS datasets in eight languages and confirm past findings on their English-language bias, but also show that this bias has been steadily decreasing in the past few years. For three geographically-widespread languages — English, Arabic and Spanish — we then leverage geographical metadata from tweets to approximate geo-cultural contexts by pairing language and country information. We find that HS datasets for these languages exhibit a strong geo-cultural bias, largely overrepresenting a handful of countries (e.g., US and UK for English) relative to their prominence in both the broader social media population and the general population speaking these languages. Based on these findings, we formulate recommendations for the creation of future HS datasets.

arxiv情報

著者 Manuel Tonneau,Diyi Liu,Samuel Fraiberger,Ralph Schroeder,Scott A. Hale,Paul Röttger
発行日 2025-05-19 15:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets はコメントを受け付けていません

Semantic Similarity-Informed Bayesian Borrowing for Quantitative Signal Detection of Adverse Events

要約

自発的な報告システム(SRSS)の有害事象(AES)の定量的識別を強化するためのベイジアンダイナミック借入(BDB)アプローチを提示します。
この方法は、ベイジアン階層モデルを備えた堅牢なメタ分析予測(MAP)を埋め込み、セマンティック類似性測定(SSM)を組み込んで、臨床的に類似したMEDDRA優先項(PTS)からターゲットPTへの加重情報共有を可能にします。
この連続的な類似性ベースの借入は、現在の不均衡分析(DPA)における剛性階層グループの制限を克服します。
2015年から2019年の間にFDAの有害事象報告システム(FAERS)のデータを使用して、MEDDRA高レベルのグループタームレベル(IC HLGT)での借入と、従来の情報コンポーネント(IC)分析とICに対して、IC SSMと呼ばれるアプローチ(IC SSMと呼ばれるアプローチ)を評価します。
FDA製品ラベルアップデートから派生した参照セット(PVLENS)は、公式ラベル付けの前にAESを識別するためのメソッドパフォーマンスの前向き評価を可能にしました。
IC SSMアプローチは、従来のIC(SE = 0.501、J = 0.250)およびIC HLGT(SE = 0.556、J = 0.225)よりも高い感度(1332/2337 = 0.570、Youden’s J = 0.246)を示し、より多くの真のポジティブを特定し、従来のICよりも平均5か月早くそうすることを実証しました。
凝集体F1スコアとYoudenのインデックスがわずかに低いにもかかわらず、IC SSMは市場後の初期の期間または検出しきい値が上がったときに高いパフォーマンスを示し、IC HLGTおよび従来のICよりも安定した関連するアラートを提供しました。
これらの調査結果は、他のデータセット間の検証の可能性と、ケースレベルデータを使用した追加の類似性メトリックとベイジアン戦略の探索の可能性を伴う、従来のDPAメソッドのスケーラブルでコンテキストを意識した強化としてのSSMに基づいたベイジアン借入の使用をサポートしています。

要約(オリジナル)

We present a Bayesian dynamic borrowing (BDB) approach to enhance the quantitative identification of adverse events (AEs) in spontaneous reporting systems (SRSs). The method embeds a robust meta-analytic predictive (MAP) prior with a Bayesian hierarchical model and incorporates semantic similarity measures (SSMs) to enable weighted information sharing from clinically similar MedDRA Preferred Terms (PTs) to the target PT. This continuous similarity-based borrowing overcomes limitations of rigid hierarchical grouping in current disproportionality analysis (DPA). Using data from the FDA Adverse Event Reporting System (FAERS) between 2015 and 2019, we evaluate our approach — termed IC SSM — against traditional Information Component (IC) analysis and IC with borrowing at the MedDRA high-level group term level (IC HLGT). A reference set (PVLens), derived from FDA product label update, enabled prospective evaluation of method performance in identifying AEs prior to official labeling. The IC SSM approach demonstrated higher sensitivity (1332/2337=0.570, Youden’s J=0.246) than traditional IC (Se=0.501, J=0.250) and IC HLGT (Se=0.556, J=0.225), consistently identifying more true positives and doing so on average 5 months sooner than traditional IC. Despite a marginally lower aggregate F1-score and Youden’s index, IC SSM showed higher performance in early post-marketing periods or when the detection threshold was raised, providing more stable and relevant alerts than IC HLGT and traditional IC. These findings support the use of SSM-informed Bayesian borrowing as a scalable and context-aware enhancement to traditional DPA methods, with potential for validation across other datasets and exploration of additional similarity metrics and Bayesian strategies using case-level data.

arxiv情報

著者 François Haguinet,Jeffery L Painter,Gregory E Powell,Andrea Callegaro,Andrew Bate
発行日 2025-05-19 15:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, G.3 | Semantic Similarity-Informed Bayesian Borrowing for Quantitative Signal Detection of Adverse Events はコメントを受け付けていません

TRAIL: Trace Reasoning and Agentic Issue Localization

要約

多様なドメイン全体でエージェントワークフローを採​​用することは、これらのシステムが生成する複雑なトレースをスケーラブルかつ体系的に評価する重要なニーズをもたらします。
現在の評価方法は、長いワークフロートレースのマニュアルのドメイン固有のヒト分析に依存します。これは、エージェント出力の複雑さと量の増加に伴い拡大しないアプローチです。
これらの設定でのエラー分析は、外部ツールの出力と言語モデルの推論の相互作用により、さらに複雑になり、従来のソフトウェアのデバッグよりも困難になります。
この作業では、(1)エージェントワークフロートレースの堅牢で動的な評価方法の必要性を明確にし、(2)エージェントシステムで遭遇するエラータイプの正式な分類法を導入し、(3)この分類剤を使用して構築され、確立されたエージェントベンチャーマークで構築された148個の大きなヒトアノテーショントレース(TRAIL)のセットを提示します。
生態学的妥当性を確保するために、ソフトウェアエンジニアリングやオープンワールド情報検索などの実際のアプリケーションに焦点を当てた、単一およびマルチエージェントシステムの両方からトレースをキュレートします。
私たちの評価は、現代の長いコンテキストLLMがトレースデバッグでパフォーマンスが低いことを明らかにしています。
当社のデータセットとコードは、エージェントワークフローのスケーラブルな評価における将来の研究をサポートおよび加速するために公開されています。

要約(オリジナル)

The increasing adoption of agentic workflows across diverse domains brings a critical need to scalably and systematically evaluate the complex traces these systems generate. Current evaluation methods depend on manual, domain-specific human analysis of lengthy workflow traces – an approach that does not scale with the growing complexity and volume of agentic outputs. Error analysis in these settings is further complicated by the interplay of external tool outputs and language model reasoning, making it more challenging than traditional software debugging. In this work, we (1) articulate the need for robust and dynamic evaluation methods for agentic workflow traces, (2) introduce a formal taxonomy of error types encountered in agentic systems, and (3) present a set of 148 large human-annotated traces (TRAIL) constructed using this taxonomy and grounded in established agentic benchmarks. To ensure ecological validity, we curate traces from both single and multi-agent systems, focusing on real-world applications such as software engineering and open-world information retrieval. Our evaluations reveal that modern long context LLMs perform poorly at trace debugging, with the best Gemini-2.5-pro model scoring a mere 11% on TRAIL. Our dataset and code are made publicly available to support and accelerate future research in scalable evaluation for agentic workflows.

arxiv情報

著者 Darshan Deshpande,Varun Gangal,Hersh Mehta,Jitin Krishnan,Anand Kannappan,Rebecca Qian
発行日 2025-05-19 15:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TRAIL: Trace Reasoning and Agentic Issue Localization はコメントを受け付けていません

Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration

要約

マルチエージェントシステムでの推論のためのスケーリング法則は、単一エージェントシナリオと比較して依存していないままです。
この作業の目的は、複数の異なる言語モデルからサンプリングすることにより合成応答が生成されるマルチエージェントサンプリングを介してデータ合成の問題を調査することにより、このギャップを埋めることを目的としています。
マルチエージェントコラボレーションを成功させるには、効果的なモデル調整が重要です。
固定ワークフローに依存する以前のアプローチとは異なり、モデル調整をマルチステップの意思決定プロセスとして扱い、各入力質問の生成構造を動的に最適化します。
シーケンシャルサンプリングプロセス中にワークフローが反復的に進化するツリー検索ベースのオーケストレーションエージェント〜(TOA)を紹介します。
これを達成するために、モンテカルロツリー検索(MCTS)を活用して、報酬モデルを統合してリアルタイムのフィードバックを提供し、探索を加速します。
アライメント、機械翻訳、および数学的推論に関する実験は、マルチエージェントサンプリングが、推論計算スケールとしての単一エージェントサンプリングを大幅に上回ることを示しています。
TOAは最も計算効率の良いアプローチであり、WMTでSOTAパフォーマンスを達成し、Alpacaevalで72.2 \%LCの勝率を達成しています。
さらに、合成されたアライメントデータで微調整すると、アリーナハードやアルパカエバルなどの挑戦的なベンチマークに関する強い好み学習方法を上回ります。

要約(オリジナル)

Scaling laws for inference compute in multi-agent systems remain under-explored compared to single-agent scenarios. This work aims to bridge this gap by investigating the problem of data synthesis through multi-agent sampling, where synthetic responses are generated by sampling from multiple distinct language models. Effective model coordination is crucial for successful multi-agent collaboration. Unlike previous approaches that rely on fixed workflows, we treat model coordination as a multi-step decision-making process, optimizing generation structures dynamically for each input question. We introduce Tree Search-based Orchestrated Agents~(TOA), where the workflow evolves iteratively during the sequential sampling process. To achieve this, we leverage Monte Carlo Tree Search (MCTS), integrating a reward model to provide real-time feedback and accelerate exploration. Our experiments on alignment, machine translation, and mathematical reasoning demonstrate that multi-agent sampling significantly outperforms single-agent sampling as inference compute scales. TOA is the most compute-efficient approach, achieving SOTA performance on WMT and a 72.2\% LC win rate on AlpacaEval. Moreover, fine-tuning with our synthesized alignment data surpasses strong preference learning methods on challenging benchmarks such as Arena-Hard and AlpacaEval.

arxiv情報

著者 Hai Ye,Mingbao Lin,Hwee Tou Ng,Shuicheng Yan
発行日 2025-05-19 15:18:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration はコメントを受け付けていません

SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information

要約

大規模なオーディオ言語モデル(LALMS)は、スピーチ、オーディオなどのマルチモーダル理解を備えた大規模な言語モデルを拡張します。音声およびオーディオ処理タスクに関するパフォーマンスは広範囲に研究されていますが、推論能力は未定のままです。
特に、彼らのマルチホップの推論、複数の事実を思い出して統合する能力は、体系的な評価を欠いています。
既存のベンチマークは、一般的な音声およびオーディオ処理タスク、会話能力、公平性に焦点を当てていますが、この側面を見落としています。
このギャップを埋めるために、スピーチとオーディオ情報に基づいたLALMSのマルチホップ推論を評価するベンチマークであるSakuraを紹介します。
結果は、LALMSが関連情報を正しく抽出した場合でも、マルチホップの推論のための音声/オーディオ表現を統合するのに苦労し、マルチモーダル推論の基本的な課題を強調していることを示しています。
私たちの調査結果は、LALMSの重大な制限を明らかにし、将来の研究のための洞察とリソースを提供します。

要約(オリジナル)

Large audio-language models (LALMs) extend the large language models with multimodal understanding in speech, audio, etc. While their performances on speech and audio-processing tasks are extensively studied, their reasoning abilities remain underexplored. Particularly, their multi-hop reasoning, the ability to recall and integrate multiple facts, lacks systematic evaluation. Existing benchmarks focus on general speech and audio-processing tasks, conversational abilities, and fairness but overlook this aspect. To bridge this gap, we introduce SAKURA, a benchmark assessing LALMs’ multi-hop reasoning based on speech and audio information. Results show that LALMs struggle to integrate speech/audio representations for multi-hop reasoning, even when they extract the relevant information correctly, highlighting a fundamental challenge in multimodal reasoning. Our findings expose a critical limitation in LALMs, offering insights and resources for future research.

arxiv情報

著者 Chih-Kai Yang,Neo Ho,Yen-Ting Piao,Hung-yi Lee
発行日 2025-05-19 15:20:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | SAKURA: On the Multi-hop Reasoning of Large Audio-Language Models Based on Speech and Audio Information はコメントを受け付けていません

JNLP at SemEval-2025 Task 11: Cross-Lingual Multi-Label Emotion Detection Using Generative Models

要約

グローバルデジタル化の急速な進歩により、さまざまな国のユーザーが情報交換のためにソーシャルメディアにますます依存しています。
これに関連して、多言語の多ラーベル感情検出が重要な研究分野として浮上しています。
この研究では、Semeval-2025タスク11:テキストベースの感情検出のギャップを埋めることに対処します。
私たちの論文は、このタスクの2つのサブトラックに焦点を当てています:(1)トラックA:マルチラベル感情検出、および(2)トラックB:感情強度。
多言語の課題に取り組むために、事前に訓練された多言語モデルを活用し、2つのアーキテクチャに焦点を当てます。(1)微調整されたBERTベースの分類モデルと(2)命令チューニング生成LLM。
さらに、マルチラベル分類を処理するための2つの方法を提案します。これは、すべての対応する感情ラベルに入力を直接マッピングするベースメソッドと、入力テキストと各感情カテゴリの関係を個別にモデル化するペアワイズメソッドです。
実験結果は、多言語の感情認識におけるアプローチの強力な一般化能力を示しています。
トラックAでは、この方法は10の言語で上位4パフォーマンスを達成し、ヒンディー語で1位にランクされています。
トラックBでは、私たちのアプローチは7つの言語で上位5パフォーマンスを確保し、そのシンプルさと有効性を強調しています\ footnote {私たちのコードはhttps://github.com/yingjie7/mlingual_multilabel_emo_detectionで入手できます。

要約(オリジナル)

With the rapid advancement of global digitalization, users from different countries increasingly rely on social media for information exchange. In this context, multilingual multi-label emotion detection has emerged as a critical research area. This study addresses SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection. Our paper focuses on two sub-tracks of this task: (1) Track A: Multi-label emotion detection, and (2) Track B: Emotion intensity. To tackle multilingual challenges, we leverage pre-trained multilingual models and focus on two architectures: (1) a fine-tuned BERT-based classification model and (2) an instruction-tuned generative LLM. Additionally, we propose two methods for handling multi-label classification: the base method, which maps an input directly to all its corresponding emotion labels, and the pairwise method, which models the relationship between the input text and each emotion category individually. Experimental results demonstrate the strong generalization ability of our approach in multilingual emotion recognition. In Track A, our method achieved Top 4 performance across 10 languages, ranking 1st in Hindi. In Track B, our approach also secured Top 5 performance in 7 languages, highlighting its simplicity and effectiveness\footnote{Our code is available at https://github.com/yingjie7/mlingual_multilabel_emo_detection.

arxiv情報

著者 Jieying Xue,Phuong Minh Nguyen,Minh Le Nguyen,Xin Liu
発行日 2025-05-19 15:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | JNLP at SemEval-2025 Task 11: Cross-Lingual Multi-Label Emotion Detection Using Generative Models はコメントを受け付けていません

Stronger Together: Unleashing the Social Impact of Hate Speech Research

要約

インターネットの出現は、かつて疎外されたコミュニティにとって祝福と呪いの両方でした。
よく使用すると、インターネットを使用して、さまざまな交差点を横断するコミュニティを接続および確立できます。
ただし、特にソーシャルメディアプラットフォームでの憎しみ、誤報、偽情報を永続させるだけでなく、人々やコミュニティを疎外するツールとしても使用できます。
私たちは、既存の計算ソリューションから離れたヘイトスピーチの研究と研究者を操縦することを提案し、この社会的問題に対処するための社会的解決策を知らせる社会的方法を検討します。
同様の方法で言語研究が言語計画政策を通知することができるように、言語学者は言語と社会について知っていることを適用して、デジタル空間における反社会的行動の緊急リスクと危険を軽減する必要があります。
言語学者とNLPの研究者は、コミュニティ、支持者、活動家、政策立案者と一緒に働く言語学の研究の社会的影響の可能性を解き放ち、公平なデジタル包含を可能にし、デジタル格差を閉鎖することを主張しています。

要約(オリジナル)

The advent of the internet has been both a blessing and a curse for once marginalised communities. When used well, the internet can be used to connect and establish communities crossing different intersections; however, it can also be used as a tool to alienate people and communities as well as perpetuate hate, misinformation, and disinformation especially on social media platforms. We propose steering hate speech research and researchers away from pre-existing computational solutions and consider social methods to inform social solutions to address this social problem. In a similar way linguistics research can inform language planning policy, linguists should apply what we know about language and society to mitigate some of the emergent risks and dangers of anti-social behaviour in digital spaces. We argue linguists and NLP researchers can play a principle role in unleashing the social impact potential of linguistics research working alongside communities, advocates, activists, and policymakers to enable equitable digital inclusion and to close the digital divide.

arxiv情報

著者 Sidney Wong
発行日 2025-05-19 15:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stronger Together: Unleashing the Social Impact of Hate Speech Research はコメントを受け付けていません