Image-Text Relation Prediction for Multilingual Tweets

要約

さまざまなソーシャルネットワークが10年以上にわたってメディアのアップロードを許可しています。
それでも、投稿されたテキストとの関係が何であるか、またはまったくある場合でも、常に明確ではありませんでした。
この作業では、多言語のビジョン言語モデルが異なる言語での画像テキスト関係予測のタスクにどのように取り組むかを探り、ラトビア語のTwitter投稿から専用のバランスの取れたベンチマークデータセットを構築し、それぞれの英語への翻訳を作成します。
結果を以前の研究と比較し、最近リリースされたビジョン言語モデルチェックポイントがこのタスクでますます能力が高まっていることを示していますが、さらに改善する余地はまだあります。

要約(オリジナル)

Various social networks have been allowing media uploads for over a decade now. Still, it has not always been clear what is their relation with the posted text or even if there is any at all. In this work, we explore how multilingual vision-language models tackle the task of image-text relation prediction in different languages, and construct a dedicated balanced benchmark data set from Twitter posts in Latvian along with their manual translations into English. We compare our results to previous work and show that the more recently released vision-language model checkpoints are becoming increasingly capable at this task, but there is still much room for further improvement.

arxiv情報

著者 Matīss Rikters,Edison Marrese-Taylor
発行日 2025-05-08 08:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Image-Text Relation Prediction for Multilingual Tweets はコメントを受け付けていません

The Power of Stories: Narrative Priming Shapes How LLM Agents Collaborate and Compete

要約

Yuval Noah Harariによると、大規模な人間の協力は、一般的な信念と価値をコードする共有された物語によって推進されています。
この研究では、そのような物語が同様にLLMエージェントをコラボレーションに向けて微調整できるかどうかを調査します。
LLMエージェントが協同組合または利己的な支出戦略を選択する有限の繰り返しの公共財ゲームを使用しています。
私たちは、チームワークをさまざまな程度に強調しているストーリーを備えたエージェントをプライミングし、これが交渉の結果にどのように影響するかをテストします。
私たちの実験では、4つの質問を探ります。(1)物語は交渉行動にどのように影響しますか?
(2)エージェントが同じストーリーと異なるストーリーを共有する場合、何が異なりますか?
(3)エージェント番号が成長するとどうなりますか?
(4)エージェントは利己的な交渉者に対して回復力がありますか?
ストーリーベースのプライミングは、交渉戦略と成功率に大きく影響することがわかります。
コモンストーリーは、各エージェントに利益をもたらし、コラボレーションを改善します。
対照的に、異なるストーリーを持つプライミングエージェントはこの効果を逆転させ、それらのエージェントは自己利益に向かってプライミングされました。
これらの結果は、マルチエージェントシステムの設計とAIアライメントに影響を与えると仮定します。

要約(オリジナル)

According to Yuval Noah Harari, large-scale human cooperation is driven by shared narratives that encode common beliefs and values. This study explores whether such narratives can similarly nudge LLM agents toward collaboration. We use a finitely repeated public goods game in which LLM agents choose either cooperative or egoistic spending strategies. We prime agents with stories highlighting teamwork to different degrees and test how this influences negotiation outcomes. Our experiments explore four questions:(1) How do narratives influence negotiation behavior? (2) What differs when agents share the same story versus different ones? (3) What happens when the agent numbers grow? (4) Are agents resilient against self-serving negotiators? We find that story-based priming significantly affects negotiation strategies and success rates. Common stories improve collaboration, benefiting each agent. By contrast, priming agents with different stories reverses this effect, and those agents primed toward self-interest prevail. We hypothesize that these results carry implications for multi-agent system design and AI alignment.

arxiv情報

著者 Gerrit Großmann,Larisa Ivanova,Sai Leela Poduru,Mohaddeseh Tabrizian,Islam Mesabah,David A. Selby,Sebastian J. Vollmer
発行日 2025-05-08 08:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA, I.2.11 | The Power of Stories: Narrative Priming Shapes How LLM Agents Collaborate and Compete はコメントを受け付けていません

Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets

要約

数学のような複雑なドメインでは、正確性と多様な推論の両方を達成することは、大規模な言語モデル(LLM)にとって困難なままです。
重要なボトルネックは、費用のかかる人間の注釈なしで生成を導くための中間推論の手順を評価することです。
これに対処するために、まず、類似性ベースのデータ増強技術と組み合わせたモンテカルロツリー検索を使用して、自動的にトレーニングされた新しいプロセス報酬モデル(PRM)を導入し、ステップレベルの推論品質を効果的にキャプチャします。
このPRMを活用して、生成フローネットワーク(Gflownets)を適応させ、推論ステップレベルで動作させます。
単一の報酬を最大化することに焦点を当てた従来の強化学習とは異なり、Gflownetsは、PRMで測定されるように、報酬に比例した多様で高品質のソリューションを自然にサンプリングします。
経験的評価は、挑戦的な数学ベンチマークの精度とソリューションの多様性の両方の強力な改善を示しています(例えば、llama3.2-3bの数学レベル5の +2.59%の絶対精度)。
私たちの研究は、LLMでより堅牢で多用途の数学的推論を開発するためのPRM誘導のステップレベルのGflownetsの可能性を示しています。

要約(オリジナル)

Achieving both accuracy and diverse reasoning remains challenging for Large Language Models (LLMs) in complex domains like mathematics. A key bottleneck is evaluating intermediate reasoning steps to guide generation without costly human annotations. To address this, we first introduce a novel Process Reward Model (PRM) trained automatically using Monte Carlo Tree Search coupled with a similarity-based data augmentation technique, effectively capturing step-level reasoning quality. Leveraging this PRM, we then adapt Generative Flow Networks (GFlowNets) to operate at the reasoning step level. Unlike traditional reinforcement learning focused on maximizing a single reward, GFlowNets naturally sample diverse, high-quality solutions proportional to their rewards, as measured by our PRM. Empirical evaluation shows strong improvements in both accuracy and solution diversity on challenging mathematical benchmarks (e.g., +2.59% absolute accuracy on MATH Level 5 for Llama3.2-3B), with effective generalization to unseen datasets (+9.4% absolute on SAT MATH). Our work demonstrates the potential of PRM-guided, step-level GFlowNets for developing more robust and versatile mathematical reasoning in LLMs.

arxiv情報

著者 Adam Younsi,Abdalgader Abubaker,Mohamed El Amine Seddik,Hakim Hacid,Salem Lahlou
発行日 2025-05-08 08:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets はコメントを受け付けていません

WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

要約

ビジョン言語モデル(VLM)は、特に英語以外の言語や過小評価されている文化的文脈で、文化固有の知識と格闘していることがよくあります。
そのような知識に関する彼らの理解を評価するために、多言語で多文化的で視覚的に根拠のある言語理解のための大規模なスケールのベンチマークであるWorldCuisinesを紹介します。
このベンチマークには、30の言語と方言にわたってテキストイメージペアを備えた視覚的な質問応答(VQA)データセットが含まれ、9つの言語ファミリにまたがり、100万を超えるデータポイントを備えており、これまでで最大の多文化VQAベンチマークになります。
皿名とその起源を識別するためのタスクが含まれています。
トレーニングデータセット(100万インスタンス)とともに、2つのサイズ(12Kおよび60Kインスタンス)の評価データセットを提供します。
私たちの調査結果は、VLMSが正しい場所のコンテキストでより良くパフォーマンスを発揮する一方で、敵対的なコンテキストと闘い、特定の地域の料理と言語を予測することを示しています。
将来の研究をサポートするために、VQAデータとともに注釈付きの食品エントリと画像を含む知識ベースをリリースします。

要約(オリジナル)

Vision Language Models (VLMs) often struggle with culture-specific knowledge, particularly in languages other than English and in underrepresented cultural contexts. To evaluate their understanding of such knowledge, we introduce WorldCuisines, a massive-scale benchmark for multilingual and multicultural, visually grounded language understanding. This benchmark includes a visual question answering (VQA) dataset with text-image pairs across 30 languages and dialects, spanning 9 language families and featuring over 1 million data points, making it the largest multicultural VQA benchmark to date. It includes tasks for identifying dish names and their origins. We provide evaluation datasets in two sizes (12k and 60k instances) alongside a training dataset (1 million instances). Our findings show that while VLMs perform better with correct location context, they struggle with adversarial contexts and predicting specific regional cuisines and languages. To support future research, we release a knowledge base with annotated food entries and images along with the VQA data.

arxiv情報

著者 Genta Indra Winata,Frederikus Hudi,Patrick Amadeus Irawan,David Anugraha,Rifki Afina Putri,Yutong Wang,Adam Nohejl,Ubaidillah Ariq Prathama,Nedjma Ousidhoum,Afifa Amriani,Anar Rzayev,Anirban Das,Ashmari Pramodya,Aulia Adila,Bryan Wilie,Candy Olivia Mawalim,Ching Lam Cheng,Daud Abolade,Emmanuele Chersoni,Enrico Santus,Fariz Ikhwantri,Garry Kuwanto,Hanyang Zhao,Haryo Akbarianto Wibowo,Holy Lovenia,Jan Christian Blaise Cruz,Jan Wira Gotama Putra,Junho Myung,Lucky Susanto,Maria Angelica Riera Machin,Marina Zhukova,Michael Anugraha,Muhammad Farid Adilazuarda,Natasha Santosa,Peerat Limkonchotiwat,Raj Dabre,Rio Alexander Audino,Samuel Cahyawijaya,Shi-Xiong Zhang,Stephanie Yulia Salim,Yi Zhou,Yinxuan Gui,David Ifeoluwa Adelani,En-Shiun Annie Lee,Shogo Okada,Ayu Purwarianti,Alham Fikri Aji,Taro Watanabe,Derry Tanti Wijaya,Alice Oh,Chong-Wah Ngo
発行日 2025-05-08 08:46:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines はコメントを受け付けていません

Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations

要約

このペーパーでは、テオチュー方言のスピーチコーパスであるTeochew-Wildの構築を報告しています。
コーパスには、複数のスピーカーからの18.9時間の野生のテオチューの音声データが含まれており、正確な正書法とピニンの注釈を備えた形式的表現と口語的な表現の両方をカバーしています。
さらに、自動音声認識(ASR)やテキストツースピーチ(TTS)など、この低リソース言語の音声タスクで研究とアプリケーションを推進するための補足テキスト処理ツールとリソースを提供します。
私たちの知る限り、これは正確な正書法の注釈を備えた最初の公開されたTeochewデータセットです。
コーパスで実験を実施し、結果はASRおよびTTSタスクの有効性を検証します。

要約(オリジナル)

This paper reports the construction of the Teochew-Wild, a speech corpus of the Teochew dialect. The corpus includes 18.9 hours of in-the-wild Teochew speech data from multiple speakers, covering both formal and colloquial expressions, with precise orthographic and pinyin annotations. Additionally, we provide supplementary text processing tools and resources to propel research and applications in speech tasks for this low-resource language, such as automatic speech recognition (ASR) and text-to-speech (TTS). To the best of our knowledge, this is the first publicly available Teochew dataset with accurate orthographic annotations. We conduct experiments on the corpus, and the results validate its effectiveness in ASR and TTS tasks.

arxiv情報

著者 Linrong Pan,Chenglong Jiang,Gaoze Hou,Ying Gao
発行日 2025-05-08 08:47:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Teochew-Wild: The First In-the-wild Teochew Dataset with Orthographic Annotations はコメントを受け付けていません

Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant

要約

量子化は、大小の言語モデルの費用対効果の高い展開のための有望なソリューションとして注目を集めています。
ただし、ほとんどの以前の研究は、困惑または基本的な知識タスクに限定されており、Llama-3.3などの最近のモデルの包括的な評価がありません。
この論文では、13のデータセットに4つの量子化方法を適用して、1Bから405Bパラメーターにまたがる命令チューニングモデルの包括的な評価を実施します。
私たちの調査結果は、(1)量子化されたモデルが一般に小さなFP16ベースラインを上回っていることを明らかにしていますが、しばしば指導のフォローと幻覚の検出に苦労しています。
(2)FP8は、タスク全体で最も堅牢なオプションとして一貫して現れ、AWQは体重のみの量子化でGPTQを上回る傾向があります。
(3)小さいモデルは、4ビット量子化で深刻な精度低下に苦しむ可能性がありますが、70Bスケールモデルは安定した性能を維持します。
(4)特に、\ textIT {hard}タスクは常に最大の精度損失を経験するとは限らず、量子化がタスクの難易度と単に相関するのではなく、モデルの固有の弱点を拡大することを示しています。
(5)LLMベースの裁判官(MTベンチ)は、コーディングおよびSTEMタスクの大幅なパフォーマンスの低下を強調していますが、推論は時々改善される可能性があります。

要約(オリジナル)

Quantization has gained attention as a promising solution for the cost-effective deployment of large and small language models. However, most prior work has been limited to perplexity or basic knowledge tasks and lacks a comprehensive evaluation of recent models like Llama-3.3. In this paper, we conduct a comprehensive evaluation of instruction-tuned models spanning 1B to 405B parameters, applying four quantization methods across 13 datasets. Our findings reveal that (1) quantized models generally surpass smaller FP16 baselines, yet they often struggle with instruction-following and hallucination detection; (2) FP8 consistently emerges as the most robust option across tasks, and AWQ tends to outperform GPTQ in weight-only quantization; (3) smaller models can suffer severe accuracy drops at 4-bit quantization, while 70B-scale models maintain stable performance; (4) notably, \textit{hard} tasks do not always experience the largest accuracy losses, indicating that quantization magnifies a model’s inherent weaknesses rather than simply correlating with task difficulty; and (5) an LLM-based judge (MT-Bench) highlights significant performance declines in coding and STEM tasks, though reasoning may sometimes improve.

arxiv情報

著者 Jemin Lee,Sihyeong Park,Jinse Kwon,Jihun Oh,Yongin Kwon
発行日 2025-05-08 08:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Exploring the Trade-Offs: Quantization Methods, Task Difficulty, and Model Size in Large Language Models From Edge to Giant はコメントを受け付けていません

CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts

要約

大規模な言語モデル(LLMS)は、コード生成タスクで顕著な成功を収め、コードの完了、デバッグ、プログラミング支援などのさまざまなアプリケーションを強化しています。
ただし、Humanval、MBPP、BigCodebenchなどの既存のベンチマークは、主に英語のみのプロンプトでLLMを評価し、多言語開発者がLLMと対話しながらコードミックス言語を使用する現実世界のシナリオを見落としています。
このギャップに対処するために、CodeMixbenchを紹介します。これは、コードミックスプロンプトからコード生成に対するLLMSの堅牢性を評価するために設計された新しいベンチマークです。
BigCodebenchの上に構築されたCodeMixbenchは、3つの言語ペアにわたってプロンプトの自然言語部分に制御されたコードミックス(CMD)を導入します。
1.5Bから15Bのパラメーターの範囲のオープンソースコード生成モデルの多様なセットを包括的に評価します。
私たちの結果は、コードミックスされたプロンプトは、英語のみのカウンターパートと比較して、一貫してパス@1パフォーマンスを分解し、小規模なモデルのCMDレベルが高い下でパフォーマンス低下が増加することを示しています。
CodeMixbenchは、多言語コード生成を研究するための現実的な評価フレームワークを提供し、多様な言語設定を大きく一般化する堅牢なコード生成モデルを構築するための新しい課題と方向性を強調します。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success in code generation tasks, powering various applications like code completion, debugging, and programming assistance. However, existing benchmarks such as HumanEval, MBPP, and BigCodeBench primarily evaluate LLMs on English-only prompts, overlooking the real-world scenario where multilingual developers often use code-mixed language while interacting with LLMs. To address this gap, we introduce CodeMixBench, a novel benchmark designed to evaluate the robustness of LLMs on code generation from code-mixed prompts. Built upon BigCodeBench, CodeMixBench introduces controlled code-mixing (CMD) into the natural language parts of prompts across three language pairs: Hinglish (Hindi-English), Spanish-English, and Chinese Pinyin-English. We comprehensively evaluate a diverse set of open-source code generation models ranging from 1.5B to 15B parameters. Our results show that code-mixed prompts consistently degrade Pass@1 performance compared to their English-only counterparts, with performance drops increasing under higher CMD levels for smaller models. CodeMixBench provides a realistic evaluation framework for studying multilingual code generation and highlights new challenges and directions for building robust code generation models that generalize well across diverse linguistic settings.

arxiv情報

著者 Manik Sheokand,Parth Sawant
発行日 2025-05-08 08:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts はコメントを受け付けていません

Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization

要約

低リソースの言語であるベンガル語(バングラ)の消費者健康クエリ(CHQ)には、多くの場合、無関係な詳細が含まれており、効率的な医学的反応を複雑にします。
この研究では、9つの高度な大手言語モデル(LLMS)のゼロショットパフォーマンスを調査しています:GPT-3.5-Turbo、GPT-4、Claude-3.5-Sonnet、llama3-70b-instruct、mixtral-8×22-instruct、gemini-1.5-pro、qwen2-72b-intruct、gemma-27b、
バングラCHQ。
2,350の注釈付きクエリスマリーペアで構成されるBanglachq-Summデータセットを使用して、微調整された最先端モデルであるBangla T5に対するルージュメトリックを使用してこれらのLLMをベンチマークしました。
Mixtral-8x22b-Instructは、Rouge-1およびRouge-Lのトップパフォーマンスモデルとして登場し、Bangla T5はRouge-2で優れていました。
結果は、ゼロショットLLMが微調整されたモデルに匹敵し、タスク固有のトレーニングがなくても高品質の要約を達成できることを示しています。
この作業は、低リソース言語の課題に対処するLLMSの可能性を強調し、ヘルスケアクエリの要約のためのスケーラブルなソリューションを提供します。

要約(オリジナル)

Consumer Health Queries (CHQs) in Bengali (Bangla), a low-resource language, often contain extraneous details, complicating efficient medical responses. This study investigates the zero-shot performance of nine advanced large language models (LLMs): GPT-3.5-Turbo, GPT-4, Claude-3.5-Sonnet, Llama3-70b-Instruct, Mixtral-8x22b-Instruct, Gemini-1.5-Pro, Qwen2-72b-Instruct, Gemma-2-27b, and Athene-70B, in summarizing Bangla CHQs. Using the BanglaCHQ-Summ dataset comprising 2,350 annotated query-summary pairs, we benchmarked these LLMs using ROUGE metrics against Bangla T5, a fine-tuned state-of-the-art model. Mixtral-8x22b-Instruct emerged as the top performing model in ROUGE-1 and ROUGE-L, while Bangla T5 excelled in ROUGE-2. The results demonstrate that zero-shot LLMs can rival fine-tuned models, achieving high-quality summaries even without task-specific training. This work underscores the potential of LLMs in addressing challenges in low-resource languages, providing scalable solutions for healthcare query summarization.

arxiv情報

著者 Ajwad Abrar,Farzana Tabassum,Sabbir Ahmed
発行日 2025-05-08 09:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization はコメントを受け付けていません

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

要約

マルチモーダル大手言語モデル(MLLMS)の急速な発展により、これらのモデルのビデオ理解機能を評価するために、より多くのベンチマークが確立されています。
ただし、これらのベンチマークはスタンドアロンビデオに焦点を当てており、主に人間の行動やオブジェクト状態などの「視覚要素」を評価します。
現実には、現代のビデオは、通常、シリーズとして提示される複雑で継続的な物語を網羅することがよくあります。
この課題に対処するために、105の慎重にキュレーションされた物語主導のシリーズで構成されるベンチマークであるシリーズベンチを提案します。
具体的には、最初にさまざまなジャンルにまたがる多様なドラマシリーズのセットを選択します。
次に、新しい長期の物語注釈法を紹介し、フルインフォメーション変換アプローチと組み合わせて、手動注釈を多様なタスク形式に変換します。
シリーズ内のプロット構造とキャラクター関係の詳細な分析のためのモデル容量をさらに強化するために、新しい物語の推論フレームワークであるPC-DCOTを提案します。
シリーズベンチの広範な結果は、既存のMLLMが依然として物語主導のシリーズを理解する上で重要な課題に直面していることを示していますが、PC-DCOTにより、これらのMLLMがパフォーマンスの改善を実現することができます。
全体として、シリーズベンチとPC-DCOTは、MLLMSの将来の発展を導くために、モデル能力を進めるためのモデル機能を進めることの重要な必要性を強調しています。
シリーズベンチは、https://github.com/zackhxn/seriesbench-cvpr2025で公開されています。

要約(オリジナル)

With the rapid development of Multi-modal Large Language Models (MLLMs), an increasing number of benchmarks have been established to evaluate the video understanding capabilities of these models. However, these benchmarks focus on standalone videos and mainly assess ‘visual elements’ like human actions and object states. In reality, contemporary videos often encompass complex and continuous narratives, typically presented as a series. To address this challenge, we propose SeriesBench, a benchmark consisting of 105 carefully curated narrative-driven series, covering 28 specialized tasks that require deep narrative understanding. Specifically, we first select a diverse set of drama series spanning various genres. Then, we introduce a novel long-span narrative annotation method, combined with a full-information transformation approach to convert manual annotations into diverse task formats. To further enhance model capacity for detailed analysis of plot structures and character relationships within series, we propose a novel narrative reasoning framework, PC-DCoT. Extensive results on SeriesBench indicate that existing MLLMs still face significant challenges in understanding narrative-driven series, while PC-DCoT enables these MLLMs to achieve performance improvements. Overall, our SeriesBench and PC-DCoT highlight the critical necessity of advancing model capabilities to understand narrative-driven series, guiding the future development of MLLMs. SeriesBench is publicly available at https://github.com/zackhxn/SeriesBench-CVPR2025.

arxiv情報

著者 Chenkai Zhang,Yiming Lei,Zeming Liu,Haitao Leng,Shaoguo Liu,Tingting Gao,Qingjie Liu,Yunhong Wang
発行日 2025-05-08 09:08:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding はコメントを受け付けていません

Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction

要約

大規模な言語モデルの急速な進歩は、悪意のある俳優による潜在的な誤用に関する大きな懸念を提起しました。
その結果、これらのリスクを軽減するための効果的な検出器を開発することが重要な優先事項になりました。
ただし、ほとんどの既存の検出方法は、検出精度に過度に焦点を当てており、多くの場合、高い偽陽性率(FPR)によってもたらされる社会的リスクを無視します。
このペーパーでは、FPRの上限を効果的に制約するコンフォーマル予測(CP)を活用することにより、この問題に対処します。
CP制約FPRSを直接適用する一方で、検出性能の大幅な減少にもつながります。
このトレードオフを克服するために、このペーパーでは、Multiscaled Conformal Plediction(MCP)を介してゼロショットマシンで生成されたテキスト検出フレームワークを提案します。
このペーパーでは、幅広いドメインにまたがる高品質のデータセットであるRealdetも紹介し、現実的なキャリブレーションを確保し、MCPと組み合わせると優れた検出性能を可能にします。
経験的評価は、MCPがFPRを効果的に制約し、検出性能を大幅に向上させ、複数の検出器とデータセットにわたる敵対的攻撃に対する堅牢性を高めることを示しています。

要約(オリジナル)

The rapid advancement of large language models has raised significant concerns regarding their potential misuse by malicious actors. As a result, developing effective detectors to mitigate these risks has become a critical priority. However, most existing detection methods focus excessively on detection accuracy, often neglecting the societal risks posed by high false positive rates (FPRs). This paper addresses this issue by leveraging Conformal Prediction (CP), which effectively constrains the upper bound of FPRs. While directly applying CP constrains FPRs, it also leads to a significant reduction in detection performance. To overcome this trade-off, this paper proposes a Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction (MCP), which both enforces the FPR constraint and improves detection performance. This paper also introduces RealDet, a high-quality dataset that spans a wide range of domains, ensuring realistic calibration and enabling superior detection performance when combined with MCP. Empirical evaluations demonstrate that MCP effectively constrains FPRs, significantly enhances detection performance, and increases robustness against adversarial attacks across multiple detectors and datasets.

arxiv情報

著者 Xiaowei Zhu,Yubing Ren,Yanan Cao,Xixun Lin,Fang Fang,Yangxi Li
発行日 2025-05-08 09:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction はコメントを受け付けていません