Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA

要約

チェックボックスは、ダニの有無がデータの抽出と意思決定プロセスを直接通知する現実世界のドキュメント処理で重要です。
しかし、幅広いタスクにわたる大規模なビジョンモデルと言語モデルの強力なパフォーマンスにもかかわらず、彼らはチェック可能なコンテンツの解釈に苦労しています。
この課題は、見落とされがちなチェックボックスが費用のかかる規制または契約上の監視につながる可能性のある業界で特に差し迫っています。
このギャップに対処するために、チェックボックス関連のタスクのモデルパフォーマンスを評価および改善するために設計されたターゲットリソースであるCheckboxQaデータセットを導入します。
現在のモデルの限界を明らかにし、Legal TechやFinanceなどのセクターでのアプリケーションに大きな意味を持つ、ドキュメント理解システムを進めるための貴重なツールとして機能します。
データセットは、https://github.com/snowflake-labs/checkboxqaで公開されています

要約(オリジナル)

Checkboxes are critical in real-world document processing where the presence or absence of ticks directly informs data extraction and decision-making processes. Yet, despite the strong performance of Large Vision and Language Models across a wide range of tasks, they struggle with interpreting checkable content. This challenge becomes particularly pressing in industries where a single overlooked checkbox may lead to costly regulatory or contractual oversights. To address this gap, we introduce the CheckboxQA dataset, a targeted resource designed to evaluate and improve model performance on checkbox-related tasks. It reveals the limitations of current models and serves as a valuable tool for advancing document comprehension systems, with significant implications for applications in sectors such as legal tech and finance. The dataset is publicly available at: https://github.com/Snowflake-Labs/CheckboxQA

arxiv情報

著者 Michał Turski,Mateusz Chiliński,Łukasz Borchmann
発行日 2025-04-14 17:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Unchecked and Overlooked: Addressing the Checkbox Blind Spot in Large Language Models with CheckboxQA はコメントを受け付けていません

Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods

要約

大規模な言語モデル(LLM)は、人間でさえ、テキストが別の人間によって生成されたのか、それともコンピューターによって生成されたのかを識別するのが困難であるという点まで進んでいます。
ただし、テキストが人間または人工知能(AI)によって生成されたかどうかを知ることは、その信頼性を判断するために重要であり、詐欺や学問的不正の検出、誤った情報と政治的宣伝の拡大との闘いなど、多くのドメインにアプリケーションを持っています。
したがって、AIに生成されたテキスト(AIGT)検出のタスクは非常に挑戦的であり、非常に重要です。
この調査では、透かし、統計的および文体分析、機械学習分類など、AIGT検出に対する最先端のアプローチを要約します。
また、このタスクの既存のデータセットに関する情報も提供します。
調査結果を統合すると、「検出可能な」AIGTテキストがさまざまなシナリオの下でどのようにあるかを判断するために組み合わせる顕著な要因についての洞察を提供し、この重要な技術的および社会的課題に向けて将来の仕事のために実用的な推奨事項を作成することを目指しています。

要約(オリジナル)

Large language models (LLMs) have advanced to a point that even humans have difficulty discerning whether a text was generated by another human, or by a computer. However, knowing whether a text was produced by human or artificial intelligence (AI) is important to determining its trustworthiness, and has applications in many domains including detecting fraud and academic dishonesty, as well as combating the spread of misinformation and political propaganda. The task of AI-generated text (AIGT) detection is therefore both very challenging, and highly critical. In this survey, we summarize state-of-the art approaches to AIGT detection, including watermarking, statistical and stylistic analysis, and machine learning classification. We also provide information about existing datasets for this task. Synthesizing the research findings, we aim to provide insight into the salient factors that combine to determine how ‘detectable’ AIGT text is under different scenarios, and to make practical recommendations for future work towards this significant technical and societal challenge.

arxiv情報

著者 Kathleen C. Fraser,Hillary Dawkins,Svetlana Kiritchenko
発行日 2025-04-14 17:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Detecting AI-Generated Text: Factors Influencing Detectability with Current Methods はコメントを受け付けていません

MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning

要約

大規模な言語モデル(LLM)がさまざまなタスクにますます適用されるため、モデルのパフォーマンスを向上させるための重要な方法として、指導の調整が浮上しています。
ただし、現在のデータ管理戦略は、多様で包括的なデータを生成する上で大きな課題に直面し、モデルパフォーマンスのさらなる改善を制限しています。
このギャップに対処するために、多様な命令チューニングのための新しいモデルのないデータ補間法であるMDITを提案します。これは、タスク補間を実行することにより、さまざまな高品質の命令データを生成します。
さらに、トレーニングデータの多様性を確保するために、多様性ベースのクラスタリング戦略が含まれています。
広範な実験は、私たちの方法が複数のベンチマークタスクで優れたパフォーマンスを達成することを示しています。
MDITで微調整されたLLMSは、一般的な質問応答、数学の推論、コード生成など、多数のタスクの大幅な改善を示しています。
MDITは、効率的で自動データの合成方法を提供し、複雑な環境でLLMのアプリケーションの可能性を拡大しながら、外部リソースに依存することなく多様な命令データを生成します。

要約(オリジナル)

As Large Language Models (LLMs) are increasingly applied across various tasks, instruction tuning has emerged as a critical method for enhancing model performance. However, current data management strategies face substantial challenges in generating diverse and comprehensive data, restricting further improvements in model performance. To address this gap, we propose MDIT, a novel model-free data interpolation method for diverse instruction tuning, which generates varied and high-quality instruction data by performing task interpolation. Moreover, it contains diversity-based clustering strategies to ensure the diversity of the training data. Extensive experiments show that our method achieves superior performance in multiple benchmark tasks. The LLMs finetuned with MDIT show significant improvements in numerous tasks such as general question answering, math reasoning, and code generation. MDIT offers an efficient and automatic data synthetic method, generating diverse instruction data without depending on external resources while expanding the application potential of LLMs in complex environments.

arxiv情報

著者 Yangning Li,Zihua Lan,Lv Qingsong,Yinghui Li,Hai-Tao Zheng
発行日 2025-04-14 17:48:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MDIT: A Model-free Data Interpolation Method for Diverse Instruction Tuning はコメントを受け付けていません

SuperBPE: Space Travel for Language Models

要約

ほぼすべての言語モデル(LM)トークン化スキームにわたる仮定は、トークンがサブワード、つまり単語の境界内に含まれるべきであるということです。
一見合理的な帰納的バイアスを提供しながら、この一般的な慣行は現代のLMSの可能性を制限しているのでしょうか?
Whitespaceは、マルチワード式(例えば、「ちなみに」)、概念を表現するために必要な単語の数の交差的な変動(ドイツ語の「スペーススーツヘルメット」が「ラウマンツハルム」)の交差的な変動と、ホワイトスペースを使用しない言語(E.G.、中国)を表現する信頼できる意味の区切り文字ではありません。
サブワードを超えたトークン化の可能性を調査するために、「スーパーワード」トークンザー、SuperBPEを導入します。これには、単純なプレシングカリキションをバイトペアエンコーディング(BPE)アルゴリズムに組み込み、最初にサブワードを学習し、次にホワイトスペースを橋渡しします。
これにより、エンコード効率の劇的な改善がもたらされます。語彙サイズを200kに修正すると、SuperBPEは平均してBPEよりも最大33%少ないトークンの固定テキストをエンコードします。
実験では、モデルサイズ、語彙サイズ、およびトレーニングの計算を修正しながら、8b変圧器LMSをゼロから取得し、語彙を学習するためのアルゴリズムのみを変化させます。
SuperBPEで訓練されたモデルは、30のダウンストリームタスク(MMLUで +8.2%を含む)にわたってBPEベースラインで平均 +4​​.0%の絶対改善を達成し、同時に推論時に27%少ない計算が必要です。
分析では、SuperBPEは、トークンあたりの難易度でより均一なテキストのセグメンテーションをもたらすことがわかります。
定性的には、これは、SuperBPEトークンが多くの場合、単一のユニットとして意味的に機能する一般的なマルチワード式をキャプチャすることが多いためかもしれません。
SuperBPEは、エンコード効率とダウンストリームパフォーマンスの両方を改善し、全体的に優れた言語モデルをもたらす、トークン化の局所的な修正であり、トークン化の局所的な変更です。

要約(オリジナル)

The assumption across nearly all language model (LM) tokenization schemes is that tokens should be subwords, i.e., contained within word boundaries. While providing a seemingly reasonable inductive bias, is this common practice limiting the potential of modern LMs? Whitespace is not a reliable delimiter of meaning, as evidenced by multi-word expressions (e.g., ‘by the way’), crosslingual variation in the number of words needed to express a concept (e.g., ‘spacesuit helmet’ in German is ‘raumanzughelm’), and languages that do not use whitespace at all (e.g., Chinese). To explore the potential of tokenization beyond subwords, we introduce a ‘superword’ tokenizer, SuperBPE, which incorporates a simple pretokenization curriculum into the byte-pair encoding (BPE) algorithm to first learn subwords, then superwords that bridge whitespace. This brings dramatic improvements in encoding efficiency: when fixing the vocabulary size to 200k, SuperBPE encodes a fixed piece of text with up to 33% fewer tokens than BPE on average. In experiments, we pretrain 8B transformer LMs from scratch while fixing the model size, vocabulary size, and train compute, varying *only* the algorithm for learning the vocabulary. Our model trained with SuperBPE achieves an average +4.0% absolute improvement over the BPE baseline across 30 downstream tasks (including +8.2% on MMLU), while simultaneously requiring 27% less compute at inference time. In analysis, we find that SuperBPE results in segmentations of text that are more uniform in per-token difficulty. Qualitatively, this may be because SuperBPE tokens often capture common multi-word expressions that function semantically as a single unit. SuperBPE is a straightforward, local modification to tokenization that improves both encoding efficiency and downstream performance, yielding better language models overall.

arxiv情報

著者 Alisa Liu,Jonathan Hayase,Valentin Hofmann,Sewoong Oh,Noah A. Smith,Yejin Choi
発行日 2025-04-14 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SuperBPE: Space Travel for Language Models はコメントを受け付けていません

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

要約

OpenaiによるO1モデルのリリースにより、ゆっくりと思考戦略を採用する推論モデルが徐々に現れました。
このようなモデルによって生成された応答には、複雑な推論、中間ステップ、自己反省が含まれることが多いため、既存の評価方法はしばしば不十分です。
彼らは、LLM出力が参照答えと本当に同等であるかどうかを判断するのに苦労し、また、長く複雑な応答から最終的な答えを特定して抽出するのが困難です。
この問題に対処するために、推論モデル評価のための効率的な回答検証剤であるXverifyを提案します。
Xverifyは、同等の判断における強力な能力を示し、推論モデルによって生成された回答がさまざまなタイプの客観的な質問にわたる参照回答と同等であるかどうかを効果的に決定できるようにします。
Xverifyを訓練および評価するために、さまざまなデータセットで複数のLLMによって生成された質問回答ペアを収集し、複数の推論モデルを活用し、モデルの推論モデル評価のために特異的に設計された挑戦的な評価セットを収集することにより、VARデータセットを構築します。
ラベルの精度を確保するために、マルチラウンドの注釈プロセスが採用されています。
VARデータセットに基づいて、異なるスケールの複数のXVerifyモデルをトレーニングします。
テストセットと一般化セットの両方で実施さ​​れた評価実験では、すべてのXverifyモデルが95 \%を超える全体的なF1スコアと精度を達成します。
特に、最小のバリアントであるXverify-0.5B-Iは、GPT-4oを除くすべての評価方法を上回り、Xverify-3B-IBは全体的なパフォーマンスでGPT-4Oを上回ります。
これらの結果は、Xverifyの有効性と一般化可能性を検証します。

要約(オリジナル)

With the release of the o1 model by OpenAI, reasoning models adopting slow thinking strategies have gradually emerged. As the responses generated by such models often include complex reasoning, intermediate steps, and self-reflection, existing evaluation methods are often inadequate. They struggle to determine whether the LLM output is truly equivalent to the reference answer, and also have difficulty identifying and extracting the final answer from long, complex responses. To address this issue, we propose xVerify, an efficient answer verifier for reasoning model evaluations. xVerify demonstrates strong capability in equivalence judgment, enabling it to effectively determine whether the answers produced by reasoning models are equivalent to reference answers across various types of objective questions. To train and evaluate xVerify, we construct the VAR dataset by collecting question-answer pairs generated by multiple LLMs across various datasets, leveraging multiple reasoning models and challenging evaluation sets designed specifically for reasoning model assessment. A multi-round annotation process is employed to ensure label accuracy. Based on the VAR dataset, we train multiple xVerify models of different scales. In evaluation experiments conducted on both the test set and generalization set, all xVerify models achieve overall F1 scores and accuracy exceeding 95\%. Notably, the smallest variant, xVerify-0.5B-I, outperforms all evaluation methods except GPT-4o, while xVerify-3B-Ib surpasses GPT-4o in overall performance. These results validate the effectiveness and generalizability of xVerify.

arxiv情報

著者 Ding Chen,Qingchen Yu,Pengyuan Wang,Wentao Zhang,Bo Tang,Feiyu Xiong,Xinchi Li,Minchuan Yang,Zhiyu Li
発行日 2025-04-14 17:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | xVerify: Efficient Answer Verifier for Reasoning Model Evaluations はコメントを受け付けていません

The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance

要約

マルチモーダル大手言語モデル(MLLM)は、マシンがテキスト、画像、コードなどの多様なモダリティを統合することにより、マシンがどのように処理および人間のような応答を生成するかを変換するように設定されています。
しかし、彼らの能力を効果的に活用して、最適な迅速なエンジニアリングにかかっています。
推論と構成性、マルチモーダルの理解とアライメント、複雑なコード生成と実行、および知識の検索と統合にまたがる24のタスクを超える13のオープンソースMLLMに適用される7つの迅速なエンジニアリング方法の包括的な実験評価を提示します。
私たちのアプローチは、パラメーターカウントによってモデルを小さな(<4b)、中(4b-10b)、および大規模(> 10b)カテゴリに層化し、ゼロショット、ワンショット、少数のショット、類推、生成された知識、および樹木を含むプロンプトのテクニックを比較します。
コード生成などの構造化されたタスクに大きなMLLMが優れており、少数のショットプロンプトで最大96.88%の精度を達成しますが、すべてのモデルは複雑な推論と抽象的な理解に苦労し、多くの場合、60%を下回って幻覚率を高めます。
構造化された推論プロンプトは、小さなモデルで最大75%に幻覚を増加させ、応答時間が長く(大きなMLLMで20秒以上)、より簡潔で効率的な出力を提供しました。
すべてのタスクタイプを均一に最適化する単一のプロンプトメソッドはありません。
代わりに、例ベースのガイダンスと選択的構造化された推論を組み合わせた適応戦略は、堅牢性、効率、および事実の正確性を高めるために不可欠です。
私たちの調査結果は、迅速なエンジニアリングに関する実用的な推奨事項を提供し、AIアシストコーディング、知識検索、マルチモーダルコンテンツの理解など、アプリケーション全体のMLLMのより信頼性の高い展開をサポートします。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are set to transform how machines process and generate human-like responses by integrating diverse modalities such as text, images, and code. Yet, effectively harnessing their capabilities hinges on optimal prompt engineering. We present a comprehensive experimental evaluation of seven prompt engineering methods applied to 13 open-source MLLMs over 24 tasks spanning Reasoning and Compositionality, Multimodal Understanding and Alignment, Complex Code Generation and Execution, and Knowledge Retrieval and Integration. Our approach stratifies models by parameter count into Small (<4B), Medium (4B-10B), and Large (>10B) categories and compares prompting techniques including Zero-Shot, One-Shot, Few-Shot, Chain-of-Thought, Analogical, Generated Knowledge, and Tree-of-Thought. While Large MLLMs excel in structured tasks such as code generation, achieving accuracies up to 96.88% under Few-Shot prompting, all models struggle with complex reasoning and abstract understanding, often yielding accuracies below 60% and high hallucination rates. Structured reasoning prompts frequently increased hallucination up to 75% in small models and led to longer response times (over 20 seconds in Large MLLMs), while simpler prompting methods provided more concise and efficient outputs. No single prompting method uniformly optimises all task types. Instead, adaptive strategies combining example-based guidance with selective structured reasoning are essential to enhance robustness, efficiency, and factual accuracy. Our findings offer practical recommendations for prompt engineering and support more reliable deployment of MLLMs across applications including AI-assisted coding, knowledge retrieval, and multimodal content understanding.

arxiv情報

著者 Anwesha Mohanty,Venkatesh Balavadhani Parthasarathy,Arsalan Shahid
発行日 2025-04-14 12:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET | The Future of MLLM Prompting is Adaptive: A Comprehensive Experimental Evaluation of Prompt Engineering Methods for Robust Multimodal Performance はコメントを受け付けていません

Command A: An Enterprise-Ready Large Language Model

要約

このレポートでは、Command Aの開発について説明します。コマンドAは、実際のエンタープライズユースケースに優れていることを目的とした強力な大規模な言語モデルです。
コマンドAは、エージェントが最適化された多言語対応モデルであり、グローバルビジネスの23の言語をサポートし、新しいハイブリッドアーキテクチャのバランスをとる効率と範囲のパフォーマンスをサポートしています。
洗練されたビジネスプロセスを自動化するための接地とツールを使用して、クラス最高の検索拡張生成(RAG)機能を提供します。
これらの能力は、自己修正アルゴリズムやモデルのマージテクニックなど、分散型トレーニングアプローチを通じて達成されます。
また、能力とアーキテクチャの類似性を共有するコマンドR7Bの結果も含めます。両方のモデルの重みが研究目的でリリースされています。
このテクニカルレポートは、当社のオリジナルのトレーニングパイプラインについて詳しく説明し、一連のエンタープライズ関連タスクとパブリックベンチマークにまたがるモデルの広範な評価を提示し、優れたパフォーマンスと効率性を示しています。

要約(オリジナル)

In this report we describe the development of Command A, a powerful large language model purpose-built to excel at real-world enterprise use cases. Command A is an agent-optimised and multilingual-capable model, with support for 23 languages of global business, and a novel hybrid architecture balancing efficiency with top of the range performance. It offers best-in-class Retrieval Augmented Generation (RAG) capabilities with grounding and tool use to automate sophisticated business processes. These abilities are achieved through a decentralised training approach, including self-refinement algorithms and model merging techniques. We also include results for Command R7B which shares capability and architectural similarities to Command A. Weights for both models have been released for research purposes. This technical report details our original training pipeline and presents an extensive evaluation of our models across a suite of enterprise-relevant tasks and public benchmarks, demonstrating excellent performance and efficiency.

arxiv情報

著者 Team Cohere,:,Aakanksha,Arash Ahmadian,Marwan Ahmed,Jay Alammar,Milad Alizadeh,Yazeed Alnumay,Sophia Althammer,Arkady Arkhangorodsky,Viraat Aryabumi,Dennis Aumiller,Raphaël Avalos,Zahara Aviv,Sammie Bae,Saurabh Baji,Alexandre Barbet,Max Bartolo,Björn Bebensee,Neeral Beladia,Walter Beller-Morales,Alexandre Bérard,Andrew Berneshawi,Anna Bialas,Phil Blunsom,Matt Bobkin,Adi Bongale,Sam Braun,Maxime Brunet,Samuel Cahyawijaya,David Cairuz,Jon Ander Campos,Cassie Cao,Kris Cao,Roman Castagné,Julián Cendrero,Leila Chan Currie,Yash Chandak,Diane Chang,Giannis Chatziveroglou,Hongyu Chen,Claire Cheng,Alexis Chevalier,Justin T. Chiu,Eugene Cho,Eugene Choi,Eujeong Choi,Tim Chung,Volkan Cirik,Ana Cismaru,Pierre Clavier,Henry Conklin,Lucas Crawhall-Stein,Devon Crouse,Andres Felipe Cruz-Salinas,Ben Cyrus,Daniel D’souza,Hugo Dalla-Torre,John Dang,William Darling,Omar Darwiche Domingues,Saurabh Dash,Antoine Debugne,Théo Dehaze,Shaan Desai,Joan Devassy,Rishit Dholakia,Kyle Duffy,Ali Edalati,Ace Eldeib,Abdullah Elkady,Sarah Elsharkawy,Irem Ergün,Beyza Ermis,Marzieh Fadaee,Boyu Fan,Lucas Fayoux,Yannis Flet-Berliac,Nick Frosst,Matthias Gallé,Wojciech Galuba,Utsav Garg,Matthieu Geist,Mohammad Gheshlaghi Azar,Ellen Gilsenan-McMahon,Seraphina Goldfarb-Tarrant,Tomas Goldsack,Aidan Gomez,Victor Machado Gonzaga,Nithya Govindarajan,Manoj Govindassamy,Nathan Grinsztajn,Nikolas Gritsch,Patrick Gu,Shangmin Guo,Kilian Haefeli,Rod Hajjar,Tim Hawes,Jingyi He,Sebastian Hofstätter,Sungjin Hong,Sara Hooker,Tom Hosking,Stephanie Howe,Eric Hu,Renjie Huang,Hemant Jain,Ritika Jain,Nick Jakobi,Madeline Jenkins,JJ Jordan,Dhruti Joshi,Jason Jung,Trushant Kalyanpur,Siddhartha Rao Kamalakara,Julia Kedrzycki,Gokce Keskin,Edward Kim,Joon Kim,Wei-Yin Ko,Tom Kocmi,Michael Kozakov,Wojciech Kryściński,Arnav Kumar Jain,Komal Kumar Teru,Sander Land,Michael Lasby,Olivia Lasche,Justin Lee,Patrick Lewis,Jeffrey Li,Jonathan Li,Hangyu Lin,Acyr Locatelli,Kevin Luong,Raymond Ma,Lukáš Mach,Marina Machado,Joanne Magbitang,Brenda Malacara Lopez,Aryan Mann,Kelly Marchisio,Olivia Markham,Alexandre Matton,Alex McKinney,Dominic McLoughlin,Jozef Mokry,Adrien Morisot,Autumn Moulder,Harry Moynehan,Maximilian Mozes,Vivek Muppalla,Lidiya Murakhovska,Hemangani Nagarajan,Alekhya Nandula,Hisham Nasir,Shauna Nehra,Josh Netto-Rosen,Daniel Ohashi,James Owers-Bardsley,Jason Ozuzu,Dennis Padilla,Gloria Park,Sam Passaglia,Jeremy Pekmez,Laura Penstone,Aleksandra Piktus,Case Ploeg,Andrew Poulton,Youran Qi,Shubha Raghvendra,Miguel Ramos,Ekagra Ranjan,Pierre Richemond,Cécile Robert-Michon,Aurélien Rodriguez,Sudip Roy,Sebastian Ruder,Laura Ruis,Louise Rust,Anubhav Sachan,Alejandro Salamanca,Kailash Karthik Saravanakumar,Isha Satyakam,Alice Schoenauer Sebag,Priyanka Sen,Sholeh Sepehri,Preethi Seshadri,Ye Shen,Tom Sherborne,Sylvie Shang Shi,Sanal Shivaprasad,Vladyslav Shmyhlo,Anirudh Shrinivason,Inna Shteinbuk,Amir Shukayev,Mathieu Simard,Ella Snyder,Ava Spataru,Victoria Spooner,Trisha Starostina,Florian Strub,Yixuan Su,Jimin Sun,Dwarak Talupuru,Eugene Tarassov,Elena Tommasone,Jennifer Tracey,Billy Trend,Evren Tumer,Ahmet Üstün,Bharat Venkitesh,David Venuto,Pat Verga,Maxime Voisin,Alex Wang,Donglu Wang,Shijian Wang,Edmond Wen,Naomi White,Jesse Willman,Marysia Winkels,Chen Xia,Jessica Xie,Minjie Xu,Bowen Yang,Tan Yi-Chern,Ivan Zhang,Zhenyu Zhao,Zhoujie Zhao
発行日 2025-04-14 12:37:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Command A: An Enterprise-Ready Large Language Model はコメントを受け付けていません

LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks

要約

大規模な言語モデルの未解決は、一般的なユーティリティを維持しながら、未抑制モデルから望ましくないデータモデルの影響を除去することにより、安全性と制御されたモデルの行動を確保する上で重要な課題となっています。
最近の大幅な取り組みは、WMDP(武器の大量破壊プロキシ)やMuse(6方向評価の学習マシン)などのLLM学習ベンチマークの開発に専念しており、標準化されたパフォーマンス評価と方法比較を促進しています。
それらの有用性にもかかわらず、これらのベンチマーク内で初めて新しいコアセット効果を明らかにします。
具体的には、オリジナル(フル)忘却セットで達成されたLLMの未解決は、ランダムに選択された場合でも、忘却セットの5%(「コアセット」として機能する)を使用して効果的に維持できることがわかります。
これは、これらのベンチマークで学習することは、非常に低い乳田体制であっても、驚くほど簡単に実行できることを示唆しています。
これらのベンチマークで人気のものであるNPO(ネガティブ優先最適化)やRMU(表現の誤った方向の解除)など、使用されるLLMの学習方法に関係なく、このコアセット効果は強力なままであることを実証します。
驚くほど強いコアセット効果は、ランダム選択からより洗練されたヒューリスティックアプローチに至るまで、さまざまなデータ選択方法にわたって堅牢です。
キーワードベースの視点を介してLLMのコアセット効果を説明し、忘れられたセットだけから抽出されたキーワードが有効性の不足に大きく貢献し、現在の学習がデータセット全体ではなくコンパクトな衝撃トークンによって駆動されることを示します。
さらに、モードの接続性や侵入攻撃への堅牢性など、追加の寸法に沿ったCoreset-Unlearnedモデルの忠実さを正当化します。
コードはhttps://github.com/optml-group/mu-coretetで入手できます。

要約(オリジナル)

Large language model unlearning has become a critical challenge in ensuring safety and controlled model behavior by removing undesired data-model influences from the pretrained model while preserving general utility. Significant recent efforts have been dedicated to developing LLM unlearning benchmarks such as WMDP (Weapons of Mass Destruction Proxy) and MUSE (Machine Unlearning Six-way Evaluation), facilitating standardized unlearning performance assessment and method comparison. Despite their usefulness, we uncover for the first time a novel coreset effect within these benchmarks. Specifically, we find that LLM unlearning achieved with the original (full) forget set can be effectively maintained using a significantly smaller subset (functioning as a ‘coreset’), e.g., as little as 5% of the forget set, even when selected at random. This suggests that LLM unlearning in these benchmarks can be performed surprisingly easily, even in an extremely low-data regime. We demonstrate that this coreset effect remains strong, regardless of the LLM unlearning method used, such as NPO (Negative Preference Optimization) and RMU (Representation Misdirection Unlearning), the popular ones in these benchmarks. The surprisingly strong coreset effect is also robust across various data selection methods, ranging from random selection to more sophisticated heuristic approaches. We explain the coreset effect in LLM unlearning through a keyword-based perspective, showing that keywords extracted from the forget set alone contribute significantly to unlearning effectiveness and indicating that current unlearning is driven by a compact set of high-impact tokens rather than the entire dataset. We further justify the faithfulness of coreset-unlearned models along additional dimensions, such as mode connectivity and robustness to jailbreaking attacks. Codes are available at https://github.com/OPTML-Group/MU-Coreset.

arxiv情報

著者 Soumyadeep Pal,Changsheng Wang,James Diffenderfer,Bhavya Kailkhura,Sijia Liu
発行日 2025-04-14 12:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks はコメントを受け付けていません

Deep Reasoning Translation via Reinforcement Learning

要約

最近、深い推論LLM(例:Openai O1/O3およびDeepSeek-R1)は、さまざまな複雑なタスクで有望なパフォーマンスを示しています。
無料の翻訳は、多言語の世界では重要で興味深いタスクであり、言葉だけで翻訳を超えて文化的な違いを考慮に入れる必要があります。
このタスクは、深い推論LLMSでまだ依然として推奨されていません。
この論文では、補強学習を介して無料の翻訳を学習する深い推論翻訳モデルであるDeeptransを紹介します。
具体的には、翻訳結果と思考プロセスの両方で、事前に定義されたスコアリング基準を備えた報酬モデルを慎重に構築します。
ソースの文章を考えると、報酬モデルは、補強学習中に深い翻訳モデルにどのように考えて自由翻訳するかを教えます。
このようにして、トレーニングディープトランでは、人間の集中的な注釈またはリソース集約型のデータ統合を避けるために、ラベル付き翻訳は必要ありません。
実験結果は、ディープトランスの有効性を示しています。
QWEN2.5-7Bをバックボーンとして使用すると、DEEPTRANSは文献翻訳でパフォーマンスを16.3%改善し、合成データで微調整されたベースラインだけでなく、強力な深い推論ベースラインを上回ります。
さらに、RL探査中の障害と興味深い調査結果を要約します。
この作品が他の研究者に無料翻訳で刺激を与えることを願っています。

要約(オリジナル)

Recently, deep reasoning LLMs (e.g., OpenAI o1/o3 and DeepSeek-R1) have shown promising performance in various complex tasks. Free translation is an important and interesting task in the multilingual world, which requires going beyond word-for-word translation and taking cultural differences into account. This task is still under-explored in deep reasoning LLMs. In this paper, we introduce DeepTrans, a deep reasoning translation model that learns free translation via reinforcement learning. Specifically, we carefully build a reward model with pre-defined scoring criteria on both the translation results and the thought process. Given the source sentences, the reward model teaches the deep translation model how to think and free-translate them during reinforcement learning. In this way, training DeepTrans does not need any labeled translations, avoiding the human-intensive annotation or resource-intensive data synthesis. Experimental results show the effectiveness of DeepTrans. Using Qwen2.5-7B as the backbone, DeepTrans improves performance by 16.3% in literature translation, and outperforms strong deep reasoning baselines as well as baselines that are fine-tuned with synthesized data. Moreover, we summarize the failures and interesting findings during our RL exploration. We hope this work could inspire other researchers in free translation.

arxiv情報

著者 Jiaan Wang,Fandong Meng,Jie Zhou
発行日 2025-04-14 12:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Deep Reasoning Translation via Reinforcement Learning はコメントを受け付けていません

Efficient Generative Model Training via Embedded Representation Warmup

要約

拡散モデルは、高次元データの生成に優れていますが、自己教師の方法と比較して、トレーニング効率と表現の質には不足しています。
重要なボトルネックを特定します。トレーニング中の高品質で意味的に豊富な表現の十分な活用は、収束を著しく遅らせます。
私たちの体系的な分析は、主に初期層の重要な表現処理領域を明らかにしています。ここでは、発電が発生する前に意味的および構造的なパターン学習が行われます。
これに対処するために、最初の段階でERWモジュールを取得するプラグアンドプレイフレームワークである埋め込み表現ウォームアップ(ERW)を提案します。
このウォームアップは、学習表現の負担をゼロから最小限に抑え、それにより収束とパフォーマンスの向上を促進します。
私たちの理論分析は、ERWの有効性が、モデルが主に後の世代の特徴表現を処理および変換する表現処理領域と呼ばれる特定のニューラルネットワークレイヤーと呼ばれる特定のニューラルネットワーク層への正確な統合に依存していることを示しています。
さらに、ERWはトレーニングの収束を加速するだけでなく、表現品質を向上させることを確立します。経験的に、私たちの方法は、現在の最先端の方法であるRepaと比較して、トレーニング速度の40 $ \ Times $加速を達成します。
コードはhttps://github.com/lins-lab/erwで入手できます。

要約(オリジナル)

Diffusion models excel at generating high-dimensional data but fall short in training efficiency and representation quality compared to self-supervised methods. We identify a key bottleneck: the underutilization of high-quality, semantically rich representations during training notably slows down convergence. Our systematic analysis reveals a critical representation processing region — primarily in the early layers — where semantic and structural pattern learning takes place before generation can occur. To address this, we propose Embedded Representation Warmup (ERW), a plug-and-play framework where in the first stage we get the ERW module serves as a warmup that initializes the early layers of the diffusion model with high-quality, pretrained representations. This warmup minimizes the burden of learning representations from scratch, thereby accelerating convergence and boosting performance. Our theoretical analysis demonstrates that ERW’s efficacy depends on its precise integration into specific neural network layers — termed the representation processing region — where the model primarily processes and transforms feature representations for later generation. We further establish that ERW not only accelerates training convergence but also enhances representation quality: empirically, our method achieves a 40$\times$ acceleration in training speed compared to REPA, the current state-of-the-art methods. Code is available at https://github.com/LINs-lab/ERW.

arxiv情報

著者 Deyuan Liu,Peng Sun,Xufeng Li,Tao Lin
発行日 2025-04-14 12:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Efficient Generative Model Training via Embedded Representation Warmup はコメントを受け付けていません