HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models

要約

大規模な言語モデル向けの堅牢なアライメントガードレールは、広範囲にわたるアプリケーションでますます重要になっています。
以前の研究とは対照的に、推論時間活性化介入が安全アライメントをバイパスし、モデルの世代をラマ2の有害なAI調整に効果的に導くことができることを実証します。私たちの方法は、特定のモデルサブコンポーネント、特に単純なバイナリ選択プロービング戦略を使用して、特に注意ヘッドで微調整された介入を適用します。
これらの介入は、安全ガードレールを効果的に回避するオープンエンドの世代の設定に一般化します。
単一の注意ヘッドを調べることは、完全な層に介入するよりも効果的であり、4つの注意ヘッドのみに介入することは、監視された微調整に匹敵することを示しています。
さらに、効果的なステアリング方向を計算するために必要な例がいくつかあることを示します。これは、古典的な微調整よりも利点です。
私たちの調査結果は、現在のアライメント手法の欠点を強調しています。
さらに、我々の結果は、注意ヘッドレベルでは、活性化が細粒の直線的に分離可能な動作をエンコードすることを示唆しています。
実際には、このアプローチは、大きな言語モデルの動作を操縦するための簡単な方法論を提供します。これは、モデル出力をきめんった制御を必要とする安全性を超えて多様なドメインに拡張できます。
この調査のコードとデータセットは、https://github.com/pauldrm/targeted_interventionにあります。

要約(オリジナル)

Robust alignment guardrails for large language models are becoming increasingly important with their widespread application. In contrast to previous studies, we demonstrate that inference-time activation interventions can bypass safety alignments and effectively steer model generations towards harmful AI coordination for Llama 2. Our method applies fine-grained interventions at specific model subcomponents, particularly attention heads, using a simple binary choice probing strategy. These interventions then generalise to the open-ended generation setting effectively circumventing safety guardrails. We show that probing single attention heads is more effective than intervening on full layers and intervening on only four attention heads is comparable to supervised fine-tuning. We further show that only a few example completions are needed to compute effective steering directions, which is an advantage over classical fine-tuning. Our findings highlight the shortcomings of current alignment techniques. In addition, our results suggest that, at the attention head level, activations encode fine-grained linearly separable behaviors. Practically, the approach offers a straightforward methodology to steer large language model behaviour, which could be extended to diverse domains beyond safety requiring fine-grained control over the model output. The code and datasets for this study can be found on https://github.com/PaulDrm/targeted_intervention.

arxiv情報

著者 Paul Darm,Annalisa Riccardi
発行日 2025-05-01 09:03:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | HSI: Head-Specific Intervention Can Induce Misaligned AI Coordination in Large Language Models はコメントを受け付けていません

Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

要約

医療機器のリスクレベルの正確な分類は、規制上の監視と臨床的安全性に不可欠です。
テキストの説明と視覚情報を統合して、デバイスの調節分類を予測するトランスベースのマルチモーダルフレームワークを提示します。
このモデルには、間モーダル依存関係をキャプチャするためのクロスアテンションメカニズムが組み込まれており、限られた監督下での一般化を改善するための自己訓練戦略を採用しています。
実際の規制データセットの実験は、私たちのアプローチが最大90.4%の精度と97.9%のAUROCを達成し、テキストのみ(77.2%)と画像のみ(54.8%)のベースラインを大幅に上回ることを示しています。
標準的なマルチモーダル融合と比較して、自己訓練メカニズムにより、SVMのパフォーマンスが3.3パーセントポイント(87.1%から90.4%)および1.4ポイントをマクロ-F1で改善し、擬似標識が限られた監督下での一般化を効果的に強化できることを示唆しています。
アブレーション研究は、クロスモーダルの注意と自己訓練の両方の補完的な利点をさらに確認します。

要約(オリジナル)

Accurate classification of medical device risk levels is essential for regulatory oversight and clinical safety. We present a Transformer-based multimodal framework that integrates textual descriptions and visual information to predict device regulatory classification. The model incorporates a cross-attention mechanism to capture intermodal dependencies and employs a self-training strategy for improved generalization under limited supervision. Experiments on a real-world regulatory dataset demonstrate that our approach achieves up to 90.4% accuracy and 97.9% AUROC, significantly outperforming text-only (77.2%) and image-only (54.8%) baselines. Compared to standard multimodal fusion, the self-training mechanism improved SVM performance by 3.3 percentage points in accuracy (from 87.1% to 90.4%) and 1.4 points in macro-F1, suggesting that pseudo-labeling can effectively enhance generalization under limited supervision. Ablation studies further confirm the complementary benefits of both cross-modal attention and self-training.

arxiv情報

著者 Yu Han,Aaron Ceross,Jeroen H. M. Bergmann
発行日 2025-05-01 09:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training はコメントを受け付けていません

LegalDuet: Learning Fine-grained Representations for Legal Judgment Prediction via a Dual-View Contrastive Learning

要約

法的判断予測(LJP)は、法的事件の判決の結果を自動的に予測することを目的とした法的人工知能の基本的なタスクです。
既存のLJPモデルは、主に言語モデルを対比トレーニングすることにより、犯罪事実の説明内で法的トリガーを特定することに焦点を当てています。
ただし、これらのLJPモデルは、より正確な予測を生み出すために重要な判断間の微妙な違いを効果的に区別することを学ぶことの重要性を見落としています。
この論文では、LegalDuetを提案します。LegalDuetは、言語モデルを継続的に前提としており、法的ケースを表現するためのよりカスタマイズされた埋め込みスペースを学習します。
具体的には、Legalduetは、言語モデルを継続的に将来的に植え付けるためのデュアルビューメカニズムを設計します。1)Law Case Clustering同様のケースをハードネガティブと同様のケースを取得し、混乱するケースを区別するための対照的なトレーニングを使用します。
2)法的決定マッチングは、犯罪事実の説明内の法的手がかりを特定することを目的としており、それらを正しい法的決定を含む推論の連鎖と一致させることを目的としています。
CAIL2018データセットに関する実験は、Legalduetの有効性を示しています。
さらなる分析により、Legalduetは、予測の不確実性を低減し、刑事告発の分離性を高めることにより、混乱する刑事告発を区別する前提条件の言語モデルの能力を改善することが明らかになりました。
この実験は、Legalduetがより集中した識別可能な埋め込みスペースを生成し、犯罪事実を対応する法的決定と効果的に整合することを示しています。
このコードは、https://github.com/neuir/legalduetで入手できます。

要約(オリジナル)

Legal Judgment Prediction (LJP) is a fundamental task of legal artificial intelligence, aiming to automatically predict the judgment outcomes of legal cases. Existing LJP models primarily focus on identifying legal triggers within criminal fact descriptions by contrastively training language models. However, these LJP models overlook the importance of learning to effectively distinguish subtle differences among judgments, which is crucial for producing more accurate predictions. In this paper, we propose LegalDuet, which continuously pretrains language models to learn a more tailored embedding space for representing legal cases. Specifically, LegalDuet designs a dual-view mechanism to continuously pretrain language models: 1) Law Case Clustering retrieves similar cases as hard negatives and employs contrastive training to differentiate among confusing cases; 2) Legal Decision Matching aims to identify legal clues within criminal fact descriptions to align them with the chain of reasoning that contains the correct legal decision. Our experiments on the CAIL2018 dataset demonstrate the effectiveness of LegalDuet. Further analysis reveals that LegalDuet improves the ability of pretrained language models to distinguish confusing criminal charges by reducing prediction uncertainty and enhancing the separability of criminal charges. The experiments demonstrate that LegalDuet produces a more concentrated and distinguishable embedding space, effectively aligning criminal facts with corresponding legal decisions. The code is available at https://github.com/NEUIR/LegalDuet.

arxiv情報

著者 Buqiang Xu,Xin Dai,Zhenghao Liu,Huiyuan Xie,Xiaoyuan Yi,Shuo Wang,Yukun Yan,Liner Yang,Yu Gu,Ge Yu
発行日 2025-05-01 10:32:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LegalDuet: Learning Fine-grained Representations for Legal Judgment Prediction via a Dual-View Contrastive Learning はコメントを受け付けていません

Red Teaming Large Language Models for Healthcare

要約

私たちは、2024年8月15日に開催されたヘルスケアの大規模な言語モデルのレッドチーム化の大規模な言語モデルと題されたレッドチーム化のための機械学習(2024年)での会議前ワークショップの設計プロセスと調査結果を紹介します。会議参加者は、計算および臨床の専門知識を組み合わせて、脆弱性を発見しようと試みました。
臨床医とのレッドチームは、LLM開発者が臨床の専門知識を欠いていることが認識されない可能性のあるLLMの脆弱性を特定することができます。
見つかった脆弱性を報告し、それらを分類し、提供されたすべてのLLMにわたって脆弱性を評価する複製研究の結果を提示します。

要約(オリジナル)

We present the design process and findings of the pre-conference workshop at the Machine Learning for Healthcare Conference (2024) entitled Red Teaming Large Language Models for Healthcare, which took place on August 15, 2024. Conference participants, comprising a mix of computational and clinical expertise, attempted to discover vulnerabilities — realistic clinical prompts for which a large language model (LLM) outputs a response that could cause clinical harm. Red-teaming with clinicians enables the identification of LLM vulnerabilities that may not be recognised by LLM developers lacking clinical expertise. We report the vulnerabilities found, categorise them, and present the results of a replication study assessing the vulnerabilities across all LLMs provided.

arxiv情報

著者 Vahid Balazadeh,Michael Cooper,David Pellow,Atousa Assadi,Jennifer Bell,Jim Fackler,Gabriel Funingana,Spencer Gable-Cook,Anirudh Gangadhar,Abhishek Jaiswal,Sumanth Kaja,Christopher Khoury,Randy Lin,Kaden McKeen,Sara Naimimohasses,Khashayar Namdar,Aviraj Newatia,Allan Pang,Anshul Pattoo,Sameer Peesapati,Diana Prepelita,Bogdana Rakova,Saba Sadatamin,Rafael Schulman,Ajay Shah,Syed Azhar Shah,Syed Ahmar Shah,Babak Taati,Balagopal Unnikrishnan,Stephanie Williams,Rahul G Krishnan
発行日 2025-05-01 11:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Red Teaming Large Language Models for Healthcare はコメントを受け付けていません

EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers

要約

大規模な言語モデル(LLM)はさまざまなタスクに優れていますが、多くの場合、かなりの人間の努力を要求する慎重に作成されたプロンプトに依存しています。
このプロセスを自動化するために、このホワイトペーパーでは、Evopromptと呼ばれる離散プロンプト最適化の新しいフレームワークを提案します。これは、優れたパフォーマンスと速い収束を示すため、進化的アルゴリズム(EAS)のアイデアを借ります。
EASが、一貫性があり、人間が読みやすくする必要がある自然言語表現である離散プロンプトで作業できるようにするために、LLMをEASに接続します。
このアプローチにより、LLMSの強力な言語処理機能とEASの効率的な最適化パフォーマンスを同時に活用できます。
具体的には、勾配やパラメーターを控えると、Evopromptはプロンプトの集団から始まり、進化オペレーターに基づいてLLMSで新しいプロンプトを繰り返し生成し、開発セットに基づいて母集団を改善します。
GPT-3.5とALPACAを含むクローズドおよびオープンソースの両方のLLMのプロンプトを最適化し、言語の理解、生成タスク、およびBig-Bench Hard(BBH)タスクをカバーする31のデータセットで説明します。
Evopromptは、自動プロンプトの生成のための人間で設計されたプロンプトと既存の方法を大幅に上回ります(たとえば、BBHで最大25%)。
さらに、Evopromptは、LLMとEASを接続すると相乗効果が生じることを示しています。これにより、LLMSと従来のアルゴリズムの組み合わせに関するさらなる研究が促進される可能性があります。

要約(オリジナル)

Large Language Models (LLMs) excel in various tasks, but they rely on carefully crafted prompts that often demand substantial human effort. To automate this process, in this paper, we propose a novel framework for discrete prompt optimization, called EvoPrompt, which borrows the idea of evolutionary algorithms (EAs) as they exhibit good performance and fast convergence. To enable EAs to work on discrete prompts, which are natural language expressions that need to be coherent and human-readable, we connect LLMs with EAs. This approach allows us to simultaneously leverage the powerful language processing capabilities of LLMs and the efficient optimization performance of EAs. Specifically, abstaining from any gradients or parameters, EvoPrompt starts from a population of prompts and iteratively generates new prompts with LLMs based on the evolutionary operators, improving the population based on the development set. We optimize prompts for both closed- and open-source LLMs including GPT-3.5 and Alpaca, on 31 datasets covering language understanding, generation tasks, as well as BIG-Bench Hard (BBH) tasks. EvoPrompt significantly outperforms human-engineered prompts and existing methods for automatic prompt generation (e.g., up to 25% on BBH). Furthermore, EvoPrompt demonstrates that connecting LLMs with EAs creates synergies, which could inspire further research on the combination of LLMs and conventional algorithms.

arxiv情報

著者 Qingyan Guo,Rui Wang,Junliang Guo,Bei Li,Kaitao Song,Xu Tan,Guoqing Liu,Jiang Bian,Yujiu Yang
発行日 2025-05-01 11:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | EvoPrompt: Connecting LLMs with Evolutionary Algorithms Yields Powerful Prompt Optimizers はコメントを受け付けていません

(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts

要約

文学翻訳は、比ur的な言葉、文化的ニュアンス、ユニークな文体的要素をキャプチャする複雑さのために、機械翻訳で最も挑戦的なフロンティアの1つです。
この作業では、CEO、上級編集者、ジュニア編集者、翻訳者、ローカリゼーションスペシャリスト、校正者など、人間の翻訳会社の役割と共同実践をシミュレートする新しいマルチエージェントフレームワークであるTransagentsを紹介します。
翻訳プロセスは、チームが組み立てられた準備段階と包括的な翻訳ガイドラインが起草される2つの段階と、シーケンシャル翻訳、ローカリゼーション、校正、最終品質チェックを含む実行段階の2つの段階に分けられます。
さらに、2つの革新的な評価戦略を提案します。ターゲット言語の品質と文化的適切性のみに基づいて翻訳を評価する単一言語の人間の好み(MHP)と、直接テキスト比較のためにGPT-4のような大規模な言語モデルを活用するバイリンガルLLM好み(BLP)を評価します。
トランスエージェントは、参照の多様性が限られているため、D-BLEUスコアが低くなりますが、その翻訳は他のベースラインの翻訳よりも大幅に優れており、従来の人間の参照とGPT-4}翻訳よりも人間の評価者とLLMの両方が好まれます。
私たちの調査結果は、特に長いテキストの場合、翻訳品質を向上させるマルチエージェントコラボレーションの可能性を強調しています。

要約(オリジナル)

Literary translation remains one of the most challenging frontiers in machine translation due to the complexity of capturing figurative language, cultural nuances, and unique stylistic elements. In this work, we introduce TransAgents, a novel multi-agent framework that simulates the roles and collaborative practices of a human translation company, including a CEO, Senior Editor, Junior Editor, Translator, Localization Specialist, and Proofreader. The translation process is divided into two stages: a preparation stage where the team is assembled and comprehensive translation guidelines are drafted, and an execution stage that involves sequential translation, localization, proofreading, and a final quality check. Furthermore, we propose two innovative evaluation strategies: Monolingual Human Preference (MHP), which evaluates translations based solely on target language quality and cultural appropriateness, and Bilingual LLM Preference (BLP), which leverages large language models like GPT-4} for direct text comparison. Although TransAgents achieves lower d-BLEU scores, due to the limited diversity of references, its translations are significantly better than those of other baselines and are preferred by both human evaluators and LLMs over traditional human references and GPT-4} translations. Our findings highlight the potential of multi-agent collaboration in enhancing translation quality, particularly for longer texts.

arxiv情報

著者 Minghao Wu,Jiahao Xu,Yulin Yuan,Gholamreza Haffari,Longyue Wang,Weihua Luo,Kaifu Zhang
発行日 2025-05-01 12:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts はコメントを受け付けていません

Computational Identification of Regulatory Statements in EU Legislation

要約

法律における規制上の声明を特定することは、規制密度と法律の厳格さを測定するためのメトリックを開発するのに役立ちます。
計算方法は、1952年から2023年の間に約180,000の公開された法的行為を構成する、増え続けるEU法からそのような声明の識別を拡大するのに役立ちます。これらの声明の抽出に関する過去の作業は、規制声明を構成するものの定義の寛容性によって異なります。
この作業では、制度的文法ツールに基づいた目的のための特定の定義を提供します。
EU法律でこのようなステートメントを自動的に識別するための2つの対照的なアプローチを開発および比較します。1つは依存関係解析に基づいており、もう1つは変圧器ベースの機械学習モデルに基づいています。
両方のアプローチがそれぞれ80%と84%の精度と0.58のKアルファと同様にうまく機能していることがわかりました。
高い精度であり、非常に高い一致ではないことは、両方のアプローチの強度を組み合わせる可能性を示唆しています。

要約(オリジナル)

Identifying regulatory statements in legislation is useful for developing metrics to measure the regulatory density and strictness of legislation. A computational method is valuable for scaling the identification of such statements from a growing body of EU legislation, constituting approximately 180,000 published legal acts between 1952 and 2023. Past work on extraction of these statements varies in the permissiveness of their definitions for what constitutes a regulatory statement. In this work, we provide a specific definition for our purposes based on the institutional grammar tool. We develop and compare two contrasting approaches for automatically identifying such statements in EU legislation, one based on dependency parsing, and the other on a transformer-based machine learning model. We found both approaches performed similarly well with accuracies of 80% and 84% respectively and a K alpha of 0.58. The high accuracies and not exceedingly high agreement suggests potential for combining strengths of both approaches.

arxiv情報

著者 Gijs Jan Brandsma,Jens Blom-Hansen,Christiaan Meijer,Kody Moodley
発行日 2025-05-01 12:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | Computational Identification of Regulatory Statements in EU Legislation はコメントを受け付けていません

KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities

要約

ドキュメントレベルの関係抽出(DOC-RE)は、複数の文のエンティティ間の関係を抽出することを目的としています。
したがって、DOC-REには、文レベルのREと比較して、エンティティ、コンテキスト、および外部の一般的な知識間の複雑な横断的相互作用を含む、人間のようなより包括的な推論能力が必要です。
ただし、ほとんどの既存のDOC-REメソッドは、単一の推論能力の最適化に焦点を当てていますが、長い文書で包括的な推論のために外部の知識を利用する能力がありません。
これらの問題を解決するために、ノウラという名前の知識検索拡張法は、ドックを支援するために外部の知識を受け入れるかどうかを自律的に決定する包括的な推論を提案しました。
まず、セマンティックエンコードのためのドキュメントグラフを作成し、共参照の推論能力を強化するために共参照解像度モデルを統合しました。
次に、一般的な推論のために外部知識ベースを取得することにより、ドキュメントグラフをドキュメント知識グラフに拡張し、無関係な知識を除外するために新しい知識ろ過法を提示しました。
最後に、横断的な論理推論を達成するために、中間エンティティとの直接的および間接的な関連を構築するための軸注意メカニズムを提案しました。
2つのデータセットで実施された広範な実験により、最先端のベースラインと比較して、方法の有効性が確認されました。
私たちのコードは、https://anonymous.4open.science/r/knowraで入手できます。

要約(オリジナル)

Document-level relation extraction (Doc-RE) aims to extract relations between entities across multiple sentences. Therefore, Doc-RE requires more comprehensive reasoning abilities like humans, involving complex cross-sentence interactions between entities, contexts, and external general knowledge, compared to the sentence-level RE. However, most existing Doc-RE methods focus on optimizing single reasoning ability, but lack the ability to utilize external knowledge for comprehensive reasoning on long documents. To solve these problems, a knowledge retrieval augmented method, named KnowRA, was proposed with comprehensive reasoning to autonomously determine whether to accept external knowledge to assist DocRE. Firstly, we constructed a document graph for semantic encoding and integrated the co-reference resolution model to augment the co-reference reasoning ability. Then, we expanded the document graph into a document knowledge graph by retrieving the external knowledge base for common-sense reasoning and a novel knowledge filtration method was presented to filter out irrelevant knowledge. Finally, we proposed the axis attention mechanism to build direct and indirect associations with intermediary entities for achieving cross-sentence logical reasoning. Extensive experiments conducted on two datasets verified the effectiveness of our method compared to the state-of-the-art baselines. Our code is available at https://anonymous.4open.science/r/KnowRA.

arxiv情報

著者 Chengcheng Mai,Yuxiang Wang,Ziyu Gong,Hanxiang Wang,Yihua Huang
発行日 2025-05-01 12:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | KnowRA: Knowledge Retrieval Augmented Method for Document-level Relation Extraction with Comprehensive Reasoning Abilities はコメントを受け付けていません

Efficiency and Effectiveness of LLM-Based Summarization of Evidence in Crowdsourced Fact-Checking

要約

オンラインコンテンツの真実性を評価することは、誤った情報と闘うために重要です。
この研究では、2つのアプローチの比較分析を通じて、クラウドソーシングされた真実性評価の効率と有効性を調べます。1つは、各クレームの証拠としてのフルレングスのウェブページと、大規模な言語モデルで生成された各証拠文書の要約を使用するものです。
A/Bテスト設定を使用して、これらの条件下でのステートメントの真実性を評価することを任されている多様な参加者のプールを参加させます。
分析では、評価の質と参加者の行動パターンの両方を調査します。
結果は、要約された証拠に依存すると、効率を大幅に改善しながら、標準モダリティに匹敵する精度とエラーメトリックを提供することが明らかになりました。
概要設定の労働者は、評価数が大幅に多くなり、タスクの期間とコストが削減されます。
さらに、要約のモダリティは、内部合意を最大化し、証拠の有用性への依存と認識された一貫した依存を維持し、大規模な真実性評価を合理化する可能性を実証します。

要約(オリジナル)

Evaluating the truthfulness of online content is critical for combating misinformation. This study examines the efficiency and effectiveness of crowdsourced truthfulness assessments through a comparative analysis of two approaches: one involving full-length webpages as evidence for each claim, and another using summaries for each evidence document generated with a large language model. Using an A/B testing setting, we engage a diverse pool of participants tasked with evaluating the truthfulness of statements under these conditions. Our analysis explores both the quality of assessments and the behavioral patterns of participants. The results reveal that relying on summarized evidence offers comparable accuracy and error metrics to the Standard modality while significantly improving efficiency. Workers in the Summary setting complete a significantly higher number of assessments, reducing task duration and costs. Additionally, the Summary modality maximizes internal agreement and maintains consistent reliance on and perceived usefulness of evidence, demonstrating its potential to streamline large-scale truthfulness evaluations.

arxiv情報

著者 Kevin Roitero,Dustin Wright,Michael Soprano,Isabelle Augenstein,Stefano Mizzaro
発行日 2025-05-01 14:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.IR | Efficiency and Effectiveness of LLM-Based Summarization of Evidence in Crowdsourced Fact-Checking はコメントを受け付けていません

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

要約

推論言語モデル(RLMS)の最近の開発は、大規模な言語モデルの新しい進化を表しています。
特に、DeepSeek-R1の最近のリリースは、言語モデルの明示的な推論パラダイムを探るために、研究コミュニティの広範な社会的影響を生み出し、熱意を引き起こしました。
ただし、リリースされたモデルの実装の詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留小さなモデルなど、DeepSeekによって完全にオープンソース化されていません。
その結果、多くの複製研究が、DeepSeek-R1によって達成された強力なパフォーマンスを再現することを目的としており、同様のトレーニング手順と完全にオープンソースのデータリソースを通じて同等のパフォーマンスに達しました。
これらの作品は、検証可能な報酬(RLVR)からの監視された微調整(SFT)および強化学習のための実行可能な戦略を調査し、データの準備とメソッド設計に焦点を当て、さまざまな貴重な洞察をもたらしました。
このレポートでは、将来の研究を促すために、最近の複製研究の要約を提供します。
主にSFTとRLVRに2つの主要な方向として焦点を当て、現在の複製研究のデータ構築、メソッド設計、およびトレーニング手順の詳細を紹介しています。
さらに、これらの研究で報告された実装の詳細と実験結果から重要な調査結果を結論付け、将来の研究を促すことを期待しています。
また、RLMを強化し、これらのモデルのアプリケーション範囲を拡大する可能性を強調し、開発における課題について議論する追加の手法についても説明します。
この調査により、RLMSの研究者と開発者が最新の進歩を維持し、RLMをさらに強化するための新しいアイデアを鼓舞しようとすることを目指しています。

要約(オリジナル)

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

arxiv情報

著者 Chong Zhang,Yue Deng,Xiang Lin,Bin Wang,Dianwen Ng,Hai Ye,Xingxuan Li,Yao Xiao,Zhanfeng Mo,Qi Zhang,Lidong Bing
発行日 2025-05-01 14:28:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models はコメントを受け付けていません