On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical Imaging

要約

深いニューラルネットワークは医療イメージングに優れていますが、バイアスの傾向があり、人口統計グループ全体の公平性のギャップにつながります。
このドメインにおける人間との整合性と公平性の最初の体系的な調査を提供します。
我々の結果は、人間の洞察を組み込むことで一貫して公平性のギャップを縮小し、ドメイン外の一般化を強化することを示していますが、過度のアライメントはパフォーマンスのトレードオフを導入し、調整された戦略の必要性を強調することができます。
これらの調査結果は、公正で堅牢で一般化可能な医療AIシステムを開発するための有望なアプローチとして、人間との調整を強調し、専門家のガイダンスと自動化効率のバランスをとっています。
私たちのコードは、https://github.com/roypic/alignerで入手できます。

要約(オリジナル)

Deep neural networks excel in medical imaging but remain prone to biases, leading to fairness gaps across demographic groups. We provide the first systematic exploration of Human-AI alignment and fairness in this domain. Our results show that incorporating human insights consistently reduces fairness gaps and enhances out-of-domain generalization, though excessive alignment can introduce performance trade-offs, emphasizing the need for calibrated strategies. These findings highlight Human-AI alignment as a promising approach for developing fair, robust, and generalizable medical AI systems, striking a balance between expert guidance and automated efficiency. Our code is available at https://github.com/Roypic/Aligner.

arxiv情報

著者 Haozhe Luo,Ziyu Zhou,Zixin Shu,Aurélie Pahud de Mortanges,Robert Berke,Mauricio Reyes
発行日 2025-05-15 12:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | On the Interplay of Human-AI Alignment,Fairness, and Performance Trade-offs in Medical Imaging はコメントを受け付けていません

KBAlign: Efficient Self Adaptation on Specific Knowledge Bases

要約

検索された生成(RAG)は、知識ベースの質問応答(KBQA)に不可欠なままですが、現在のパラダイムは特定のドメインで重要な課題に直面しています。
既存の方法は、小規模KBSでの標的適応と闘っています。バニラの監視されていないトレーニングは、貧弱な有効性を示しますが、微調整は外部シグナルの法外なコストを負います。
効率的なモデル適応を通じてRAGシステムを強化する自己監視のフレームワークであるKbalignを提示します。
私たちの重要な洞察は、2つの革新的なメカニズムを介して、モデルの知識アラインメントのためのモデルの固有の機能を活用することです。データ構築のためのグローバルな知識を捉えるマルチグレインの自己注目と、自己検証を通じて収束を加速する反復チューニングです。
このフレームワークにより、人間の監督や外部モデルの支援なしに、特定のテキストKBSへの費用対効果の高いモデル適応が可能になります。
実験は、KbalignがGPT-4監視の適応を通じて得られたパフォーマンスゲインの90 \%を達成できる一方で、はるかに小さなモデルの自己承認に完全に依存することを示しています。
Kbalignは、少数のコストを伴う複数のドメインで下流のQA精度を大幅に向上させ、特に専門のコーパスからの深い知識統合を必要とするシナリオに利益をもたらします。
さらなる調査のために、実験データ、モデル、およびプロセス分析をコミュニティにリリースします(https://github.com/thunlp/kbalign)。

要約(オリジナル)

Although retrieval-augmented generation (RAG) remains essential for knowledge-based question answering (KBQA), current paradigms face critical challenges under specific domains. Existing methods struggle with targeted adaptation on small-scale KBs: vanilla unsupervised training exhibits poor effectiveness, while fine-tuning incurs prohibitive costs of external signals. We present KBAlign, a self-supervised framework that enhances RAG systems through efficient model adaptation. Our key insight is to leverage the model’s intrinsic capabilities for knowledge alignment through two innovative mechanisms: multi-grained self-annotation that captures global knowledge for data construction, and iterative tuning that accelerates convergence through self verification. This framework enables cost-effective model adaptation to specific textual KBs, without human supervision or external model assistance. Experiments demonstrate that KBAlign can achieve 90\% of the performance gain obtained through GPT-4-supervised adaptation, while relying entirely on self-annotation of much smaller models. KBAlign significantly improves downstream QA accuracy across multiple domains with tiny costs, particularly benefiting scenarios requiring deep knowledge integration from specialized corpora. We release our experimental data, models, and process analyses to the community for further exploration (https://github.com/thunlp/KBAlign).

arxiv情報

著者 Zheni Zeng,Yuxuan Chen,Shi Yu,Ruobing Wang,Yukun Yan,Zhenghao Liu,Shuo Wang,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2025-05-15 13:02:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | KBAlign: Efficient Self Adaptation on Specific Knowledge Bases はコメントを受け付けていません

Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data

要約

ますます洗練された自然言語処理(NLP)システムの時代では、大規模な言語モデル(LLM)は、微妙なテキストの理解と文脈的推論を必要とするタスクを含む、多様なアプリケーションの顕著な可能性を実証しています。
この研究では、ロシア語とウクライナ人のソーシャルメディア投稿を含む複雑なテキストデータセットのゼロショットと少数のショットの注釈について、複数の最先端のLLMS-GPT-3.5、GPT-4、LLAMA3、MISTRAL 7B、およびCLAUDE-2の能力を調査しています。
具体的には、データセット内の人権侵害への参照を特定するというバイナリ分類タスクに焦点が当てられています。
これらのモデルの有効性を評価するために、それらの注釈は、1000のサンプルにわたってヒト二重放出ラベルのゴールドスタンダードセットと比較されます。
分析には、さまざまなプロンプト条件下での注釈のパフォーマンスの評価が含まれ、英語とロシア語の両方でプロンプトが提供されます。
さらに、この研究では、各モデルが示すエラーと意見の相違のユニークなパターンを調査し、その強み、制限、および言語間適応性に関する洞察を提供します。
LLM出力を人間の注釈と並置することにより、この研究は、多言語のコンテキストでの敏感なドメイン固有のタスクに対するLLMの信頼性と適用性を理解することに貢献します。
また、言語モデルが本質的に主観的およびコンテキスト依存的な判断をどのように処理するかについても光を当てます。これは、実際のシナリオでの展開に対する重要な考慮事項です。

要約(オリジナル)

In the era of increasingly sophisticated natural language processing (NLP) systems, large language models (LLMs) have demonstrated remarkable potential for diverse applications, including tasks requiring nuanced textual understanding and contextual reasoning. This study investigates the capabilities of multiple state-of-the-art LLMs – GPT-3.5, GPT-4, LLAMA3, Mistral 7B, and Claude-2 – for zero-shot and few-shot annotation of a complex textual dataset comprising social media posts in Russian and Ukrainian. Specifically, the focus is on the binary classification task of identifying references to human rights violations within the dataset. To evaluate the effectiveness of these models, their annotations are compared against a gold standard set of human double-annotated labels across 1000 samples. The analysis includes assessing annotation performance under different prompting conditions, with prompts provided in both English and Russian. Additionally, the study explores the unique patterns of errors and disagreements exhibited by each model, offering insights into their strengths, limitations, and cross-linguistic adaptability. By juxtaposing LLM outputs with human annotations, this research contributes to understanding the reliability and applicability of LLMs for sensitive, domain-specific tasks in multilingual contexts. It also sheds light on how language models handle inherently subjective and context-dependent judgments, a critical consideration for their deployment in real-world scenarios.

arxiv情報

著者 Poli Apollinaire Nemkova,Solomon Ubani,Mark V. Albert
発行日 2025-05-15 13:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data はコメントを受け付けていません

The Evolving Landscape of Generative Large Language Models and Traditional Natural Language Processing in Medicine

要約

自然言語処理(NLP)は伝統的に医学に適用されており、最近生成的大規模な言語モデル(LLM)が顕著になっています。
ただし、さまざまな医療タスクにわたるそれらの違いは露出度の低いままです。
19,123の研究を分析し、生成LLMがオープンエンドタスクの利点を示し、従来のNLPは情報抽出および分析タスクを支配していることがわかりました。
これらの技術が進むにつれて、それらの倫理的使用は、医療用途での可能性を確保するために不可欠です。

要約(オリジナル)

Natural language processing (NLP) has been traditionally applied to medicine, and generative large language models (LLMs) have become prominent recently. However, the differences between them across different medical tasks remain underexplored. We analyzed 19,123 studies, finding that generative LLMs demonstrate advantages in open-ended tasks, while traditional NLP dominates in information extraction and analysis tasks. As these technologies advance, ethical use of them is essential to ensure their potential in medical applications.

arxiv情報

著者 Rui Yang,Huitao Li,Matthew Yu Heng Wong,Yuhe Ke,Xin Li,Kunyu Yu,Jingchi Liao,Jonathan Chong Kai Liew,Sabarinath Vinod Nair,Jasmine Chiat Ling Ong,Irene Li,Douglas Teodoro,Chuan Hong,Daniel Shu Wei Ting,Nan Liu
発行日 2025-05-15 13:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Evolving Landscape of Generative Large Language Models and Traditional Natural Language Processing in Medicine はコメントを受け付けていません

From Questions to Clinical Recommendations: Large Language Models Driving Evidence-Based Clinical Decision Making

要約

厳格な研究とデータ分析に由来する臨床的証拠は、情報に基づいた意思決定のための信頼できる科学的基盤を医療専門家に提供します。
臨床的証拠をリアルタイムの実践に統合することは、膨大なワークロード、複雑な専門プロセス、および時間の制約のために困難です。
これは、臨床環境でのより効率的かつ正確な意思決定をサポートするために、証拠統合を自動化するツールの必要性を強調しています。
この研究では、エビデンス統合を自動化し、標準的な臨床ガイドライン開発プロセスをモデルにした臨床的推奨事項を生成するために設計された、大規模な言語モデル(LLMS)を搭載したエビデンスに基づいた臨床決定サポートシステムを紹介します。
質問から臨床的推奨まで、すべてのフェーズをカバーする完全に自動化されたチェーンをより迅速に実装し、統合ツールとインタラクティブなユーザーインターフェイスを介してカスタマイズされた意思決定をさらに可能にします。
Quickerの機能を評価するために、3つの異なる疾患の臨床ガイドライン開発記録に基づいて、Q2CRBENCH-3ベンチマークデータセットを開発しました。
実験結果は、ユーザーの好みに合わせて調整された細かい質問分解、人間の専門家に匹敵する検索感度、および関連する研究の包括的な包含に近づく文献スクリーニングパフォーマンスで、Quickerの強力なパフォーマンスを強調しました。
さらに、より速い支援の証拠評価は、人間のレビュアーを効果的にサポートしましたが、迅速な推奨事項は臨床医よりも包括的で論理的に一貫性がありました。
システムレベルのテストでは、単一のレビュアーとのコラボレーションと、推奨開発に必要な時間が20〜40分に短縮されました。
一般に、我々の調査結果は、医師がより迅速でより信頼性の高いエビデンスに基づいた臨床決定を行うのを支援する迅速な可能性を確認しています。

要約(オリジナル)

Clinical evidence, derived from rigorous research and data analysis, provides healthcare professionals with reliable scientific foundations for informed decision-making. Integrating clinical evidence into real-time practice is challenging due to the enormous workload, complex professional processes, and time constraints. This highlights the need for tools that automate evidence synthesis to support more efficient and accurate decision making in clinical settings. This study introduces Quicker, an evidence-based clinical decision support system powered by large language models (LLMs), designed to automate evidence synthesis and generate clinical recommendations modeled after standard clinical guideline development processes. Quicker implements a fully automated chain that covers all phases, from questions to clinical recommendations, and further enables customized decision-making through integrated tools and interactive user interfaces. To evaluate Quicker’s capabilities, we developed the Q2CRBench-3 benchmark dataset, based on clinical guideline development records for three different diseases. Experimental results highlighted Quicker’s strong performance, with fine-grained question decomposition tailored to user preferences, retrieval sensitivities comparable to human experts, and literature screening performance approaching comprehensive inclusion of relevant studies. In addition, Quicker-assisted evidence assessment effectively supported human reviewers, while Quicker’s recommendations were more comprehensive and logically coherent than those of clinicians. In system-level testing, collaboration between a single reviewer and Quicker reduced the time required for recommendation development to 20-40 minutes. In general, our findings affirm the potential of Quicker to help physicians make quicker and more reliable evidence-based clinical decisions.

arxiv情報

著者 Dubai Li,Nan Jiang,Kangping Huang,Ruiqi Tu,Shuyu Ouyang,Huayu Yu,Lin Qiao,Chen Yu,Tianshu Zhou,Danyang Tong,Qian Wang,Mengtao Li,Xiaofeng Zeng,Yu Tian,Xinping Tian,Jingsong Li
発行日 2025-05-15 13:30:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Questions to Clinical Recommendations: Large Language Models Driving Evidence-Based Clinical Decision Making はコメントを受け付けていません

TopoLM: brain-like spatio-functional organization in a topographic language model

要約

脳内のニューロンは空間的に組織化されているため、組織上の隣接が同様の応答プロファイルを示すことがよくあります。
人間の言語システムでは、実験的研究で構文およびセマンティックカテゴリのクラスターが観察されていますが、この機能組織の根底にあるメカニズムは不明のままです。
ここでは、ビジョン文献の作業に基づいて、モデルユニットの明示的な2次元空間表現を備えたトランス言語モデルであるTopolmを開発します。
次のトークン予測目標と空間的滑らかさの損失を組み合わせることにより、このモデルの表現は、テキストの意味的に解釈可能なグループ化に対応し、脳の言語システムの機能組織と密接に一致するクラスターに集まります。
Topolmは、皮質言語システムの空間機能組織の出現と、ヒト皮質で経験的に観察される細粒の言語特徴のために選択的な機能的クラスターの組織化の出現を成功裏に予測します。
私たちの結果は、人間の言語システムの機能組織が統一された空間的目的によって駆動され、脳内の言語処理の機能的および空間的に整合したモデルを提供することを示唆しています。

要約(オリジナル)

Neurons in the brain are spatially organized such that neighbors on tissue often exhibit similar response profiles. In the human language system, experimental studies have observed clusters for syntactic and semantic categories, but the mechanisms underlying this functional organization remain unclear. Here, building on work from the vision literature, we develop TopoLM, a transformer language model with an explicit two-dimensional spatial representation of model units. By combining a next-token prediction objective with a spatial smoothness loss, representations in this model assemble into clusters that correspond to semantically interpretable groupings of text and closely match the functional organization in the brain’s language system. TopoLM successfully predicts the emergence of the spatio-functional organization of a cortical language system as well as the organization of functional clusters selective for fine-grained linguistic features empirically observed in human cortex. Our results suggest that the functional organization of the human language system is driven by a unified spatial objective, and provide a functionally and spatially aligned model of language processing in the brain.

arxiv情報

著者 Neil Rathi,Johannes Mehrer,Badr AlKhamissi,Taha Binhuraib,Nicholas M. Blauch,Martin Schrimpf
発行日 2025-05-15 13:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TopoLM: brain-like spatio-functional organization in a topographic language model はコメントを受け付けていません

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

要約

AIの進行は評価の質によってボトルネックされており、強力なLLM As-A-A-Judgeモデルがコアソリューションであることが証明されています。
改善された判断能力は、考え方の強い推論によって可能になり、そのようなモデルをトレーニングするための最良のレシピを見つける必要性を動機付けています。
この作業では、そのようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介します。
私たちの方法は、検証を奨励し、判断バイアスを緩和する検証可能な報酬を備えた検証可能なプロンプトと非検証不可のプロンプトの両方を判断タスクに変換します。
特に、私たちのアプローチは、DeepSeek-R1から蒸留されたモデルを含む、これらのサイズでトレーニングされた場合、他のすべての既存の8Bまたは70Bモデルよりも優れています。
また、J1は、より小さなモデルをトレーニングしているにもかかわらず、いくつかのベンチマークでO1-MINI、さらにはR1を上回ります。
ペアワイズJ1対ポイントワイズJ1モデル、オフライン対オンライントレーニングレシピ、報酬戦略、シードプロンプト、思考の長さとコンテンツのバリエーションを比較する分析とアブレーションを提供します。
私たちのモデルは、評価基準の概要を学習し、自己生成された参照回答と比較し、モデル応答の正確性を再評価することにより、より良い判断を下すことがわかります。

要約(オリジナル)

The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

arxiv情報

著者 Chenxi Whitehouse,Tianlu Wang,Ping Yu,Xian Li,Jason Weston,Ilia Kulikov,Swarnadeep Saha
発行日 2025-05-15 14:05:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning はコメントを受け付けていません

Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models

要約

大規模な言語モデル(LLM)のテスト時間計算のために証明可能なスケーリング法則を享受する、2つのシンプルで原則的で実用的なアルゴリズムを提案します。
最初のものは2段階のノックアウトスタイルのアルゴリズムです。入力の問題があると、最初に複数の候補ソリューションを生成し、次に最終出力のためにノックアウトトーナメントを介してそれらを集計します。
LLMが非ゼロの確率で正しいソリューションを生成し、正しいソリューションのペアを比較する際にランダムな推測よりも優れていると仮定すると、このアルゴリズムの故障確率が指数関数的にゼロになるか、テスト時間の栽培としてのパワー法則(特定のスケーリングの方法に依存する)によって崩壊することを理論的に証明します。
2つ目は2段階のリーグスタイルのアルゴリズムで、各候補者は、単一の対戦相手に敗北すると排除されるのではなく、複数の対戦相手に対する平均勝利率によって評価されます。
類似しているがより堅牢な仮定の下で、その故障確率も、より多くのテスト時間計算で指数関数的にゼロに崩壊することを証明します。
両方のアルゴリズムには、最小限の実装のためにブラックボックスLLMが必要であり、それ以外は何も必要ありません(例えば、検証者または報酬モデルはありません)。
多様なモデルとデータセットを使用した広範な実験を通じて、提案された理論を検証し、両方のアルゴリズムの優れたスケーリング特性を実証します。

要約(オリジナル)

We propose two simple, principled and practical algorithms that enjoy provable scaling laws for the test-time compute of large language models (LLMs). The first one is a two-stage knockout-style algorithm: given an input problem, it first generates multiple candidate solutions, and then aggregate them via a knockout tournament for the final output. Assuming that the LLM can generate a correct solution with non-zero probability and do better than a random guess in comparing a pair of correct and incorrect solutions, we prove theoretically that the failure probability of this algorithm decays to zero exponentially or by a power law (depending on the specific way of scaling) as its test-time compute grows. The second one is a two-stage league-style algorithm, where each candidate is evaluated by its average win rate against multiple opponents, rather than eliminated upon loss to a single opponent. Under analogous but more robust assumptions, we prove that its failure probability also decays to zero exponentially with more test-time compute. Both algorithms require a black-box LLM and nothing else (e.g., no verifier or reward model) for a minimalistic implementation, which makes them appealing for practical applications and easy to adapt for different tasks. Through extensive experiments with diverse models and datasets, we validate the proposed theories and demonstrate the outstanding scaling properties of both algorithms.

arxiv情報

著者 Yanxi Chen,Xuchen Pan,Yaliang Li,Bolin Ding,Jingren Zhou
発行日 2025-05-15 14:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models はコメントを受け付けていません

Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time

要約

米国大統領は誰ですか?
答えは、質問がいつ尋ねられるかによって変わります。
大規模な言語モデル(LLM)はさまざまな推論タスクで評価されますが、多くの場合、重要な次元:時間を見逃します。
現実世界のシナリオでは、答えの正しさは、一時的なコンテキストに頻繁に結び付けられています。
このギャップに対処するために、2018年から2024年にかけて8,000を超えるイベントにまたがる新しいフレームワークとデータセットを提示します。デイレベルの粒度が注釈が付けられ、政治、科学、ビジネスなどのドメイン全体でグローバルに調達されています。
私たちのタイムシフト評価方法は、時間的推論のためにLLMを体系的にプローブし、ベースモデルがしばしば時間依存のリコールで命令チューニングと合成訓練を受けた対応物を上回ることを明らかにします。
さらに、大規模なモデルでさえ、言い換えされた事実を処理する際に脆弱性を示し、時間的一貫性における未解決の課題を強調していることがわかります。
これらの制限を特定することにより、私たちの仕事は、現実世界の知識の動的な性質に適応できる時期式言語モデルを進めるための重要なステップを提供します。

要約(オリジナル)

Who is the US President? The answer changes depending on when the question is asked. While large language models (LLMs) are evaluated on various reasoning tasks, they often miss a crucial dimension: time. In real-world scenarios, the correctness of answers is frequently tied to temporal context. To address this gap, we present a novel framework and dataset spanning over 8,000 events from 2018 to 2024, annotated with day-level granularity and sourced globally across domains such as politics, science, and business. Our TimeShift evaluation method systematically probes LLMs for temporal reasoning, revealing that base models often outperform instruction-tuned and synthetic-trained counterparts on time-sensitive recall. Additionally, we find that even large-scale models exhibit brittleness in handling paraphrased facts, highlighting unresolved challenges in temporal consistency. By identifying these limitations, our work provides a significant step toward advancing time-aware language models capable of adapting to the dynamic nature of real-world knowledge.

arxiv情報

著者 David Herel,Vojtech Bartek,Jiri Jirak,Tomas Mikolov
発行日 2025-05-15 14:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time はコメントを受け付けていません

100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

要約

推論言語モデル(RLMS)の最近の開発は、大規模な言語モデルの新しい進化を表しています。
特に、DeepSeek-R1の最近のリリースは、言語モデルの明示的な推論パラダイムを探るために、研究コミュニティの広範な社会的影響を生み出し、熱意を引き起こしました。
ただし、リリースされたモデルの実装の詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留小さなモデルなど、DeepSeekによって完全にオープンソース化されていません。
その結果、多くの複製研究が、DeepSeek-R1によって達成された強力なパフォーマンスを再現することを目的としており、同様のトレーニング手順と完全にオープンソースのデータリソースを通じて同等のパフォーマンスに達しました。
これらの作品は、検証可能な報酬(RLVR)からの監視された微調整(SFT)および強化学習のための実行可能な戦略を調査し、データの準備とメソッド設計に焦点を当て、さまざまな貴重な洞察をもたらしました。
このレポートでは、将来の研究を促すために、最近の複製研究の要約を提供します。
主にSFTとRLVRに2つの主要な方向として焦点を当て、現在の複製研究のデータ構築、メソッド設計、およびトレーニング手順の詳細を紹介しています。
さらに、これらの研究で報告された実装の詳細と実験結果から重要な調査結果を結論付け、将来の研究を促すことを期待しています。
また、RLMを強化し、これらのモデルのアプリケーション範囲を拡大する可能性を強調し、開発における課題について議論する追加の手法についても説明します。
この調査により、RLMSの研究者と開発者が最新の進歩を維持し、RLMをさらに強化するための新しいアイデアを鼓舞しようとすることを目指しています。

要約(オリジナル)

The recent development of reasoning language models (RLMs) represents a novel evolution in large language models. In particular, the recent release of DeepSeek-R1 has generated widespread social impact and sparked enthusiasm in the research community for exploring the explicit reasoning paradigm of language models. However, the implementation details of the released models have not been fully open-sourced by DeepSeek, including DeepSeek-R1-Zero, DeepSeek-R1, and the distilled small models. As a result, many replication studies have emerged aiming to reproduce the strong performance achieved by DeepSeek-R1, reaching comparable performance through similar training procedures and fully open-source data resources. These works have investigated feasible strategies for supervised fine-tuning (SFT) and reinforcement learning from verifiable rewards (RLVR), focusing on data preparation and method design, yielding various valuable insights. In this report, we provide a summary of recent replication studies to inspire future research. We primarily focus on SFT and RLVR as two main directions, introducing the details for data construction, method design and training procedure of current replication studies. Moreover, we conclude key findings from the implementation details and experimental results reported by these studies, anticipating to inspire future research. We also discuss additional techniques of enhancing RLMs, highlighting the potential of expanding the application scope of these models, and discussing the challenges in development. By this survey, we aim to help researchers and developers of RLMs stay updated with the latest advancements, and seek to inspire new ideas to further enhance RLMs.

arxiv情報

著者 Chong Zhang,Yue Deng,Xiang Lin,Bin Wang,Dianwen Ng,Hai Ye,Xingxuan Li,Yao Xiao,Zhanfeng Mo,Qi Zhang,Lidong Bing
発行日 2025-05-15 14:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models はコメントを受け付けていません