RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models

要約

大規模な言語モデル(LLM)は一般に多くのタスクでより能力が高く正確になっていますが、信頼性の信頼性の基本的なソースがその行動に残っています。
重要な制限の1つは、プロンプトが変更されたときに同じ情報を報告する矛盾です。
この論文では、モデルの生成された回答と、その回答の独自の検証であるジェネレーターバリダーターのギャップとの間の矛盾を検討します。
このギャップを以前の作業よりも厳しい方法で定義します。候補者の回答のセット全体にわたって、ジェネレーターとバリデーターからのスコアの相関関係を期待しています。
この尺度によれば、質問の回答、語彙セマンティクスタスク、次の言葉の予測など、さまざまな設定に大きなギャップが存在することを示しています。
次に、ランキングベースのトレーニング方法であるRankAlignを提案し、すべてのベースライン方法を超えて、平均でギャップを大幅に閉じることを示します。
さらに、このアプローチは、ドメイン外のタスクと語彙項目によく一般的になります。

要約(オリジナル)

Although large language models (LLMs) have become generally more capable and accurate across many tasks, some fundamental sources of unreliability remain in their behavior. One key limitation is their inconsistency at reporting the the same information when prompts are changed. In this paper, we consider the discrepancy between a model’s generated answer and their own verification of that answer, the generator-validator gap. We define this gap in a more stringent way than prior work: we expect correlation of scores from a generator and a validator over the entire set of candidate answers. We show that according to this measure, a large gap exists in various settings, including question answering, lexical semantics tasks, and next-word prediction. We then propose RankAlign, a ranking-based training method, and show that it significantly closes the gap by 31.8% on average, surpassing all baseline methods. Moreover, this approach generalizes well to out-of-domain tasks and lexical items.

arxiv情報

著者 Juan Diego Rodriguez,Wenxuan Ding,Katrin Erk,Greg Durrett
発行日 2025-04-15 16:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RankAlign: A Ranking View of the Generator-Validator Gap in Large Language Models はコメントを受け付けていません

DataDecide: How to Predict Best Pretraining Data with Small Experiments

要約

大規模な言語モデルはさまざまなデータセットで事前に排出されるのに費用がかかるため、コストを削減するためには、小規模な実験を使用してデータを決定することが重要です。
小規模で観察されたパフォーマンスから決定を下すベンチマークと方法は、最高の大きなモデルを生成するデータセットを最も正確に予測しますか?
この質問のオープンな調査を強化するために、データとスケールの違いよりも最も広範なオープンモデルのモデルであるデータデシドのモデル、データ、および評価をリリースします。
さまざまなソース、重複排除、最大100Bのトークン、最大1Bパラメーター、3つのランダムシードまでのフィルタリングを備えた25のコーパスで制御された事前トレーニング実験を実施します。
単一の小さなサイズ(150mパラメーターなど)のモデルのランキングは、より大きなターゲットスケール(1b)で最適なモデルを予測するための強力なベースラインであることがわかります(comパリソンの約80%が正しい)。
8つのベースライン間のスケーリング法の方法は、シングルスケール予測の計算決定フロンティアを超えていませんが、DataDecideは将来のスケーリング法の改善を測定できます。
また、小さな実験のプロキシとして連続尤度メトリックを使用すると、MMLU、ARC、Hellaswag、MBPP、およびHumanValなどのベンチマークが、計算のわずか0.01%でターゲット1Bスケールで予測できる80%を超えることを特定します。

要約(オリジナル)

Because large language models are expensive to pretrain on different datasets, using smaller-scale experiments to decide on data is crucial for reducing costs. Which benchmarks and methods of making decisions from observed performance at small scale most accurately predict the datasets that yield the best large models? To empower open exploration of this question, we release models, data, and evaluations in DataDecide — the most extensive open suite of models over differences in data and scale. We conduct controlled pretraining experiments across 25 corpora with differing sources, deduplication, and filtering up to 100B tokens, model sizes up to 1B parameters, and 3 random seeds. We find that the ranking of models at a single, small size (e.g., 150M parameters) is a strong baseline for predicting best models at our larger target scale (1B) (~80% of com parisons correct). No scaling law methods among 8 baselines exceed the compute-decision frontier of single-scale predictions, but DataDecide can measure improvement in future scaling laws. We also identify that using continuous likelihood metrics as proxies in small experiments makes benchmarks including MMLU, ARC, HellaSwag, MBPP, and HumanEval >80% predictable at the target 1B scale with just 0.01% of the compute.

arxiv情報

著者 Ian Magnusson,Nguyen Tai,Ben Bogin,David Heineman,Jena D. Hwang,Luca Soldaini,Akshita Bhagia,Jiacheng Liu,Dirk Groeneveld,Oyvind Tafjord,Noah A. Smith,Pang Wei Koh,Jesse Dodge
発行日 2025-04-15 17:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DataDecide: How to Predict Best Pretraining Data with Small Experiments はコメントを受け付けていません

Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning

要約

注意と状態空間モデル(SSM)を組み合わせたハイブリッドLLMアーキテクチャは、最先端の精度とランタイムパフォーマンスを実現します。
最近の研究では、注意のみのモデルに圧縮と蒸留を適用すると、トレーニングコストのほんの一部でより小さく、より正確なモデルが得られることが実証されています。
この作業では、ハイブリッドアーキテクチャの圧縮の有効性を調査します。
SSMブロックの構造的完全性とそのシーケンスモデリング機能を保持する新しいグループ認識剪定戦略を紹介します。
さらに、従来のアプローチと比較して、精度と推論の速度を向上させるために、このようなSSM剪定の必要性を示しています。
圧縮レシピは、SSM、FFN、埋め込み寸法、および層剪定を組み合わせて、それに続いてMinitron技術と同様に知識蒸留ベースの再訓練が続きます。
このアプローチを使用して、Nemotron-H 8Bハイブリッドモデルを4Bパラメーターに圧縮し、最大40倍のトレーニングトークンが少なくなります。
結果として得られるモデルは、2倍のより速い推論を達成しながら、同様のサイズのモデルの精度を上回り、パレートフロンティアを大幅に進めます。

要約(オリジナル)

Hybrid LLM architectures that combine Attention and State Space Models (SSMs) achieve state-of-the-art accuracy and runtime performance. Recent work has demonstrated that applying compression and distillation to Attention-only models yields smaller, more accurate models at a fraction of the training cost. In this work, we explore the effectiveness of compressing Hybrid architectures. We introduce a novel group-aware pruning strategy that preserves the structural integrity of SSM blocks and their sequence modeling capabilities. Furthermore, we demonstrate the necessity of such SSM pruning to achieve improved accuracy and inference speed compared to traditional approaches. Our compression recipe combines SSM, FFN, embedding dimension, and layer pruning, followed by knowledge distillation-based retraining, similar to the MINITRON technique. Using this approach, we compress the Nemotron-H 8B Hybrid model down to 4B parameters with up to 40x fewer training tokens. The resulting model surpasses the accuracy of similarly-sized models while achieving 2x faster inference, significantly advancing the Pareto frontier.

arxiv情報

著者 Ali Taghibakhshi,Sharath Turuvekere Sreenivas,Saurav Muralidharan,Marcin Chochowski,Yashaswi Karnati,Raviraj Joshi,Ameya Sunil Mahabaleshwarkar,Zijia Chen,Yoshi Suhara,Oluwatobi Olabiyi,Daniel Korzekwa,Mostofa Patwary,Mohammad Shoeybi,Jan Kautz,Bryan Catanzaro,Ashwath Aithal,Nima Tajbakhsh,Pavlo Molchanov
発行日 2025-04-15 17:26:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning はコメントを受け付けていません

Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な機能を実証していますが、多くの場合、複雑なタスクを処理するために外部コンテキストに依存しています。
検索されたフレームワークは従来、単一のパスでトップランクのドキュメントを選択することに焦点を当てていますが、多くの現実世界のシナリオは、複数のソースを調整された方法で組み合わせる必要がある構成検索を要求します。
この作業では、このプロセスをマルコフ決定プロセス(MDP)としてモデル化するTRI-Encoderシーケンシャルレトリバーを提案し、一連の要素を条件付き確率のシーケンスに取得する可能性を分解し、各検索ステップを以前に選択した例で条件付けできるようにします。
レトリバーを2つの段階でトレーニングします。まず、初期ポリシートレーニングのために監視された連続データを効率的に構築します。
次に、生成されたプログラムの構造的対応に基づいた報酬を使用して、LLMの設定と一致するポリシーを改良します。
実験結果は、この方法がベースラインを一貫して大幅に上回ることを示しており、実験間依存関係を明示的にモデル化することの重要性を強調しています。
これらの調査結果は、複数の証拠または例を必要とするタスクの構成検索の可能性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet they often rely on external context to handle complex tasks. While retrieval-augmented frameworks traditionally focus on selecting top-ranked documents in a single pass, many real-world scenarios demand compositional retrieval, where multiple sources must be combined in a coordinated manner. In this work, we propose a tri-encoder sequential retriever that models this process as a Markov Decision Process (MDP), decomposing the probability of retrieving a set of elements into a sequence of conditional probabilities and allowing each retrieval step to be conditioned on previously selected examples. We train the retriever in two stages: first, we efficiently construct supervised sequential data for initial policy training; we then refine the policy to align with the LLM’s preferences using a reward grounded in the structural correspondence of generated programs. Experimental results show that our method consistently and significantly outperforms baselines, underscoring the importance of explicitly modeling inter-example dependencies. These findings highlight the potential of compositional retrieval for tasks requiring multiple pieces of evidence or examples.

arxiv情報

著者 Quanyu Long,Jianda Chen,Zhengyuan Liu,Nancy F. Chen,Wenya Wang,Sinno Jialin Pan
発行日 2025-04-15 17:35:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts はコメントを受け付けていません

Graph Linearization Methods for Reasoning on Graphs with Large Language Models

要約

大規模な言語モデルは、画像やオーディオなどのテキストを超えた複数のモダリティを処理するために進化しました。
したがって、重要な問題は、グラフをトークンの線形シーケンスに変換する方法です。これは、「グラフ線形化」と呼ばれるプロセスであり、LLMがグラフを自然に処理できるようにします。
グラフは、数兆個のテキストトークンで訓練された現代のLLMSを容易にし、グラフをよりよく理解するために、ローカル依存関係やグローバルアライメントなど、自然言語テキストの特定の特性を反映するために有意義に線形化する必要があると考えています。
これを達成するために、グラフの中心性と縮退に基づいていくつかのグラフ線形化方法を開発しました。
これらのメソッドは、ノードリレクション技術を使用してさらに強化されています。
実験結果は、ランダムな線形化ベースラインと比較して、方法の有効性を示しています。
私たちの研究では、LLMに適した新しいグラフ表現を導入し、グラフ機械学習の潜在的な統合と、統一されたトランスモデルを使用したマルチモーダル処理の傾向に貢献しています。

要約(オリジナル)

Large language models have evolved to process multiple modalities beyond text, such as images and audio, which motivates us to explore how to effectively leverage them for graph reasoning tasks. The key question, therefore, is how to transform graphs into linear sequences of tokens, a process we term ‘graph linearization’, so that LLMs can handle graphs naturally. We consider that graphs should be linearized meaningfully to reflect certain properties of natural language text, such as local dependency and global alignment, in order to ease contemporary LLMs, trained on trillions of textual tokens, better understand graphs. To achieve this, we developed several graph linearization methods based on graph centrality and degeneracy. These methods are further enhanced using node relabeling techniques. The experimental results demonstrate the effectiveness of our methods compared to the random linearization baseline. Our work introduces novel graph representations suitable for LLMs, contributing to the potential integration of graph machine learning with the trend of multimodal processing using a unified transformer model.

arxiv情報

著者 Christos Xypolopoulos,Guokan Shang,Xiao Fei,Giannis Nikolentzos,Hadi Abdine,Iakovos Evdaimon,Michail Chatzianastasis,Giorgos Stamou,Michalis Vazirgiannis
発行日 2025-04-15 17:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Graph Linearization Methods for Reasoning on Graphs with Large Language Models はコメントを受け付けていません

A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes

要約

リソースの割り当ては、サイクル時間を最小限に抑え、ビジネスプロセスの効率を改善する上で重要な役割を果たします。
最近、Deep Renection Learning(DRL)は、ビジネスプロセスにおけるリソース割り当てポリシーを最適化するための強力なツールとして登場しました。
DRLフレームワークでは、エージェントは、環境との相互作用を通じてポリシーを学習します。これは、その決定の質を示す報酬信号のみによって導かれます。
ただし、既存のアルゴリズムは、ビジネスプロセスなどの動的環境には適していません。
さらに、既存のDRLベースの方法は、望ましい目的を近似する設計された報酬関数に依存していますが、報酬と目的の間の不整合は、望ましくない決定または最適ではないポリシーにつながる可能性があります。
これらの問題に対処するために、ロールアウトベースのDRLアルゴリズムと、目標を直接最適化する報酬関数を提案します。
アルゴリズムは、異なるアクションに従って実行軌跡を評価することにより、ポリシーを繰り返し改善します。
報酬関数は、平均サイクル時間を最小化するという目的関数を直接分解します。
報酬関数を最大化すると、広範な報酬エンジニアリングを必要とせずに目的関数が最小化されることが保証されます。
結果は、私たちの方法が、評価された6つのビジネスプロセスすべてで最適なポリシーを一貫して学習し、評価された2つのプロセスで最適なポリシーのみを学習できる最先端のアルゴリズムを上回ることを示しています。

要約(オリジナル)

Resource allocation plays a critical role in minimizing cycle time and improving the efficiency of business processes. Recently, Deep Reinforcement Learning (DRL) has emerged as a powerful tool to optimize resource allocation policies in business processes. In the DRL framework, an agent learns a policy through interaction with the environment, guided solely by reward signals that indicate the quality of its decisions. However, existing algorithms are not suitable for dynamic environments such as business processes. Furthermore, existing DRL-based methods rely on engineered reward functions that approximate the desired objective, but a misalignment between reward and objective can lead to undesired decisions or suboptimal policies. To address these issues, we propose a rollout-based DRL algorithm and a reward function to optimize the objective directly. Our algorithm iteratively improves the policy by evaluating execution trajectories following different actions. Our reward function directly decomposes the objective function of minimizing the mean cycle time. Maximizing our reward function guarantees that the objective function is minimized without requiring extensive reward engineering. The results show that our method consistently learns the optimal policy in all six evaluated business processes, outperforming the state-of-the-art algorithm that can only learn the optimal policy in two of the evaluated processes.

arxiv情報

著者 Jeroen Middelhuis,Zaharah Bukhsh,Ivo Adan,Remco Dijkman
発行日 2025-04-15 14:46:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Rollout-Based Algorithm and Reward Function for Efficient Resource Allocation in Business Processes はコメントを受け付けていません

DeepSelective: Feature Gating and Representation Matching for Interpretable Clinical Prediction

要約

電子健康記録(EHRS)の急速な蓄積は、臨床的予測と診断を強化する貴重なデータを提供することにより、医療を変革しました。
従来の機械学習モデルは効果的であることが証明されていますが、多くの場合、堅牢な表現学習が欠けており、専門家が作成した機能に大きく依存しています。
ディープラーニングは強力なソリューションを提供しますが、解釈可能性の欠如について批判されていることがよくあります。
これらの課題に対処するために、EHRデータを使用して患者の予後を予測するための新しい終わりから末端学習フレームワークであるDeepSeectiveを提案します。
DeepSeectiveは、データ圧縮技術と革新的な機能選択アプローチを組み合わせて、正確性と解釈性の両方を向上させるために連携するカスタム設計モジュールを統合します。
私たちの実験は、深い選択が予測精度を高めるだけでなく、解釈性を大幅に改善し、臨床的意思決定のための貴重なツールになることを示しています。
ソースコードは、http://www.healthinformaticslab.org/supp/resources.phpで無料で入手できます。

要約(オリジナル)

The rapid accumulation of Electronic Health Records (EHRs) has transformed healthcare by providing valuable data that enhance clinical predictions and diagnoses. While conventional machine learning models have proven effective, they often lack robust representation learning and depend heavily on expert-crafted features. Although deep learning offers powerful solutions, it is often criticized for its lack of interpretability. To address these challenges, we propose DeepSelective, a novel end to end deep learning framework for predicting patient prognosis using EHR data, with a strong emphasis on enhancing model interpretability. DeepSelective combines data compression techniques with an innovative feature selection approach, integrating custom-designed modules that work together to improve both accuracy and interpretability. Our experiments demonstrate that DeepSelective not only enhances predictive accuracy but also significantly improves interpretability, making it a valuable tool for clinical decision-making. The source code is freely available at http://www.healthinformaticslab.org/supp/resources.php .

arxiv情報

著者 Ruochi Zhang,Qian Yang,Xiaoyang Wang,Haoran Wu,Qiong Zhou,Yu Wang,Kewei Li,Yueying Wang,Yusi Fan,Jiale Zhang,Lan Huang,Chang Liu,Fengfeng Zhou
発行日 2025-04-15 15:04:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DeepSelective: Feature Gating and Representation Matching for Interpretable Clinical Prediction はコメントを受け付けていません

Transforming Future Data Center Operations and Management via Physical AI

要約

ミッションクリティカルなインフラストラクチャとしてのデータセンター(DCS)は、人工知能(AI)とデジタル経済の成長を促進する上で極めて重要です。
インターネットDCからAI DCへの進化により、ビジネスレジリエンスの改善と所有権の総コストの削減のために、データセンターの運営と管理に新しい課題が導入されました。
その結果、ベストプラクティスに基づいた従来のアプローチを超えて、将来のデータセンターのためには、新しいパラダイムが必要です。
この研究では、DCの運用と管理を進めるための新しい物理AI(Phyai)フレームワークを提案および開発します。
当社のシステムは、最先端の工業製品と社内の研究開発の新たな能力を活用しています。
具体的には、3つのコアモジュール、すなわち:1)非常に正確な方法でDC操作をシミュレートするための業界グレードの社内シミュレーションエンジンを提供します。
このシステムは、将来のデータセンターにリアルタイムのデジタルツインを有効にすることにより、将来のデータセンターの運用と管理をデジタル化、最適化、および自動化するためのスケーラブルで適応性のあるソリューションを提供します。
その有効性を説明するために、リアルタイムで大規模なDCの熱および空気流プロファイルを予測するための代理モデルの構築に関する説得力のあるケーススタディを提示します。
私たちの結果は、0.18 {\ deg}の絶対温度予測誤差の中央値で、従来の時間のかかる計算流体ダイナミクス/熱伝達(CFD/HT)シミュレーションよりも優れた性能を示しています。
この新たなアプローチは、将来のDC操作で物理的AIを進めるためのいくつかの潜在的な研究方向への扉を開くでしょう。

要約(オリジナル)

Data centers (DCs) as mission-critical infrastructures are pivotal in powering the growth of artificial intelligence (AI) and the digital economy. The evolution from Internet DC to AI DC has introduced new challenges in operating and managing data centers for improved business resilience and reduced total cost of ownership. As a result, new paradigms, beyond the traditional approaches based on best practices, must be in order for future data centers. In this research, we propose and develop a novel Physical AI (PhyAI) framework for advancing DC operations and management. Our system leverages the emerging capabilities of state-of-the-art industrial products and our in-house research and development. Specifically, it presents three core modules, namely: 1) an industry-grade in-house simulation engine to simulate DC operations in a highly accurate manner, 2) an AI engine built upon NVIDIA PhysicsNemo for the training and evaluation of physics-informed machine learning (PIML) models, and 3) a digital twin platform built upon NVIDIA Omniverse for our proposed 5-tier digital twin framework. This system presents a scalable and adaptable solution to digitalize, optimize, and automate future data center operations and management, by enabling real-time digital twins for future data centers. To illustrate its effectiveness, we present a compelling case study on building a surrogate model for predicting the thermal and airflow profiles of a large-scale DC in a real-time manner. Our results demonstrate its superior performance over traditional time-consuming Computational Fluid Dynamics/Heat Transfer (CFD/HT) simulation, with a median absolute temperature prediction error of 0.18 {\deg}C. This emerging approach would open doors to several potential research directions for advancing Physical AI in future DC operations.

arxiv情報

著者 Zhiwei Cao,Minghao Li,Feng Lin,Jimin Jia,Yonggang Wen,Jianxiong Yin,Simon See
発行日 2025-04-15 15:06:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC | Transforming Future Data Center Operations and Management via Physical AI はコメントを受け付けていません

Can Learned Optimization Make Reinforcement Learning Less Difficult?

要約

Rehnection Learning(RL)は、現実の世界で意思決定の大きな可能性を秘めていますが、具体的な考慮が必要な多くのユニークな困難に苦しんでいます。
特に:それは非常に非定常です。
高度の可塑性の損失が苦しんでいます。
また、ローカルオプティマへの早期収束を防ぎ、リターンを最大化するために探索が必要です。
この論文では、学習した最適化がこれらの問題を克服するのに役立つかどうかを検討します。
私たちの方法は、可塑性、探索、および非定常性(オープン)の最適化を学び、メタラーンを使用して、これらの困難に対する以前に提案されたソリューションによって入力機能と出力構造が通知される更新ルールを学習します。
パラメーター化は、探索に確率性を使用する能力など、多様な学習コンテキストでメタ学習を可能にするほど柔軟であることを示します。
私たちの実験は、単一および小さな環境でメタトレーニングを行うと、オープンアウトパフォームまたは従来のオプティマイザーに等しいことを示しています。
さらに、Openは、さまざまな環境とエージェントアーキテクチャにわたって強力な一般化特性を示しています。

要約(オリジナル)

While reinforcement learning (RL) holds great potential for decision making in the real world, it suffers from a number of unique difficulties which often need specific consideration. In particular: it is highly non-stationary; suffers from high degrees of plasticity loss; and requires exploration to prevent premature convergence to local optima and maximize return. In this paper, we consider whether learned optimization can help overcome these problems. Our method, Learned Optimization for Plasticity, Exploration and Non-stationarity (OPEN), meta-learns an update rule whose input features and output structure are informed by previously proposed solutions to these difficulties. We show that our parameterization is flexible enough to enable meta-learning in diverse learning contexts, including the ability to use stochasticity for exploration. Our experiments demonstrate that when meta-trained on single and small sets of environments, OPEN outperforms or equals traditionally used optimizers. Furthermore, OPEN shows strong generalization characteristics across a range of environments and agent architectures.

arxiv情報

著者 Alexander David Goldie,Chris Lu,Matthew Thomas Jackson,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2025-04-15 15:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Can Learned Optimization Make Reinforcement Learning Less Difficult? はコメントを受け付けていません

Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1

要約

近年、大規模な言語モデル(LLMS)の開発は、自然言語処理の分野で大きなブレークスルーを行っており、徐々に人文科学と社会科学の研究の分野に適用されています。
LLMは、その強いテキスト理解、生成、推論能力のために、人文科学および社会科学の分野で幅広いアプリケーション価値を持っています。
人文科学と社会科学の研究では、LLMSは大規模なテキストデータを分析し、推論を行うことができます。
この記事では、低リソースの言語翻訳、教育的質問、高等教育の改善、論理的推論、教育測定と心理測定、公衆衛生政策分析、芸術教育など、7つの側面からの大規模な言語モデルDeepSeek-R1を分析します。
次に、7つの側面でDeepseek-R1によって与えられた回答を、O1-Previewによって与えられた答えを比較します。
Deepseek-R1は人文科学と社会科学でうまく機能し、ほとんどの質問に正しくかつ論理的に答え、合理的な分析プロセスと説明を提供できます。
O1-Previewと比較して、推論プロセスを自動的に生成し、より詳細な説明を提供できます。これは、この知識を詳細に理解する必要がある初心者や人に適していますが、O1-Previewは迅速な読みに適しています。
分析を通じて、LLMは人文科学と社会科学の分野で幅広い応用の可能性を持ち、テキスト分析の効率、言語コミュニケーション、その他の分野を改善する上で大きな利点を示していることがわかります。
LLMの強力な言語理解と生成能力により、人文科学と社会科学の分野で複雑な問題を深く探求し、学術研究と実用的なアプリケーションのための革新的なツールを提供できます。

要約(オリジナル)

In recent years, the development of Large Language Models (LLMs) has made significant breakthroughs in the field of natural language processing and has gradually been applied to the field of humanities and social sciences research. LLMs have a wide range of application value in the field of humanities and social sciences because of its strong text understanding, generation and reasoning capabilities. In humanities and social sciences research, LLMs can analyze large-scale text data and make inferences. This article analyzes the large language model DeepSeek-R1 from seven aspects: low-resource language translation, educational question-answering, student writing improvement in higher education, logical reasoning, educational measurement and psychometrics, public health policy analysis, and art education . Then we compare the answers given by DeepSeek-R1 in the seven aspects with the answers given by o1-preview. DeepSeek-R1 performs well in the humanities and social sciences, answering most questions correctly and logically, and can give reasonable analysis processes and explanations. Compared with o1-preview, it can automatically generate reasoning processes and provide more detailed explanations, which is suitable for beginners or people who need to have a detailed understanding of this knowledge, while o1-preview is more suitable for quick reading. Through analysis, it is found that LLM has broad application potential in the field of humanities and social sciences, and shows great advantages in improving text analysis efficiency, language communication and other fields. LLM’s powerful language understanding and generation capabilities enable it to deeply explore complex problems in the field of humanities and social sciences, and provide innovative tools for academic research and practical applications.

arxiv情報

著者 Peiran Gu,Fuhao Duan,Wenhao Li,Bochen Xu,Ying Cai,Teng Yao,Chenxun Zhuo,Tianming Liu,Bao Ge
発行日 2025-04-15 15:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Bridging Technology and Humanities: Evaluating the Impact of Large Language Models on Social Sciences Research with DeepSeek-R1 はコメントを受け付けていません