How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines

要約

ニューラルスケーリング法則は、モデルサイズ、データセットボリューム、および計算リソースの間の予測可能な関係を明らかにすることにより、大規模AIモデルの設計と最適化に革命をもたらしました。
初期の研究により、モデルパフォーマンスにおける電力法関係が確立され、最適なスケーリング戦略が計算されました。
ただし、最近の研究では、アーキテクチャ、モダリティ、展開コンテキスト全体の制限が強調されています。
まばらなモデル、混合物の混合物、検索された学習学習、およびマルチモーダルモデルは、多くの場合、従来のスケーリングパターンから逸脱します。
さらに、スケーリングの動作は、ビジョン、強化学習、微調整などのドメインによって異なり、より微妙なアプローチの必要性を強調しています。
この調査では、50を超える研究からの洞察を統合し、理論的基礎、経験的調査結果、およびスケーリング法の実際的な意味を調べます。
また、現実世界のアプリケーションに合わせた適応スケーリング戦略を提唱する、データ効率、推論スケーリング、アーキテクチャ固有の制約などの重要な課題についても探ります。
スケーリング法は有用なガイドを提供しますが、すべてのアーキテクチャとトレーニング戦略に常に一般化するとは限らないことをお勧めします。

要約(オリジナル)

Neural scaling laws have revolutionized the design and optimization of large-scale AI models by revealing predictable relationships between model size, dataset volume, and computational resources. Early research established power-law relationships in model performance, leading to compute-optimal scaling strategies. However, recent studies highlighted their limitations across architectures, modalities, and deployment contexts. Sparse models, mixture-of-experts, retrieval-augmented learning, and multimodal models often deviate from traditional scaling patterns. Moreover, scaling behaviors vary across domains such as vision, reinforcement learning, and fine-tuning, underscoring the need for more nuanced approaches. In this survey, we synthesize insights from over 50 studies, examining the theoretical foundations, empirical findings, and practical implications of scaling laws. We also explore key challenges, including data efficiency, inference scaling, and architecture-specific constraints, advocating for adaptive scaling strategies tailored to real-world applications. We suggest that while scaling laws provide a useful guide, they do not always generalize across all architectures and training strategies.

arxiv情報

著者 Ayan Sengupta,Yash Goel,Tanmoy Chakraborty
発行日 2025-02-17 17:20:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines はコメントを受け付けていません

A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability

要約

NLGメタ評価では、評価メトリックは通常、人間との一貫性に基づいて評価されます。
ただし、人間の評価の処理における問題や、メタ評価の有効性を損なう相関測定の曖昧な選択など、従来のNLGメタ評価アプローチのいくつかの制限を特定します。
この作業では、さまざまな評価能力に焦点を当てたデュアルパースのNLGメタ評価フレームワークを提案し、それによってより良い解釈可能性を提供します。
さらに、新しい人間の注釈を必要とせずに、対応するベンチマークを自動的に構築する方法を導入します。
さらに、提案されたフレームワークに基づいて評価者として16人の代表LLMを使用して実験を行い、異なる観点から評価パフォーマンスを包括的に分析します。

要約(オリジナル)

In NLG meta-evaluation, evaluation metrics are typically assessed based on their consistency with humans. However, we identify some limitations in traditional NLG meta-evaluation approaches, such as issues in handling human ratings and ambiguous selections of correlation measures, which undermine the effectiveness of meta-evaluation. In this work, we propose a dual-perspective NLG meta-evaluation framework that focuses on different evaluation capabilities, thereby providing better interpretability. In addition, we introduce a method of automatically constructing the corresponding benchmarks without requiring new human annotations. Furthermore, we conduct experiments with 16 representative LLMs as the evaluators based on our proposed framework, comprehensively analyzing their evaluation performance from different perspectives.

arxiv情報

著者 Xinyu Hu,Mingqi Gao,Li Lin,Zhenghan Yu,Xiaojun Wan
発行日 2025-02-17 17:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability はコメントを受け付けていません

Designing Role Vectors to Improve LLM Inference Behaviour

要約

大規模な言語モデル(LLMS)に対するペルソナの影響は広く研究されていますが、パフォーマンスへの直接的な影響は不確実なままです。
この作業では、ペルソナベースのプロンプトに代わるロールベクターを介してLLMの動作を導くための新しいアプローチを探ります。
モデルのアクティベーションから派生した29の役割ベクトルを構築し、複数のドメインにわたるベンチマークパフォーマンスへの影響を評価します。
分析では、これらのベクトルがモデルをドメイン固有の専門知識に効果的に誘導できるかどうかを調査します。
2つの重要な介入を測定します。(i)役割固有の方向を強化する活性化の追加と(ii)それらを除去する方向アブレーション。
十分に確立されたベンチマークの結果は、実際にロールベクトルがモデルの動作に影響を与え、関連するドメインのタスクパフォ​​ーマンスを改善しながら、無関係なタスクにわずかに影響することを示しています。
これは、内部モデルの表現を操作することが、ペルソナベースのプロンプトよりも結果に大きな影響を与えることを示唆しています。

要約(オリジナル)

The influence of personas on Large Language Models (LLMs) has been widely studied, yet their direct impact on performance remains uncertain. This work explores a novel approach to guiding LLM behaviour through role vectors, an alternative to persona-based prompting. We construct 29 role vectors derived from model activations and evaluate their impact on benchmark performance across multiple domains. Our analysis investigates whether these vectors can effectively steer models toward domain-specific expertise. We measure two key interventions: (i) activation addition, which reinforces role-specific directions, and (ii) directional ablation, which removes them. Results on well-established benchmarks indicate that role vectors do, in fact, influence model behaviour, improving task performance in relevant domains while marginally affecting unrelated tasks. This, in turn, suggests that manipulating internal model representations has a greater impact on outcomes than persona-based prompting.

arxiv情報

著者 Daniele Potertì,Andrea Seveso,Fabio Mercorio
発行日 2025-02-17 17:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Designing Role Vectors to Improve LLM Inference Behaviour はコメントを受け付けていません

Culture is Not Trivia: Sociocultural Theory for Cultural NLP

要約

文化的なNLPの分野は最近、言語技術が多元的なユーザーベース全体で効果的かつ安全であることを保証するための差し迫ったニーズに駆り立てられた急速な成長を経験しています。
この作品は、文化の共通の概念なしで大部分が進歩しており、代わりに幅広い文化的プロキシに頼ることを選択しています。
ただし、これは多くの繰り返し制限につながります。粗い国境の境界は、その中にある微妙な違いを捉えることができません。
文化が進化するにつれて変わらないでください。
このポジションペーパーでは、これらの方法論的な制限は理論的なギャップの症状であると主張します。
私たちは、社会文化的言語学からよく発達した文化理論を利用して、このギャップを1)ケーススタディで、方法論的制約とアフォーダンスをどのように明確にすることができるかを示します。
ローカライズは、文化的なNLPでの多くの現在の仕事の目標にとってより有用なフレーミングであると主張しています。

要約(オリジナル)

The field of cultural NLP has recently experienced rapid growth, driven by a pressing need to ensure that language technologies are effective and safe across a pluralistic user base. This work has largely progressed without a shared conception of culture, instead choosing to rely on a wide array of cultural proxies. However, this leads to a number of recurring limitations: coarse national boundaries fail to capture nuanced differences that lay within them, limited coverage restricts datasets to only a subset of usually highly-represented cultures, and a lack of dynamicity results in static cultural benchmarks that do not change as culture evolves. In this position paper, we argue that these methodological limitations are symptomatic of a theoretical gap. We draw on a well-developed theory of culture from sociocultural linguistics to fill this gap by 1) demonstrating in a case study how it can clarify methodological constraints and affordances, 2) offering theoretically-motivated paths forward to achieving cultural competence, and 3) arguing that localization is a more useful framing for the goals of much current work in cultural NLP.

arxiv情報

著者 Naitian Zhou,David Bamman,Isaac L. Bleaman
発行日 2025-02-17 17:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Culture is Not Trivia: Sociocultural Theory for Cultural NLP はコメントを受け付けていません

Formalizing Complex Mathematical Statements with LLMs: A Study on Mathematical Definitions

要約

彼らの言語能力のおかげで、LLMSは、オートフォーマル化を通じて、非公式の数学と正式な言語のギャップを埋める機会を提供します。
ただし、LLMSが洗練された自然に発生する数学的なステートメントにどれだけよく一般化するかはまだ不明です。
このギャップに対処するために、現実世界の数学的定義を自動占領するタスク、つまり数学的談話の重要な要素を調査します。
具体的には、オートフォーマル化のための2つの新しいリソースを導入し、ウィキペディア(def_wiki)とarxivペーパー(def_arxiv)から定義を収集します。
次に、LLMSの範囲を体系的に評価し、定義をイザベル/ホルに形式化する能力を分析します。
さらに、プルーフアシスタントからの外部フィードバックを介した改良を含むLLMSのパフォーマンスを強化する戦略を調査し、正式な数学ライブラリから関連するコンテキスト要素を介してLLMを導く正式な定義の基礎を調査します。
私たちの調査結果は、MINIF2Fなどの既存のベンチマークと比較して、定義がより大きな課題を提示することを明らかにしています。
特に、LLMは依然として自己修正に苦労しており、関連する数学ライブラリと協力することがわかりました。
同時に、構造化された改良方法と定義の接地戦略により、自己修正能力が最大16%、未定義のエラーの減少が43%の顕著な改善が得られ、実際のシナリオでのLLMベースの自己体系化を強化するための有望な方向性が強調されています。

要約(オリジナル)

Thanks to their linguistic capabilities, LLMs offer an opportunity to bridge the gap between informal mathematics and formal languages through autoformalization. However, it is still unclear how well LLMs generalize to sophisticated and naturally occurring mathematical statements. To address this gap, we investigate the task of autoformalizing real-world mathematical definitions — a critical component of mathematical discourse. Specifically, we introduce two novel resources for autoformalisation, collecting definitions from Wikipedia (Def_Wiki) and arXiv papers (Def_ArXiv). We then systematically evaluate a range of LLMs, analyzing their ability to formalize definitions into Isabelle/HOL. Furthermore, we investigate strategies to enhance LLMs’ performance including refinement through external feedback from Proof Assistants, and formal definition grounding, where we guide LLMs through relevant contextual elements from formal mathematical libraries. Our findings reveal that definitions present a greater challenge compared to existing benchmarks, such as miniF2F. In particular, we found that LLMs still struggle with self-correction, and aligning with relevant mathematical libraries. At the same time, structured refinement methods and definition grounding strategies yield notable improvements of up to 16% on self-correction capabilities and 43% on the reduction of undefined errors, highlighting promising directions for enhancing LLM-based autoformalization in real-world scenarios.

arxiv情報

著者 Lan Zhang,Marco Valentino,Andre Freitas
発行日 2025-02-17 17:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL | Formalizing Complex Mathematical Statements with LLMs: A Study on Mathematical Definitions はコメントを受け付けていません

Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation

要約

ソーシャルメディアは、トレンドのトピックとの動的なユーザーエンゲージメントを可能にし、最近の研究では、応答生成のための大規模な言語モデル(LLM)の可能性を調査しました。
一部の研究では、ソーシャルメディアでユーザーの行動をシミュレートするためのエージェントとしてLLMSを調査していますが、LLMが人間の行動とどの程度うまく調整されるかをより深く理解するのではなく、実用的な実行可能性とスケーラビリティに焦点を当てています。
このペーパーでは、アクションガイド付き応答生成を通じてソーシャルメディアのエンゲージメントをシミュレートするLLMSの能力を分析します。モデルは、予測アクションに条件付けられたパーソナライズされた応答を生成する前に、ユーザーのエンゲージメントアクションリトウィート、引用、または書き換えのトレンド投稿を最初に予測します。

ソーシャルメディアエンゲージメントシミュレーションでXで議論されている主要な社会的イベントに関するGPT-4O-MINI、O1-MINI、およびDEEPSEEK-R1をベンチマークします。
限られた例でLLMSの予測精度を分解します。
ただし、応答生成では、少数のショットLLMがグラウンドトゥルースポストとの強いセマンティックアライメントを実現します。

要約(オリジナル)

Social media enables dynamic user engagement with trending topics, and recent research has explored the potential of large language models (LLMs) for response generation. While some studies investigate LLMs as agents for simulating user behavior on social media, their focus remains on practical viability and scalability rather than a deeper understanding of how well LLM aligns with human behavior. This paper analyzes LLMs’ ability to simulate social media engagement through action guided response generation, where a model first predicts a user’s most likely engagement action-retweet, quote, or rewrite-towards a trending post before generating a personalized response conditioned on the predicted action. We benchmark GPT-4o-mini, O1-mini, and DeepSeek-R1 in social media engagement simulation regarding a major societal event discussed on X. Our findings reveal that zero-shot LLMs underperform BERT in action prediction, while few-shot prompting initially degrades the prediction accuracy of LLMs with limited examples. However, in response generation, few-shot LLMs achieve stronger semantic alignment with ground truth posts.

arxiv情報

著者 Zhongyi Qiu,Hanjia Lyu,Wei Xiong,Jiebo Luo
発行日 2025-02-17 17:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation はコメントを受け付けていません

AdaSplash: Adaptive Sparse Flash Attention

要約

トランスのソフトマックスベースの注意の計算コストは​​、長期コンテストタスクへの適用性を制限します。
$ \ alpha $ -Entmaxの注意は例ですが、柔軟なデータ依存の代替品を提供しますが、既存の実装は非効率的であり、スパースを活用してランタイムとメモリのゲインを得ることはありません。
この作業では、GPU最適化されたアルゴリズムの効率と$ \ alpha $ -Entmaxのスパースの利点を組み合わせたAdasplashを提案します。
最初にハイブリッドハレー二等分アルゴリズムを導入し、$ \ alpha $ -Entmax変換を計算するために必要な反復回数が7倍減少しました。
次に、カスタムトリトンカーネルを実装して、適応性のあるスパースを効率的に処理します。
テキスト分類および単一ベクトル検索のためのRobertaおよびModernBertとの実験と、言語モデリングのGPT-2とともに、既存の$ \ Alpha $ -EntMaxの実装と比較して、ランタイムとメモリ効率の大幅な改善が達成されることを示しています。
Flashattention-2などの高度に最適化されたSoftMax実装の効率に近づき、場合によっては上回り、タスクのパフォーマンスを強化しながら長いコンテキストトレーニングを可能にします。

要約(オリジナル)

The computational cost of softmax-based attention in transformers limits their applicability to long-context tasks. Adaptive sparsity, of which $\alpha$-entmax attention is an example, offers a flexible data-dependent alternative, but existing implementations are inefficient and do not leverage the sparsity to obtain runtime and memory gains. In this work, we propose AdaSplash, which combines the efficiency of GPU-optimized algorithms with the sparsity benefits of $\alpha$-entmax. We first introduce a hybrid Halley-bisection algorithm, resulting in a 7-fold reduction in the number of iterations needed to compute the $\alpha$-entmax transformation. Then, we implement custom Triton kernels to efficiently handle adaptive sparsity. Experiments with RoBERTa and ModernBERT for text classification and single-vector retrieval, along with GPT-2 for language modeling, show that our method achieves substantial improvements in runtime and memory efficiency compared to existing $\alpha$-entmax implementations. It approaches — and in some cases surpasses — the efficiency of highly optimized softmax implementations like FlashAttention-2, enabling long-context training while maintaining strong task performance.

arxiv情報

著者 Nuno Gonçalves,Marcos Treviso,André F. T. Martins
発行日 2025-02-17 17:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AdaSplash: Adaptive Sparse Flash Attention はコメントを受け付けていません

VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

要約

一致する手がかりを視覚的にリンクすることは、自分の手がかりに基づいて複数の写真で同じ人を識別するなど、日常生活において重要な能力です。
ビジョン言語モデル(VLM)が持っている広範な知識にもかかわらず、この基本的なタスクを実行できるかどうかは、ほとんど説明されていません。
これに対処するために、VLMが一致するキューを視覚的にリンクできるかどうかを評価できるベンチマークであるVLM $^2 $ -Benchを導入します。
8つのオープンソースVLMSとGPT-4Oにわたる包括的な評価、およびさまざまな言語側およびビジョン側のプロンプトメソッドのさらなる分析により、合計8つの重要な調査結果が発生します。
視覚的な手がかりをリンクするモデルの能力における重要な課題を特定し、GPT-4Oでさえ人間に34.80%遅れている重要なパフォーマンスギャップを強調しています。
これらの洞察に基づいて、(i)適応性を向上させ、事前知識への依存を減らすためのコア視覚能力の向上、(ii)不必要なバイアスを防ぐために視覚中心のタスクに言語ベースの推論を統合するためのより明確な原則を確立することを提唱します。
)視覚的な手がかりの間の関係を独立して構築し、推測するモデルの能力を促進するためのビジョンテキストトレーニングパラダイムをシフトするパラダイム。

要約(オリジナル)

Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM$^2$-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models’ ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models’ ability to independently structure and infer relationships among visual cues.

arxiv情報

著者 Jianshu Zhang,Dongyu Yao,Renjie Pi,Paul Pu Liang,Yi R.,Fung
発行日 2025-02-17 17:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues はコメントを受け付けていません

APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs

要約

大規模な言語モデル(LLM)アプリケーションを進めるためには、長いコンテキストの推論が重要ですが、そのPrefill速度は依然として重要なボトルネックのままです。
シーケンス並列性戦略や近似の注意メカニズムを介した計算削減などの現在のアプローチは、最適な推論効率を提供することに依然として不足しています。
これにより、入力をより長いシーケンスにスケーリングし、タイムリーに長いコンテキストクエリを処理できます。
これに対処するために、マルチホストのおおよその注意をレバレバルする効率的な長いコンテキスト推論フレームワークであるAPBを紹介します。
APBは、シーケンス並列性フレームワーク内で重要なキー価値ペアの通信メカニズムを導入し、タスクのパフォーマンスを維持しながらより速い推論速度を可能にします。
最適化された分布戦略とともにテーラードFlashAttNカーネルを組み込んでAPBを実装し、多様なモデルと並列性構成をサポートします。
APBは、観察可能なタスクパフォ​​ーマンスの低下なしに、それぞれFlashattn、Ringattn、およびStarattnと比較して、最大9.2x、4.2x、および1.6xのスピードアップを達成します。
https://github.com/thunlp/apbでAPBの実装および実験コードを提供します。

要約(オリジナル)

While long-context inference is crucial for advancing large language model (LLM) applications, its prefill speed remains a significant bottleneck. Current approaches, including sequence parallelism strategies and compute reduction through approximate attention mechanisms, still fall short of delivering optimal inference efficiency. This hinders scaling the inputs to longer sequences and processing long-context queries in a timely manner. To address this, we introduce APB, an efficient long-context inference framework that leverages multi-host approximate attention to enhance prefill speed by reducing compute and enhancing parallelism simultaneously. APB introduces a communication mechanism for essential key-value pairs within a sequence parallelism framework, enabling a faster inference speed while maintaining task performance. We implement APB by incorporating a tailored FlashAttn kernel alongside optimized distribution strategies, supporting diverse models and parallelism configurations. APB achieves speedups of up to 9.2x, 4.2x, and 1.6x compared with FlashAttn, RingAttn, and StarAttn, respectively, without any observable task performance degradation. We provide the implementation and experiment code of APB in https://github.com/thunlp/APB.

arxiv情報

著者 Yuxiang Huang,Mingye Li,Xu Han,Chaojun Xiao,Weilin Zhao,Sun Ao,Hao Zhou,Jie Zhou,Zhiyuan Liu,Maosong Sun
発行日 2025-02-17 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs はコメントを受け付けていません

BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data

要約

この作業では、現実的な人格特性をLLMに埋め込むという課題に取り組みます。
以前のアプローチは、主に、リアリズムと妥当性の問題に苦しんでいる、望ましい人格特性に関連する行動を説明する迅速な方法に焦点を当ててきました。
これらの制限に対処するために、人間が言語で性格を表現する方法のモデルを接地するために設計された100,000の対話を含む大規模なデータセットであるBig5-chatを紹介します。
このデータセットを活用して、トレーニングベースの方法として、監督された微調整と直接優先嗜好の最適化を、LLMSをより自然に人間の性格パターンとより自然に整列させることを探ります。
私たちの方法は、BFIやIPIP-Neoなどの人格評価を促すよりも優れており、特性相関は人間のデータに密接に一致しています。
さらに、我々の実験は、より高い良心性、より高い同意性、より低い外向性、および低い神経症を示すように訓練されたモデルが推論タスクのパフォーマンスを改善し、これらの特性が人間の認知パフォーマンスにどのように影響するかについての心理的な発見と協力することを明らかにしています。
私たちの知る限り、この作品は、トレーニングベースの方法が実際の人間の行動から学ぶことでLLMの人格をどのように形成できるかを示す最初の包括的な研究です。

要約(オリジナル)

In this work, we tackle the challenge of embedding realistic human personality traits into LLMs. Previous approaches have primarily focused on prompt-based methods that describe the behavior associated with the desired personality traits, suffering from realism and validity issues. To address these limitations, we introduce BIG5-CHAT, a large-scale dataset containing 100,000 dialogues designed to ground models in how humans express their personality in language. Leveraging this dataset, we explore Supervised Fine-Tuning and Direct Preference Optimization as training-based methods to align LLMs more naturally with human personality patterns. Our methods outperform prompting on personality assessments such as BFI and IPIP-NEO, with trait correlations more closely matching human data. Furthermore, our experiments reveal that models trained to exhibit higher conscientiousness, higher agreeableness, lower extraversion, and lower neuroticism display better performance on reasoning tasks, aligning with psychological findings on how these traits impact human cognitive performance. To our knowledge, this work is the first comprehensive study to demonstrate how training-based methods can shape LLM personalities through learning from real human behaviors.

arxiv情報

著者 Wenkai Li,Jiarui Liu,Andy Liu,Xuhui Zhou,Mona Diab,Maarten Sap
発行日 2025-02-17 18:05:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data はコメントを受け付けていません