DEPT: Decoupled Embeddings for Pre-training Language Models

要約

言語モデルのプリトレーニングでは、幅広いデータ混合物を使用して、ドメインと言語間のパフォーマンスを向上させます。
ただし、このような不均一なテキストコーパスのトレーニングには、広範で高価な努力が必要です。
これらのデータソースは語彙、構文、およびセマンティックの側面では大幅に異なるため、負の干渉または「多言語性の呪い」を引き起こします。
これらの課題に対処するために、私たちはコミュニケーション効率の良い事前訓練フレームワークであるDeptを提案します。
私たちの方法は、変圧器の本体からの埋め込みを切り離し、同時に共有の語彙を必要とせずに複数のデータソースで後者をトレーニングします。
(1)重要なデータの不均一性の下で堅牢かつ効果的に訓練すること、(2)データソースの語彙が必要とするものにトークンの埋め込みパラメーターを最小限に抑え、通信頻度とパラメーターの削減の両方に直接比例して通信コストを削減します。
データソースごとの語彙。
私たちは、10億個のスケールモデルの最初の語彙に依存しない連合前訓練を介して部門の可能性を示し、コミュニケーションコストを桁違いに削減し、記憶を4-5倍に埋め込みます。

要約(オリジナル)

Language Model pre-training uses broad data mixtures to enhance performance across domains and languages. However, training on such heterogeneous text corpora requires extensive and expensive efforts. Since these data sources vary significantly in lexical, syntactic, and semantic aspects, they cause negative interference or the “curse of multilinguality”. To address these challenges we propose a communication-efficient pre-training framework, DEPT. Our method decouples embeddings from the transformer body while simultaneously training the latter on multiple data sources without requiring a shared vocabulary. DEPT can: (1) train robustly and effectively under significant data heterogeneity, (2) minimize token embedding parameters to only what the data source vocabulary requires, while cutting communication costs in direct proportion to both the communication frequency and the reduction in parameters, (3) enhance transformer body plasticity and generalization, improving both average perplexity (up to 20%) and downstream task performance, and (4) enable training with custom optimized vocabularies per data source. We demonstrate DEPT’s potential via the first vocabulary-agnostic federated pre-training of billion-scale models, reducing communication costs by orders of magnitude and embedding memory by 4-5x.

arxiv情報

著者 Alex Iacob,Lorenzo Sani,Meghdad Kurmanji,William F. Shen,Xinchi Qiu,Dongqi Cai,Yan Gao,Nicholas D. Lane
発行日 2025-04-07 14:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DEPT: Decoupled Embeddings for Pre-training Language Models はコメントを受け付けていません

RevisEval: Improving LLM-as-a-Judge via Response-Adapted References

要約

最近の研究で多大な努力を払って、LLM-As-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-a-reaseは、幅広いタスクでテキスト生成の品質を評価するための人間の評価に代わる代替手段になりました。
ただし、LLM-As-a-Judgeと人間の評価の間には、依然として信頼性のギャップが残っています。
重要な理由の1つは、評価プロセスにガイド付きオラクルがないことです。
古典的なテキスト評価で使用される参照の役割に動機付けられ、応答に適応した参照を介して新しいテキスト生成評価パラダイムであるRevisevalを紹介します。
Revisevalは、理想的な参照が評価される応答と必要な関連性を維持する必要があるという重要な観察によって推進されています。
具体的には、Revisevalは、大規模な言語モデル(LLM)のテキスト改訂機能を活用して、応答を適応的に修正し、その後の評価のために改訂されたテキストを参照(応答適用参照)として扱います。
広範な実験は、Revisevalが、NLGタスクと自由回答形式の命令に従うタスク全体でLLM-A-A-Judgeを使用する従来の参照ベースの評価パラダイムよりも優れていることを示しています。
さらに重要なことは、私たちの応答に適応した参照は、従来の参照と比較して、ブルーやバートスコアなどの古典的なテキストメトリックをさらに高めることができ、LLM-as-a-judgeに匹敵することです。
また、バイアス削減、推論コストの影響、および参照関連性における改訂版の有効性を確認するために、詳細な分析も実施されます。

要約(オリジナル)

With significant efforts in recent studies, LLM-as-a-Judge has become a cost-effective alternative to human evaluation for assessing text generation quality in a wide range of tasks. However, there still remains a reliability gap between LLM-as-a-Judge and human evaluation. One important reason is the lack of guided oracles in the evaluation process. Motivated by the role of reference pervasively used in classic text evaluation, we introduce RevisEval, a novel text generation evaluation paradigm via the response-adapted references. RevisEval is driven by the key observation that an ideal reference should maintain the necessary relevance to the response to be evaluated. Specifically, RevisEval leverages the text revision capabilities of large language models (LLMs) to adaptively revise the response, then treat the revised text as the reference (response-adapted reference) for the subsequent evaluation. Extensive experiments demonstrate that RevisEval outperforms traditional reference-free and reference-based evaluation paradigms that use LLM-as-a-Judge across NLG tasks and open-ended instruction-following tasks. More importantly, our response-adapted references can further boost the classical text metrics, e.g., BLEU and BERTScore, compared to traditional references and even rival the LLM-as-a-Judge. A detailed analysis is also conducted to confirm RevisEval’s effectiveness in bias reduction, the impact of inference cost, and reference relevance.

arxiv情報

著者 Qiyuan Zhang,Yufei Wang,Tiezheng YU,Yuxin Jiang,Chuhan Wu,Liangyou Li,Yasheng Wang,Xin Jiang,Lifeng Shang,Ruiming Tang,Fuyuan Lyu,Chen Ma
発行日 2025-04-07 14:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RevisEval: Improving LLM-as-a-Judge via Response-Adapted References はコメントを受け付けていません

CARE: Aligning Language Models for Regional Cultural Awareness

要約

既存の言語モデル(LMS)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表すために苦労します。
これに対処するための以前の試みは、合成データに依存し、英語でのみ文化的知識を表現しています。
この作業では、少量の人間が書かれた多言語の文化的選好データが、さまざまなモデルファミリやサイズでLMSを改善できるかどうかを調べます。
最初に、中国とアラブの文化に関する2,580の質問で人間の好みを伴う24.1kの回答の多言語リソースであるケアを紹介します。
ケアを使用して、文化的整合により、一般的な能力を損なうことなく、一般的なリソースを超えて既存のLMSが改善されることを実証します。
さらに、LMS、ネイティブスピーカー、およびさまざまな言語で照会されたときにWebコンテンツを取得した文化的認識を評価します。
私たちの実験は、LMS間の地域の格差を明らかにしています。これは文書化のギャップにも反映されている可能性があります。ネイティブスピーカーは、多くの場合、日常の文化的常識と社会的規範を当然のことと考えていますが、非ネイティブはそれらを積極的に探し出し、文書化する可能性が高くなります。
ケアはhttps://github.com/guochry/careで公開されています(近い将来、日本のデータを追加する予定です)。

要約(オリジナル)

Existing language models (LMs) often exhibit a Western-centric bias and struggle to represent diverse cultural knowledge. Previous attempts to address this rely on synthetic data and express cultural knowledge only in English. In this work, we study whether a small amount of human-written, multilingual cultural preference data can improve LMs across various model families and sizes. We first introduce CARE, a multilingual resource of 24.1k responses with human preferences on 2,580 questions about Chinese and Arab cultures, all carefully annotated by native speakers and offering more balanced coverage. Using CARE, we demonstrate that cultural alignment improves existing LMs beyond generic resources without compromising general capabilities. Moreover, we evaluate the cultural awareness of LMs, native speakers, and retrieved web content when queried in different languages. Our experiment reveals regional disparities among LMs, which may also be reflected in the documentation gap: native speakers often take everyday cultural commonsense and social norms for granted, while non-natives are more likely to actively seek out and document them. CARE is publicly available at https://github.com/Guochry/CARE (we plan to add Japanese data in the near future).

arxiv情報

著者 Geyang Guo,Tarek Naous,Hiromi Wakaki,Yukiko Nishimura,Yuki Mitsufuji,Alan Ritter,Wei Xu
発行日 2025-04-07 14:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CARE: Aligning Language Models for Regional Cultural Awareness はコメントを受け付けていません

Concise Reasoning via Reinforcement Learning

要約

大規模な言語モデル(LLMS)の大幅な進歩にもかかわらず、推論モデルの主要な欠点は、計算コスト、リソース要件、および応答時間を増やす膨大なトークン使用です。
この作業では、強化学習(RL)の核となる原則を再検討し、数学的分析を通じて、トレーニング中のRLベースの最適化から本質的に長い応答を生成する傾向が生じることを示しています。
この発見は、より長い応答が本質的に推論の正確性を改善するという一般的な仮定に疑問を呈しています。
代わりに、見落とされがちな簡潔さと精度の間の自然な相関関係を明らかにします。
さらに、小さな問題と限られたリソースを使用して、トレーニング後のRLの二次段階を導入すると、精度を維持したり、強化したりしながら、モデルの思考チェーンを大幅に減らすことができることを示しています。
最後に、広範な実験結果を通じて結論を検証します。

要約(オリジナル)

Despite significant advancements in large language models (LLMs), a major drawback of reasoning models is their enormous token usage, which increases computational cost, resource requirements, and response time. In this work, we revisit the core principles of reinforcement learning (RL) and, through mathematical analysis, demonstrate that the tendency to generate lengthy responses arises inherently from RL-based optimization during training. This finding questions the prevailing assumption that longer responses inherently improve reasoning accuracy. Instead, we uncover a natural correlation between conciseness and accuracy that has been largely overlooked. Moreover, we show that introducing a secondary phase of RL post-training, using a small set of problems and limited resources, can significantly reduce a model’s chain of thought while maintaining or even enhancing accuracy. Finally, we validate our conclusions through extensive experimental results.

arxiv情報

著者 Mehdi Fatemi,Banafsheh Rafiee,Mingjie Tang,Kartik Talamadupula
発行日 2025-04-07 15:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Concise Reasoning via Reinforcement Learning はコメントを受け付けていません

GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

要約

大規模な言語モデル(LLMS)の有効性は、プロンプトの設計と密接に結びついているため、幅広いタスクでパフォーマンスを向上させるためにプロンプ​​トの最適化が不可欠です。
迅速なエンジニアリングを自動化するための多くの既存のアプローチは、テキストフィードバックのみに依存しており、大規模で計算上の高価なLLMによって特定された推論エラーのみに基づいてプロンプトを改良しています。
残念ながら、小規模なモデルは高品質のフィードバックを生成するのに苦労しており、大規模なLLM判断に完全に依存しています。
さらに、これらの方法は、純粋にテキスト空間で動作するため、グラデーションなど、より直接的で細かい粒度の高い情報を活用できません。
この目的のために、タスク固有の推論よりも勾配情報を直接組み込む新しい迅速な最適化手法であるGreaterを紹介します。
タスクロスグラデーションを利用することにより、コストのかかるクローズドソースLLMSを必要とせずに、オープンソースの軽量言語モデルのプロンプトの自己最適化を可能にします。
これにより、大規模なLLMSに依存せずに高性能の迅速な最適化が可能になり、小規模なモデルと迅速な改良に必要な洗練された推論とのギャップを埋めます。
BBH、GSM8K、Folioを含む多様な推論タスク全体の広範な評価は、強力なLLMSに依存しているものでさえ、以前の最先端の最適化方法よりも一貫してより大きなパフォーマンスを上回ることを示しています。
さらに、最適化されたプロンプトは頻繁に転送可能性が向上し、場合によっては、より大きな言語モデルに匹敵するまたは達成されたレベルを上回るレベルにタスクのパフォーマンスを高め、推論上のグラデーションによってガイドされる迅速な最適化の有効性を強調します。
Code of Greateはhttps://github.com/psunlpgroup/greaterで入手できます。

要約(オリジナル)

The effectiveness of large language models (LLMs) is closely tied to the design of prompts, making prompt optimization essential for enhancing their performance across a wide range of tasks. Many existing approaches to automating prompt engineering rely exclusively on textual feedback, refining prompts based solely on inference errors identified by large, computationally expensive LLMs. Unfortunately, smaller models struggle to generate high-quality feedback, resulting in complete dependence on large LLM judgment. Moreover, these methods fail to leverage more direct and finer-grained information, such as gradients, due to operating purely in text space. To this end, we introduce GReaTer, a novel prompt optimization technique that directly incorporates gradient information over task-specific reasoning. By utilizing task loss gradients, GReaTer enables self-optimization of prompts for open-source, lightweight language models without the need for costly closed-source LLMs. This allows high-performance prompt optimization without dependence on massive LLMs, closing the gap between smaller models and the sophisticated reasoning often needed for prompt refinement. Extensive evaluations across diverse reasoning tasks including BBH, GSM8k, and FOLIO demonstrate that GReaTer consistently outperforms previous state-of-the-art prompt optimization methods, even those reliant on powerful LLMs. Additionally, GReaTer-optimized prompts frequently exhibit better transferability and, in some cases, boost task performance to levels comparable to or surpassing those achieved by larger language models, highlighting the effectiveness of prompt optimization guided by gradients over reasoning. Code of GReaTer is available at https://github.com/psunlpgroup/GreaTer.

arxiv情報

著者 Sarkar Snigdha Sarathi Das,Ryo Kamoi,Bo Pang,Yusen Zhang,Caiming Xiong,Rui Zhang
発行日 2025-04-07 15:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers はコメントを受け付けていません

Graph-Based Multimodal Contrastive Learning for Chart Question Answering

要約

チャート質問応答(Chartqa)は、チャート要素の不均一な構成とそれらがエンコードする微妙なデータパターンによって挑戦されます。
この作業では、チャートコンポーネントとその基礎となる構造間の関係を明示的にモデル化する新しいジョイントマルチモーダルシーングラフフレームワークを紹介します。
フレームワークは、視覚的グラフとテキストグラフの両方を統合して構造的特性とセマンティック特性をキャプチャしますが、グラフのコントラスト学習戦略は、モダリティ全体にノード表現を調整し、シームレスな組み込みをソフトプロンプトとして変圧器デコーダーに整列させます。
さらに、幻覚を緩和することにより、ゼロ-S OTシナリオでマルチモーダル大手言語モデル(MLLM)を強化するために、一連のテーラード思考チェーン(COT)プロンプトが提案されています。
Chartqa、Opencqa、Chartxなどのベンチマークに関する広範な評価は、大幅なパフォーマンスの改善を実証し、提案されたアプローチの有効性を検証します。

要約(オリジナル)

Chart question answering (ChartQA) is challenged by the heterogeneous composition of chart elements and the subtle data patterns they encode. This work introduces a novel joint multimodal scene graph framework that explicitly models the relationships among chart components and their underlying structures. The framework integrates both visual and textual graphs to capture structural and semantic characteristics, while a graph contrastive learning strategy aligns node representations across modalities enabling their seamless incorporation into a transformer decoder as soft prompts. Moreover, a set of tailored Chain of Thought (CoT) prompts is proposed to enhance multimodal large language models (MLLMs) in zero-s ot scenarios by mitigating hallucinations. Extensive evaluations on benchmarks including ChartQA, OpenCQA, and ChartX demonstrate significant performance improvements and validate the efficacy of the proposed approach.

arxiv情報

著者 Yue Dai,Soyeon Caren Han,Wei Liu
発行日 2025-04-07 15:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Graph-Based Multimodal Contrastive Learning for Chart Question Answering はコメントを受け付けていません

Exploiting individual differences to bootstrap communication

要約

信号の意図された意味は、最初に生成されたときに受信機に不明であるため、通信システムを確立することは困難であり、Signallerはその信号がどのように解釈されるかもわかりません。
通信システムの出現に関するほとんどの理論的説明は、過去に成功したコミュニケーションにつながった行動を強化するためにフィードバックに依存しています。
ただし、そのようなフィードバックを提供するには、意図された、または解釈された意味を既に伝えることができます。
したがって、これらのアカウントは、コミュニケーションが非コミュニケーション行動からどのようにブートストラップできるかを説明することはできません。
ここでは、コミュニケーションの成功を判断するための既存の手段なしで、大規模な集団の個々の行動の違いの結果として、無制限の数の意味を表現できる通信システムがどのように出現できるかを示すモデルを提示します。
この結果に責任を負う2つの重要な認知能力は、特定の状況で予測的に振る舞い、共有された意図性に由来する信号生産に先立って心理的状態の整合性です。
両方の能力がコミュニケーションとは独立して存在する可能性があるため、私たちの結果は、言語のような大規模な柔軟な社会的に学習したコミュニケーションシステムが、一般的なが、社会的認知のための十分に発達した能力の産物である理論と互換性があります。

要約(オリジナル)

Establishing a communication system is hard because the intended meaning of a signal is unknown to its receiver when first produced, and the signaller also has no idea how that signal will be interpreted. Most theoretical accounts of the emergence of communication systems rely on feedback to reinforce behaviours that have led to successful communication in the past. However, providing such feedback requires already being able to communicate the meaning that was intended or interpreted. Therefore these accounts cannot explain how communication can be bootstrapped from non-communicative behaviours. Here we present a model that shows how a communication system, capable of expressing an unbounded number of meanings, can emerge as a result of individual behavioural differences in a large population without any pre-existing means to determine communicative success. The two key cognitive capabilities responsible for this outcome are behaving predictably in a given situation, and an alignment of psychological states ahead of signal production that derives from shared intentionality. Since both capabilities can exist independently of communication, our results are compatible with theories in which large flexible socially-learned communication systems like language are the product of a general but well-developed capacity for social cognition.

arxiv情報

著者 Richard A. Blythe,Casimir Fisch
発行日 2025-04-07 15:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.soc-ph, q-bio.PE | Exploiting individual differences to bootstrap communication はコメントを受け付けていません

Post-Training Language Models for Continual Relation Extraction

要約

ニュース記事、ソーシャルメディアの投稿、チャットボットの会話などの実際のデータは、本質的に動的で非定常であり、知識グラフ(KG)を介してリアルタイム構造表現を構築するための重要な課題を提示します。
KG作成の基本的なコンポーネントである関係抽出(RE)は、従来のモデルが静的で時代遅れのデータセットに依存している場合に進化するデータに適応するのに苦労しています。
継続的な関係抽出(CRE)メソッドは、以前に獲得した知識を維持しながら、新しい関係を徐々に学習することにより、この問題に取り組みます。
この研究では、事前に訓練された言語モデル(PLMS)、特に大規模な言語モデル(LLM)の適用をCREに調査し、壊滅的な忘却に対処するためのメモリリプレイを活用することに焦点を当てています。
TACREDおよび少数のデータセットで、デコーダーのみのモデル(Mistral-7BおよびLlama2-7bなど)とエンコーダデコーダーモデル(Flan-T5ベース)を評価します。
LLMSのタスクインクリメンタル微調整は、特にミストラルおよびFLAN-T5モデルで、見かけタスクの精度と全体的なパフォーマンス(全体の平均精度で測定)に優れている、TACREDのBertなどのエンコーダのみのモデルを使用して、以前のアプローチよりも優れたパフォーマンスを示します。
少数の結果は同様に有望であり、全体と平均精度メトリックで2位を達成しています。
この作業は、知識移転、言語モデルアーキテクチャ、およびKGの完全性における重要な要因を強調し、LLMとリアルタイムの関係抽出のためのLLMとメモリリプレイでCREを前進させます。

要約(オリジナル)

Real-world data, such as news articles, social media posts, and chatbot conversations, is inherently dynamic and non-stationary, presenting significant challenges for constructing real-time structured representations through knowledge graphs (KGs). Relation Extraction (RE), a fundamental component of KG creation, often struggles to adapt to evolving data when traditional models rely on static, outdated datasets. Continual Relation Extraction (CRE) methods tackle this issue by incrementally learning new relations while preserving previously acquired knowledge. This study investigates the application of pre-trained language models (PLMs), specifically large language models (LLMs), to CRE, with a focus on leveraging memory replay to address catastrophic forgetting. We evaluate decoder-only models (eg, Mistral-7B and Llama2-7B) and encoder-decoder models (eg, Flan-T5 Base) on the TACRED and FewRel datasets. Task-incremental fine-tuning of LLMs demonstrates superior performance over earlier approaches using encoder-only models like BERT on TACRED, excelling in seen-task accuracy and overall performance (measured by whole and average accuracy), particularly with the Mistral and Flan-T5 models. Results on FewRel are similarly promising, achieving second place in whole and average accuracy metrics. This work underscores critical factors in knowledge transfer, language model architecture, and KG completeness, advancing CRE with LLMs and memory replay for dynamic, real-time relation extraction.

arxiv情報

著者 Sefika Efeoglu,Adrian Paschke,Sonja Schimmler
発行日 2025-04-07 16:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Post-Training Language Models for Continual Relation Extraction はコメントを受け付けていません

Proposing TAGbank as a Corpus of Tree-Adjoining Grammar Derivations

要約

語彙化された文法、特に樹木を吸収する文法(TAG)の開発は、自然言語処理(NLP)における構文とセマンティクスの理解を大幅に進めました。
Penn TreebankやUniversal依存関係などの既存の構文リソースは、フレーズ構造と依存関係解析のための広範な注釈を提供しますが、語彙化文法形式に基づいた大規模なコーパラが不足しています。
このギャップに対処するために、既存の構文ツリーバンクから自動的に抽出されたタグ派生のコーパスであるTagBankを紹介します。
このペーパーでは、タグの導出をマッピングするための方法論の概要を説明します。タグ導入、タグの生成パワーを活用して、解析、文法誘導、セマンティック分析をサポートします。
私たちのアプローチは、CCGBANKの作業に基づいており、透明な派生ツリーや長距離依存性をキャプチャする能力など、タグの固有の構造特性を組み込むために拡張します。
また、抽出プロセスに伴う課題についても説明します。これには、ツリーバンクスキーム全体の一貫性の確保や言語固有の構文特異性への対処などがあります。
最後に、Tagbankの将来の拡張を提案して、Tagの形式主義の言語間アプリケーションを探求するために、Penn Korean and Penn Chinese Chinese Treebanksに焦点を当てた多言語のコーパラを含めます。
堅牢で派生ベースのリソースを提供することにより、TagBankは幅広い計算タスクをサポートし、Tagの生成能力の理論的理解に貢献することを目指しています。

要約(オリジナル)

The development of lexicalized grammars, particularly Tree-Adjoining Grammar (TAG), has significantly advanced our understanding of syntax and semantics in natural language processing (NLP). While existing syntactic resources like the Penn Treebank and Universal Dependencies offer extensive annotations for phrase-structure and dependency parsing, there is a lack of large-scale corpora grounded in lexicalized grammar formalisms. To address this gap, we introduce TAGbank, a corpus of TAG derivations automatically extracted from existing syntactic treebanks. This paper outlines a methodology for mapping phrase-structure annotations to TAG derivations, leveraging the generative power of TAG to support parsing, grammar induction, and semantic analysis. Our approach builds on the work of CCGbank, extending it to incorporate the unique structural properties of TAG, including its transparent derivation trees and its ability to capture long-distance dependencies. We also discuss the challenges involved in the extraction process, including ensuring consistency across treebank schemes and dealing with language-specific syntactic idiosyncrasies. Finally, we propose the future extension of TAGbank to include multilingual corpora, focusing on the Penn Korean and Penn Chinese Treebanks, to explore the cross-linguistic application of TAG’s formalism. By providing a robust, derivation-based resource, TAGbank aims to support a wide range of computational tasks and contribute to the theoretical understanding of TAG’s generative capacity.

arxiv情報

著者 Jungyeul Park
発行日 2025-04-07 16:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Proposing TAGbank as a Corpus of Tree-Adjoining Grammar Derivations はコメントを受け付けていません

NoveltyBench: Evaluating Creativity and Diversity in Language Models

要約

言語モデルは、標準のベンチマークで顕著な機能を実証していますが、モードの崩壊からますます苦労しており、多様で新しい出力を生成できません。
私たちの作品では、複数の異なる品質の出力を生成する言語モデルの能力を評価するために特別に設計されたベンチマークであるNebletyBenchを紹介します。
NebletyBenchは、キュレーションされたプロンプトを利用して、多様な回答とフィルタリングされた実際のユーザークエリを引き出します。
20の主要な言語モデルを評価すると、現在の最先端のシステムは、人間の作家よりも多様性が大幅に少ないことがわかります。
特に、家族内の大規模なモデルは、より小さなカウンターパートよりも多様性が少ないことが多く、標準ベンチマークの能力が生成ユーティリティに直接変換されるという概念に挑戦します。
コンテキスト内再生などの戦略を促すことは多様性を引き出すことができますが、私たちの調査結果は、現在のモデルの分布の多様性の根本的な欠如を強調し、さまざまな反応を求めているユーザーの有用性を減らし、品質とともに創造性を優先する新しいトレーニングと評価パラダイムの必要性を示唆しています。

要約(オリジナル)

Language models have demonstrated remarkable capabilities on standard benchmarks, yet they struggle increasingly from mode collapse, the inability to generate diverse and novel outputs. Our work introduces NoveltyBench, a benchmark specifically designed to evaluate the ability of language models to produce multiple distinct and high-quality outputs. NoveltyBench utilizes prompts curated to elicit diverse answers and filtered real-world user queries. Evaluating 20 leading language models, we find that current state-of-the-art systems generate significantly less diversity than human writers. Notably, larger models within a family often exhibit less diversity than their smaller counterparts, challenging the notion that capability on standard benchmarks translates directly to generative utility. While prompting strategies like in-context regeneration can elicit diversity, our findings highlight a fundamental lack of distributional diversity in current models, reducing their utility for users seeking varied responses and suggesting the need for new training and evaluation paradigms that prioritize creativity alongside quality.

arxiv情報

著者 Yiming Zhang,Harshita Diddee,Susan Holm,Hanchen Liu,Xinyue Liu,Vinay Samuel,Barry Wang,Daphne Ippolito
発行日 2025-04-07 16:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NoveltyBench: Evaluating Creativity and Diversity in Language Models はコメントを受け付けていません