CroissantLLM: A Truly Bilingual French-English Language Model

要約

3T英語とフランスのトークンのセットで前処理された1.3B言語モデルであるCroissantlllmを紹介し、研究と産業コミュニティに、消費者グレードのローカルハードウェアを迅速に実行する高性能で完全にオープンソースのバイリンガルモデルをもたらします。
そのために、1:1の英語とフランスの事前削除データ、カスタムトークネザー、バイリンガルの微調整データセットを使用して、本質的にバイリンガルモデルをトレーニングするアプローチを開拓します。
トレーニングデータセットをリリースします。特に、手動でキュレーションされた高品質でさまざまなデータソースを備えたフランスの分割が含まれています。
英語以外のパフォーマンスを評価するために、私たちは、フランス語のモデルパフォーマンスのさまざまな直交側面をカバーする、分類と生成のタスクの配列で構成される新しいベンチマークであるフレンチベンチを作成します。
さらに、透明性に根ざし、さらに大規模な言語モデルの研究を促進するために、さまざまなモデルサイズ、トレーニングデータ分布、トレーニングステップ、微調整されたチャットモデル、強力な翻訳モデルにわたってコードベースと数十のチェックポイントをリリースします。
FMTIフレームワークを通じてモデルを評価し、透明性基準の81%を検証します。これは、ほとんどのオープンイニシアチブのスコアをはるかに超えています。
この作品は、NLPの風景を豊かにし、言語モデルの多言語性の理解を強化するために、以前の英語中心の仕事から脱却します。

要約(オリジナル)

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.

arxiv情報

著者 Manuel Faysse,Patrick Fernandes,Nuno M. Guerreiro,António Loison,Duarte M. Alves,Caio Corro,Nicolas Boizard,João Alves,Ricardo Rei,Pedro H. Martins,Antoni Bigata Casademunt,François Yvon,André F. T. Martins,Gautier Viaud,Céline Hudelot,Pierre Colombo
発行日 2025-04-09 09:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | CroissantLLM: A Truly Bilingual French-English Language Model はコメントを受け付けていません

Synthetic News Generation for Fake News Classification

要約

この研究では、大規模な言語モデル(LLM)を使用した事実ベースの操作を通じて、合成偽ニュースの生成と評価を調査します。
実際の記事から重要な事実を抽出し、それらを変更し、コンテンツを再生して一貫性を維持しながら偽のニュースをシミュレートする新しい方法論を紹介します。
生成されたコンテンツの品質を評価するために、一連の評価メトリックの一貫性、非類似性、および正確性を提案します。
この研究では、偽のニュース分類における合成データの適用も調査し、従来の機械学習モデルとBertなどの変圧器ベースのモデルを比較しています。
私たちの実験は、変圧器モデル、特にBertが偽のニュース検出のために合成データを効果的に活用し、合成データの割合が少ない改善を示すことを示しています。
さらに、事実の矛盾を特定することに焦点を当てた事実検証機能は、合成偽のニュースを区別する最も有望な結果を提供します。
この研究は、偽のニュース検出システムを強化する合成データの可能性を強調し、将来の研究のための貴重な洞察を提供し、合成データ生成のターゲットを絞った改善が検出モデルをさらに強化できることを示唆しています。

要約(オリジナル)

This study explores the generation and evaluation of synthetic fake news through fact based manipulations using large language models (LLMs). We introduce a novel methodology that extracts key facts from real articles, modifies them, and regenerates content to simulate fake news while maintaining coherence. To assess the quality of the generated content, we propose a set of evaluation metrics coherence, dissimilarity, and correctness. The research also investigates the application of synthetic data in fake news classification, comparing traditional machine learning models with transformer based models such as BERT. Our experiments demonstrate that transformer models, especially BERT, effectively leverage synthetic data for fake news detection, showing improvements with smaller proportions of synthetic data. Additionally, we find that fact verification features, which focus on identifying factual inconsistencies, provide the most promising results in distinguishing synthetic fake news. The study highlights the potential of synthetic data to enhance fake news detection systems, offering valuable insights for future research and suggesting that targeted improvements in synthetic data generation can further strengthen detection models.

arxiv情報

著者 Abdul Sittar,Luka Golob,Mateja Smiljanic
発行日 2025-04-09 09:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Synthetic News Generation for Fake News Classification はコメントを受け付けていません

PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

要約

言語モデルのロールプレイング機能を評価するためのベンチマークを紹介します。
私たちのアプローチは、さまざまな言語モデルを活用して、動的でマルチターンの会話でユーザーをシミュレートし、結果の対話を評価します。
私たちの方法論には、特定の文字ロールを採用するプレーヤーモデル、特定の状況でのユーザーの行動をシミュレートする尋問モデル、およびキャラクターの一貫性、エンターテイメント価値、言語流ency性の3つのメトリックで会話の品質を評価する裁判官モデルのアンサンブル:3つの主要なコンポーネントが含まれます。
英語とロシア語の両方で40以上のモデルを評価し、各モデルは8文字と8文字の64の会話に参加しました。
自動化された評価を人間の注釈と比較して、アプローチを検証する実験を実施し、複数の基準にわたる強い相関関係を示しました。
この作業は、インタラクティブなシナリオにおけるさまざまなモデル機能の堅牢で動的な評価の基盤を提供します。

要約(オリジナル)

We introduce a benchmark for evaluating the role-playing capabilities of language models. Our approach leverages different language models to simulate users in dynamic, multi-turn conversations and assess the resulting dialogues. Our methodology involves three main components: a player model that adopts a specific character role, an interrogator model that simulates user behavior in a specific situation, and a judge model ensemble that evaluates conversation quality with 3 metrics: character consistency, entertainment value, and language fluency. We evaluated more than 40 models in both English and Russian, with each model participating in 64 conversations with 8 characters and 8 situations. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of different model capabilities in interactive scenarios.

arxiv情報

著者 Ilya Gusev
発行日 2025-04-09 10:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation はコメントを受け付けていません

Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry

要約

自然言語加工(NLP)の急速に進化する景観では、大量のテキストデータから貴重な洞察を抽出するなど、多くのタスクの強力なツールとして大規模な言語モデル(LLM)が浮上しています。
この調査では、TripAdvisorおよびRedditの投稿から旅行顧客のニーズを抽出するためのLLMの比較分析を実施します。
GPT-4やGeminiなどのオープンソースや独自のモデルの両方を含む多様なモデルを活用すると、この専門ドメインの長所と短所を解明することを目指しています。
Bertscore、Rouge、BLEUなどのメトリックを含む評価プロセスを通じて、顧客のニーズを正確に識別および要約する際に、各モデルのパフォーマンスを評価します。
私たちの調査結果は、手頃な価格とカスタマイズの利点を提供しながら、より大きなクローズドモデルに匹敵するパフォーマンスを達成する際に、OpenSource LLM、特にMistral 7Bの有効性を強調しています。
さらに、顧客ニーズ分析タスクに最適なLLMを選択する際に、モデルサイズ、リソース要件、パフォーマンスメトリックなどの要因を考慮することの重要性を強調します。
全体として、この研究は、高度なNLPテクニックを活用して、旅行業界の顧客体験を強化し、運用効率を高めることを目指している企業にとって貴重な洞察を提供しています。

要約(オリジナル)

In the rapidly evolving landscape of Natural Language Processing (NLP), Large Language Models (LLMs) have emerged as powerful tools for many tasks, such as extracting valuable insights from vast amounts of textual data. In this study, we conduct a comparative analysis of LLMs for the extraction of travel customer needs from TripAdvisor and Reddit posts. Leveraging a diverse range of models, including both open-source and proprietary ones such as GPT-4 and Gemini, we aim to elucidate their strengths and weaknesses in this specialized domain. Through an evaluation process involving metrics such as BERTScore, ROUGE, and BLEU, we assess the performance of each model in accurately identifying and summarizing customer needs. Our findings highlight the efficacy of opensource LLMs, particularly Mistral 7B, in achieving comparable performance to larger closed models while offering affordability and customization benefits. Additionally, we underscore the importance of considering factors such as model size, resource requirements, and performance metrics when selecting the most suitable LLM for customer needs analysis tasks. Overall, this study contributes valuable insights for businesses seeking to leverage advanced NLP techniques to enhance customer experience and drive operational efficiency in the travel industry.

arxiv情報

著者 Simone Barandoni,Filippo Chiarello,Lorenzo Cascone,Emiliano Marrale,Salvatore Puccio
発行日 2025-04-09 10:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry はコメントを受け付けていません

FamilyTool: A Multi-hop Personalized Tool Use Benchmark

要約

ツール学習を大規模な言語モデル(LLMS)と統合すると、外部ツールを活用することにより、複雑なタスクの処理に能力が拡大しました。
ただし、ツール学習のための既存のベンチマークは、重要な実世界のパーソナライズされたシナリオ、特に動的環境でのマルチホップ推論と帰納的知識適応を必要とするシナリオに対処しません。
このギャップを埋めるために、パーソナライズされたマルチホップツールの使用シナリオをシミュレートするファミリーベースの知識グラフ(kg)に基づいた新しいベンチマークであるFamilyToolを紹介します。
FamilyToolは、1〜3のリレーショナルホップ(例えば、家族のつながりや好みを推測する)にまたがるクエリでLLMSに挑戦し、モデルが目に見えないユーザーの好みや関係に適応しなければならない誘導KG設定を組み込みます。
さらに、Kgetoolを提案します。これらの設定でLLMSのツール使用能力を体系的に評価するための単純なKGの高等評価パイプライン。
実験により、最先端のLLMSの重大なパフォーマンスギャップが明らかになり、ホップの複雑さが増加すると精度が急激に低下し、誘導シナリオが重度の一般化障害を明らかにします。
これらの調査結果は、パーソナライズされた進化する実世界のコンテキストを処理する際の現在のLLMの限界を強調し、ツール学習フレームワークの進歩の緊急の必要性を強調しています。
FamilyToolは、複雑で動的な環境におけるLLMエージェントの推論、適応性、およびスケーラビリティを評価および前進させるための重要なリソースとして機能します。
コードとデータセットはGitHubで入手できます。

要約(オリジナル)

The integration of tool learning with Large Language Models (LLMs) has expanded their capabilities in handling complex tasks by leveraging external tools. However, existing benchmarks for tool learning inadequately address critical real-world personalized scenarios, particularly those requiring multi-hop reasoning and inductive knowledge adaptation in dynamic environments. To bridge this gap, we introduce FamilyTool, a novel benchmark grounded in a family-based knowledge graph (KG) that simulates personalized, multi-hop tool use scenarios. FamilyTool challenges LLMs with queries spanning 1 to 3 relational hops (e.g., inferring familial connections and preferences) and incorporates an inductive KG setting where models must adapt to unseen user preferences and relationships without re-training, a common limitation in prior approaches that compromises generalization. We further propose KGETool: a simple KG-augmented evaluation pipeline to systematically assess LLMs’ tool use ability in these settings. Experiments reveal significant performance gaps in state-of-the-art LLMs, with accuracy dropping sharply as hop complexity increases and inductive scenarios exposing severe generalization deficits. These findings underscore the limitations of current LLMs in handling personalized, evolving real-world contexts and highlight the urgent need for advancements in tool-learning frameworks. FamilyTool serves as a critical resource for evaluating and advancing LLM agents’ reasoning, adaptability, and scalability in complex, dynamic environments. Code and dataset are available at Github.

arxiv情報

著者 Yuxin Wang,Yiran Guo,Yining Zheng,Zhangyue Yin,Shuo Chen,Jie Yang,Jiajun Chen,Xuanjing Huang,Xipeng Qiu
発行日 2025-04-09 10:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FamilyTool: A Multi-hop Personalized Tool Use Benchmark はコメントを受け付けていません

Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations

要約

専門家のサブセットのみをアクティブにすることにより、パフォーマンスと推論効率の間の好ましいトレードオフを実現します。
ただし、すべての専門家を保存するメモリオーバーヘッドは、特にDeepSeek-R1(671b)などの大規模なMOEモデルでは、大きな制限のままです。
この研究では、大規模なMOEモデルにおけるドメインの専門化と専門家の冗長性を調査し、少数のエキスパートのローカリゼーションと呼ぶ一貫した行動を明らかにします。ほんの少しのデモンストレーションで、このモデルは一貫して専門家のサブセットを一貫して活性化します。
この観察に基づいて、私たちは、最も関連性の高い専門家のみを特定して保持するために、いくつかのドメイン固有のデモを活用する、簡単で効果的な剪定フレームワーク、簡単なEPを提案します。
Easy-EPは、2つの重要なコンポーネントで構成されています。出力認識の専門家の重要性評価と専門家レベルのトークン貢献推定。
前者は、活性化された専門家の出力のゲーティングスコアと大きさを考慮することにより、現在のトークンの各専門家の重要性を評価し、後者はルーティングされた専門家の後と前に表現の類似性に基づいてトークンの寄与を評価します。
実験では、私たちの方法が、同じメモリ予算の下で同等のパフォーマンスと2.99ドルのタイムスループットを達成できることを示しています。
私たちのコードは、https://github.com/rucaibox/easyepで入手できます。

要約(オリジナル)

Mixture-of-Experts (MoE) models achieve a favorable trade-off between performance and inference efficiency by activating only a subset of experts. However, the memory overhead of storing all experts remains a major limitation, especially in large-scale MoE models such as DeepSeek-R1 (671B). In this study, we investigate domain specialization and expert redundancy in large-scale MoE models and uncover a consistent behavior we term few-shot expert localization, with only a few demonstrations, the model consistently activates a sparse and stable subset of experts. Building on this observation, we propose a simple yet effective pruning framework, EASY-EP, that leverages a few domain-specific demonstrations to identify and retain only the most relevant experts. EASY-EP comprises two key components: output-aware expert importance assessment and expert-level token contribution estimation. The former evaluates the importance of each expert for the current token by considering the gating scores and magnitudes of the outputs of activated experts, while the latter assesses the contribution of tokens based on representation similarities after and before routed experts. Experiments show that our method can achieve comparable performances and $2.99\times$ throughput under the same memory budget with full DeepSeek-R1 with only half the experts. Our code is available at https://github.com/RUCAIBox/EASYEP.

arxiv情報

著者 Zican Dong,Han Peng,Peiyu Liu,Wayne Xin Zhao,Dong Wu,Feng Xiao,Zhifeng Wang
発行日 2025-04-09 11:34:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations はコメントを受け付けていません

A Graph Diffusion Algorithm for Lexical Similarity Evaluation

要約

このホワイトペーパーでは、特定の言語といくつかの参照言語クラスター間の語彙的類似性を評価するためのアルゴリズムを提示します。
入力として、概念のリストと、考慮されたすべての言語で対応する翻訳があります。
さらに、各参照言語は、$ c $言語クラスターの1つに割り当てられます。
各概念について、アルゴリズムは各翻訳のペア間の距離を計算します。
これらの距離に基づいて、すべての頂点が言語を表す加重指向グラフを構築します。
その後、Dirichlet境界条件を持つグラフ拡散方程式を解きます。そこでは、不明は頂点から$ \ Mathbb {r}^c $に設定された頂点からのマップです。
結果の座標は、間隔$ [0,1] $の値であり、それらは各クラスターに属する確率として、または参照クラスターに関する語彙的類似性分布として解釈できます。
翻訳間の距離は、音声転写とダメラフヴェンシュテイン距離の修正を使用して計算されます。
このアルゴリズムは、多言語の地域で話されている言語間の関係を多くの相互の影響を与え、分析するのに役立ちます。
さまざまなヨーロッパの言語に関するケーススタディを提示することにより、これを実証します。

要約(オリジナル)

In this paper, we present an algorithm for evaluating lexical similarity between a given language and several reference language clusters. As an input, we have a list of concepts and the corresponding translations in all considered languages. Moreover, each reference language is assigned to one of $c$ language clusters. For each of the concepts, the algorithm computes the distance between each pair of translations. Based on these distances, it constructs a weighted directed graph, where every vertex represents a language. After, it solves a graph diffusion equation with a Dirichlet boundary condition, where the unknown is a map from the vertex set to $\mathbb{R}^c$. The resulting coordinates are values from the interval $[0,1]$ and they can be interpreted as probabilities of belonging to each of the clusters or as a lexical similarity distribution with respect to the reference clusters. The distances between translations are calculated using phonetic transcriptions and a modification of the Damerau-Levenshtein distance. The algorithm can be useful in analyzing relationships between languages spoken in multilingual territories with a lot of mutual influences. We demonstrate this by presenting a case study regarding various European languages.

arxiv情報

著者 Karol Mikula,Mariana Sarkociová Remešíková
発行日 2025-04-09 12:17:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 00A69, 05C90, 91F20, cs.CL | A Graph Diffusion Algorithm for Lexical Similarity Evaluation はコメントを受け付けていません

Inducing Programmatic Skills for Agentic Tasks

要約

Webナビゲーションなどの一般的なデジタルタスクで成功するには、エージェントは製品の検索や旅行ルートの計画など、さまざまな専門的なタスクを実行する必要があります。
これらのタスクに取り組むために、エージェントは、Web環境とのやり取りを通じてオンラインでタスク固有のスキルを学習することで自分自身をブートストラップできます。
この作業では、プログラムがスキルの効果的な表現であることを実証します。
エージェントスキル誘導(ASI)を提案します。これにより、エージェントは、その場でプログラムベースのスキルを誘導、検証、および利用することで自分自身を適応させることができます。
WebArenaエージェントのベンチマークの評価から始めて、ASIが静的ベースラインエージェントとそのテキストスキルのカウンターパートを23.5%および11.3%上回ることを示しています。
ASIはまた、ベースライン上のステップの10.7-15.3%を減らし、原始的なアクション(クリック)を高レベルのスキル(たとえば、検索製品)に構成することにより、効率を向上させます。
次に、スケーリングされたWebアクティビティの下で効率的かつ正確なままであることにおけるASIの有効性を強調します。
最後に、Webサイト間を転送する際に誘導スキルの一般化可能性を調べ、ASIが一般的なスキルを効果的に再利用することができると同時に、互換性のないWebサイトの変更に互換性のないスキルを更新できることがわかります。

要約(オリジナル)

To succeed in common digital tasks such as web navigation, agents must carry out a variety of specialized tasks such as searching for products or planning a travel route. To tackle these tasks, agents can bootstrap themselves by learning task-specific skills online through interaction with the web environment. In this work, we demonstrate that programs are an effective representation for skills. We propose agent skill induction (ASI), which allows agents to adapt themselves by inducing, verifying, and utilizing program-based skills on the fly. We start with an evaluation on the WebArena agent benchmark and show that ASI outperforms the static baseline agent and its text-skill counterpart by 23.5% and 11.3% in success rate, mainly thanks to the programmatic verification guarantee during the induction phase. ASI also improves efficiency by reducing 10.7-15.3% of the steps over baselines, by composing primitive actions (e.g., click) into higher-level skills (e.g., search product). We then highlight the efficacy of ASI in remaining efficient and accurate under scaled-up web activities. Finally, we examine the generalizability of induced skills when transferring between websites, and find that ASI can effectively reuse common skills, while also updating incompatible skills to versatile website changes.

arxiv情報

著者 Zora Zhiruo Wang,Apurva Gandhi,Graham Neubig,Daniel Fried
発行日 2025-04-09 12:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Inducing Programmatic Skills for Agentic Tasks はコメントを受け付けていません

Open Problems and a Hypothetical Path Forward in LLM Knowledge Paradigms

要約

知識は、大規模な言語モデル(LLMS)の全体的な能力の基本です。
モデルの知識パラダイムは、知識をエンコードおよび利用する方法を指示し、そのパフォーマンスに大きな影響を与えます。
既存の知識パラダイムの下でのLLMの継続的な開発にもかかわらず、これらのフレームワーク内の問題はモデルの可能性を制約し続けています。
このブログ投稿は、モデル機能を制限する3つの重要なオープン問題を強調しています。(1)LLMの知識の更新、(2)逆の知識一般化の失敗(逆転呪い)、および(3)内部知識の矛盾。
これらの問題に対処する際に最近の進展を確認し、潜在的な一般的なソリューションについて議論します。
これらの領域での観察に基づいて、コンテキストの知識スケーリングに基づいて仮説的なパラダイムを提案し、現代の技術内で実行可能なままである実装経路をさらに概説します。
証拠は、このアプローチが現在の欠点に対処する可能性を秘めていることを示唆しており、将来のモデルパラダイムのビジョンとして機能します。
このブログ投稿は、LLMナレッジシステムの進捗状況の簡単な概要を研究者に提供することを目的としており、次世代モデルアーキテクチャの開発のインスピレーションを提供します。

要約(オリジナル)

Knowledge is fundamental to the overall capabilities of Large Language Models (LLMs). The knowledge paradigm of a model, which dictates how it encodes and utilizes knowledge, significantly affects its performance. Despite the continuous development of LLMs under existing knowledge paradigms, issues within these frameworks continue to constrain model potential. This blog post highlight three critical open problems limiting model capabilities: (1) challenges in knowledge updating for LLMs, (2) the failure of reverse knowledge generalization (the reversal curse), and (3) conflicts in internal knowledge. We review recent progress made in addressing these issues and discuss potential general solutions. Based on observations in these areas, we propose a hypothetical paradigm based on Contextual Knowledge Scaling, and further outline implementation pathways that remain feasible within contemporary techniques. Evidence suggests this approach holds potential to address current shortcomings, serving as our vision for future model paradigms. This blog post aims to provide researchers with a brief overview of progress in LLM knowledge systems, while provide inspiration for the development of next-generation model architectures.

arxiv情報

著者 Xiaotian Ye,Mengqi Zhang,Shu Wu
発行日 2025-04-09 12:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Open Problems and a Hypothetical Path Forward in LLM Knowledge Paradigms はコメントを受け付けていません

Pretraining Language Models for Diachronic Linguistic Change Discovery

要約

大規模な言語モデル(LLM)は、科学的発見のためのツールとしての可能性を示しています。
これは、歴史的言語学や文学研究など、人道的な分野での使用に関心が高まっています。
これらのフィールドは、多くの場合、ジャンルなどの描写、またはより柔軟に期間の期間に基づいて議論を構築します。
微調整またはモデルの編集を介して特定のドメインへの推論を制限する努力がなされていますが、唯一の真の保証はドメイン制限された前oraining(通常、データと計算の高価な提案)であると仮定します。
効率的な事前トレーニング技術は、簡単な手動検査には大きすぎますが、「典型的な」LLMアプローチには小さすぎるコーポラよりも有用なモデルを生成できることを示しています。
5つの1000万ワードのスライスの一時的にセグメント化されたデータセットを取得するために、新しい日付と貢献パイプラインを採用しています。
これらのコーパスセグメントで2つの対応する5つのモデルバッテリー、効率的なPretrainingおよびLlama3-8Bパラメーターを効率的に微調整します。
先立ったモデルは、微調ューされたベースラインよりも訓練が速く、コーパスの歴史的分裂をよりよく尊重することがわかります。
歴史的な包括性よりも速度と精度を強調することにより、ターゲット分野での仮説発見とテストに対する多くの新しいアプローチが可能になります。
時刻言語学をテストベッドとして取り上げると、私たちの方法は、規模の変化、非屈発性(文法的および形態学的)変化、単語感覚の紹介/陳腐化など、多様な現象の検出を可能にすることを示しています。
最小限の適応のみで他のターゲットフィールドへのアプローチを拡張できるようにする、すぐに使用できるパイプラインを提供します。

要約(オリジナル)

Large language models (LLMs) have shown potential as tools for scientific discovery. This has engendered growing interest in their use in humanistic disciplines, such as historical linguistics and literary studies. These fields often construct arguments on the basis of delineations like genre, or more inflexibly, time period. Although efforts have been made to restrict inference to specific domains via fine-tuning or model editing, we posit that the only true guarantee is domain-restricted pretraining — typically, a data- and compute-expensive proposition. We show that efficient pretraining techniques can produce useful models over corpora too large for easy manual inspection but too small for ‘typical’ LLM approaches. We employ a novel date-attribution pipeline in order to obtain a temporally-segmented dataset of five 10-million-word slices. We train two corresponding five-model batteries over these corpus segments, efficient pretraining and Llama3-8B parameter efficiently finetuned. We find that the pretrained models are faster to train than the finetuned baselines and that they better respect the historical divisions of our corpus. Emphasizing speed and precision over a-historical comprehensiveness enables a number of novel approaches to hypothesis discovery and testing in our target fields. Taking up diachronic linguistics as a testbed, we show that our method enables the detection of a diverse set of phenomena, including en masse lexical change, non-lexical (grammatical and morphological) change, and word sense introduction/obsolescence. We provide a ready-to-use pipeline that allows extension of our approach to other target fields with only minimal adaptation.

arxiv情報

著者 Elisabeth Fittschen,Sabrina Li,Tom Lippincott,Leshem Choshen,Craig Messner
発行日 2025-04-09 13:09:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Pretraining Language Models for Diachronic Linguistic Change Discovery はコメントを受け付けていません