MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion

要約

さまざまなタスクにわたる大規模な言語モデルの顕著な能力にもかかわらず、それらの継続的なスケーリングは重要な課題に直面します。高品質の事前トレーニングデータの希少性です。
モデルアーキテクチャは進化し続けていますが、自然言語データはスケールアップに苦労しています。
このボトルネックに取り組むために、\ textbf {ma} ssive \ textbf {g} enre- \ textbf {a} udience〜(maga)再編成法を提案します。
この作業は、3つの主な貢献をしています。(1)MAGA再定式化方法、Corpus拡張前の軽量でスケーラブルなアプローチを提案し、770Bトークンマガコルパスを構築します。
(2)さまざまなデータ予算スケーリング戦略を持つMagacorpusを評価し、さまざまなモデルサイズ(134M-13b)にわたって一貫した改善を実証し、次世代の大規模な合成前登録言語モデルの必要性を確立します。
(3)包括的な分析を通じて、合成トレーニングの崩壊に対する迅速なエンジニアリングの影響を調査し、検証損失を使用した従来の崩壊検出メトリックの制限を明らかにします。
私たちの研究は、MAGAが品質を維持しながらトレーニングデータセットを大幅に拡張できることを示しており、データの制限を超えてモデルをスケーリングするための確実に経路を提供します。

要約(オリジナル)

Despite the remarkable capabilities of large language models across various tasks, their continued scaling faces a critical challenge: the scarcity of high-quality pretraining data. While model architectures continue to evolve, the natural language data struggles to scale up. To tackle this bottleneck, we propose \textbf{MA}ssive \textbf{G}enre-\textbf{A}udience~(MAGA) reformulation method, which systematic synthesizes diverse, contextually-rich pretraining data from existing corpus. This work makes three main contributions: (1) We propose MAGA reformulation method, a lightweight and scalable approach for pretraining corpus expansion, and build a 770B tokens MAGACorpus. (2) We evaluate MAGACorpus with different data budget scaling strategies, demonstrating consistent improvements across various model sizes (134M-13B), establishing the necessity for next-generation large-scale synthetic pretraining language models. (3) Through comprehensive analysis, we investigate prompt engineering’s impact on synthetic training collapse and reveal limitations in conventional collapse detection metrics using validation losses. Our work shows that MAGA can substantially expand training datasets while maintaining quality, offering a reliably pathway for scaling models beyond data limitations.

arxiv情報

著者 Xintong Hao,Ke Shen,Chenggang Li
発行日 2025-02-06 17:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MAGA: MAssive Genre-Audience Reformulation to Pretraining Corpus Expansion はコメントを受け付けていません

HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing

要約

トランスベースの大手言語モデル(LLM)は、言語処理アプリケーションで広く使用されています。
ただし、デバイスのメモリの制約により、それらのほとんどがコンテキストウィンドウを制限します。
以前の作品の再発モデルは、過去のトークンを記憶して無制限のコンテキストを有効にし、有効性を維持することができますが、「フラット」メモリアーキテクチャがあります。
このようなアーキテクチャには、情報の選択とフィルタリングに制限があります。
人間は学習と自己調整が得意なので、脳の記憶階層を模倣することはモデルの暗記に有益であると信じています。
したがって、人間の記憶行動を模倣することによりモデルの長いコンテスト処理能力を促進する新しいフレームワークである階層メモリトランス(HMT)を提案します。
メモリを介したセグメントレベルの再発を活用して、初期の入力セグメントからトークンを保存し、シーケンスに沿ってメモリの埋め込みを渡し、履歴から関連情報を思い出すことにより、メモリ階層を整理します。
一般的な言語モデリング、質問を回避するタスク、および要約タスクを評価すると、HMTが既存のモデルの長いコンテストの処理能力を一貫して改善することを示します。
さらに、HMTは、$ 2 \ sim 57 \ timesパラメーターと$ 2.5 \ sim 116 \ times $ $ dess inferenceメモリで、$ 2 \ sim 57 \ times $ 2.5 \ sim $ \ sim $ emessのメモリモデルを大幅に上回る、$ 2 \ sim 57 \ timesで同等または優れた生成品質を達成します。
githubのコード:https://github.com/oswaldhe/hmt-pytorch。

要約(オリジナル)

Transformer-based large language models (LLM) have been widely used in language processing applications. However, due to the memory constraints of the devices, most of them restrict the context window. Even though recurrent models in previous works can memorize past tokens to enable unlimited context and maintain effectiveness, they have “flat” memory architectures. Such architectures have limitations in selecting and filtering information. Since humans are good at learning and self-adjustment, we believe that imitating brain memory hierarchy is beneficial for model memorization. Thus, we propose the Hierarchical Memory Transformer (HMT), a novel framework that facilitates a model’s long-context processing ability by imitating human memorization behavior. Leveraging memory-augmented segment-level recurrence, we organize the memory hierarchy by preserving tokens from early input segments, passing memory embeddings along the sequence, and recalling relevant information from history. Evaluating general language modeling, question-answering tasks, and the summarization task, we show that HMT consistently improves the long-context processing ability of existing models. Furthermore, HMT achieves a comparable or superior generation quality to long-context LLMs with $2 \sim 57\times$ fewer parameters and $2.5 \sim 116\times$ less inference memory, significantly outperforming previous memory-augmented models. Code on Github: https://github.com/OswaldHe/HMT-pytorch.

arxiv情報

著者 Zifan He,Yingqi Cao,Zongyue Qin,Neha Prakriya,Yizhou Sun,Jason Cong
発行日 2025-02-06 17:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing はコメントを受け付けていません

InfAlign: Inference-aware language model alignment

要約

言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップです。
アライメントターゲットは、ベースモデルに対するアラインドモデルからのサンプルの勝利率を改善します。
今日、標準のサンプリングではなく、言語モデルからデコードするために、推論時間アルゴリズム(ベストN、制御されたデコード、ツリー検索など)をますます使用しています。
この列車/テストの不一致により、このような推論時の方法を考慮して、標準のRLHFフレームワークが最適であることを示します。
この目的のために、基本モデルに対するアラインドポリシーの推論時間ウィンレートを最適化することを目的とする推論対象アライメント(インターグリグ)のフレームワークを提案します。
推論時間デコード手順では、最適な整列ポリシーが報酬の変換を伴う標準のRLHF問題の解決策であることを証明します。
これにより、この問題を解決するために、キャリブレーションとトランスフォームのRL(インフォグリイン-CTRL)アルゴリズムを提供するように動機付けられます。
Best-of-NサンプリングとBest-of-n Jailbreakingの場合、推論時間の勝利率を最大3〜8%の改善を提供する特定の変換を提案します。
最後に、提案された報酬キャリブレーション方法は、標準の勝利率を最適化するための強力なベースラインであることも示します。

要約(オリジナル)

Language model alignment is a critical step in training modern generative language models. Alignment targets to improve win rate of a sample from the aligned model against the base model. Today, we are increasingly using inference-time algorithms (e.g., Best-of-N, controlled decoding, tree search) to decode from language models rather than standard sampling. We show that this train/test mismatch makes standard RLHF framework sub-optimal in view of such inference-time methods. To this end, we propose a framework for inference-aware alignment (InfAlign), which aims to optimize inference-time win rate of the aligned policy against the base model. We prove that for any inference-time decoding procedure, the optimal aligned policy is the solution to the standard RLHF problem with a transformation of the reward. This motivates us to provide the calibrate-and-transform RL (InfAlign-CTRL) algorithm to solve this problem, which involves a reward calibration step and a KL-regularized reward maximization step with a transformation of the calibrated reward. For best-of-N sampling and best-of-N jailbreaking, we propose specific transformations offering up to 3-8% improvement on inference-time win rates. Finally, we also show that our proposed reward calibration method is a strong baseline for optimizing standard win rate.

arxiv情報

著者 Ananth Balashankar,Ziteng Sun,Jonathan Berant,Jacob Eisenstein,Michael Collins,Adrian Hutter,Jong Lee,Chirag Nagpal,Flavien Prost,Aradhana Sinha,Ananda Theertha Suresh,Ahmad Beirami
発行日 2025-02-06 18:15:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT | InfAlign: Inference-aware language model alignment はコメントを受け付けていません

A Methodology for Studying Linguistic and Cultural Change in China, 1900-1950

要約

この論文は、20世紀前半に中国で言語的および文化的変化を研究するための定量的アプローチを提示します。
この時期の中国語と文化の劇的な変化は、テキスト分析に使用されるツールと方法についてのより大きな反映を求めています。
この予備研究は、19世紀後半と20世紀の中国のテキストを分析するためのフレームワークを提供し、単語数や単語の埋め込みなどの確立された方法が、西洋の近代性と中国の文化的言説の間の複雑な交渉に関する新しい歴史的洞察を提供できることを示しています。

要約(オリジナル)

This paper presents a quantitative approach to studying linguistic and cultural change in China during the first half of the twentieth century, a period that remains understudied in computational humanities research. The dramatic changes in Chinese language and culture during this time call for greater reflection on the tools and methods used for text analysis. This preliminary study offers a framework for analyzing Chinese texts from the late nineteenth and twentieth centuries, demonstrating how established methods such as word counts and word embeddings can provide new historical insights into the complex negotiations between Western modernity and Chinese cultural discourse.

arxiv情報

著者 Spencer Dean Stewart
発行日 2025-02-06 18:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Methodology for Studying Linguistic and Cultural Change in China, 1900-1950 はコメントを受け付けていません

Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization

要約

大規模な言語モデル(LLM)は、さまざまなタスクにわたって重要な機能を示しており、実際の効果は迅速な設計によって駆動されることがよくあります。
最近の研究では、迅速なコンテンツの最適化に焦点を当てていますが、重要であるが見過ごされがちな次元である迅速なフォーマットの役割は、限られた体系的な調査を受けています。
このホワイトペーパーでは、コンテンツフォーマット統合プロンプト最適化(CFPO)を紹介します。これは、反復改良プロセスを通じて、プロンプトコンテンツとフォーマットの両方を共同で最適化する革新的な方法論です。
CFPOは、自然言語の変異を活用してコンテンツの変動を調査し、多様な形式オプションを体系的に評価する動的な形式の探索戦略を採用しています。
複数のタスクとオープンソースLLMにわたる広範な評価は、CFPOがコンテンツのみの最適化方法と比較して測定可能なパフォーマンスの改善を実証することを示しています。
これは、統合されたコンテンツフォーマットの最適化の重要性を強調し、LLMパフォーマンスを向上させるための実用的でモデルに依存しないアプローチを提供します。
コードはhttps://github.com/henrylau7/cfpoで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have shown significant capability across various tasks, with their real-world effectiveness often driven by prompt design. While recent research has focused on optimizing prompt content, the role of prompt formatting, a critical but often overlooked dimension, has received limited systematic investigation. In this paper, we introduce Content-Format Integrated Prompt Optimization (CFPO), an innovative methodology that jointly optimizes both prompt content and formatting through an iterative refinement process. CFPO leverages natural language mutations to explore content variations and employs a dynamic format exploration strategy that systematically evaluates diverse format options. Our extensive evaluations across multiple tasks and open-source LLMs demonstrate that CFPO demonstrates measurable performance improvements compared to content-only optimization methods. This highlights the importance of integrated content-format optimization and offers a practical, model-agnostic approach to enhancing LLM performance. Code will be available at https://github.com/HenryLau7/CFPO.

arxiv情報

著者 Yuanye Liu,Jiahang Xu,Li Lyna Zhang,Qi Chen,Xuan Feng,Yang Chen,Zhongxin Guo,Yuqing Yang,Cheng Peng
発行日 2025-02-06 18:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond Prompt Content: Enhancing LLM Performance via Content-Format Integrated Prompt Optimization はコメントを受け付けていません

ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization

要約

最近の研究では、複雑な問題解決のための大規模な言語モデルマルチエージェントシステムを活用しながら、それらを構築するために必要な手動の努力を減らし、自動エージェントワークフロー最適化方法の開発を促進しようとしています。
ただし、表現の制限、適応性の欠如、および離散最適化手法に依存する場合のスケーラビリティが低いため、既存の方法は柔軟性がありません。
これらの課題は、連続空間で効率的なグラデーションベースの最適化を活用するシンプルでありながら高性能フレームワークであるScoreFlowで対処します。
ScoreFlowには、定量的フィードバックを説明する直接優先最適化方法の新しいバリアントであるScore-DPOが組み込まれています。
質問の回答、コーディング、数学的推論にまたがる6つのベンチマークにわたって、ScoreFlowは既存のベースラインよりも8.2%の改善を達成します。
さらに、より小さなモデルが推論コストが低い大きなモデルを上回ることができます。
プロジェクト:https://github.com/gen-verse/scoreflow

要約(オリジナル)

Recent research has leveraged large language model multi-agent systems for complex problem-solving while trying to reduce the manual effort required to build them, driving the development of automated agent workflow optimization methods. However, existing methods remain inflexible due to representational limitations, a lack of adaptability, and poor scalability when relying on discrete optimization techniques. We address these challenges with ScoreFlow, a simple yet high-performance framework that leverages efficient gradient-based optimization in a continuous space. ScoreFlow incorporates Score-DPO, a novel variant of the direct preference optimization method that accounts for quantitative feedback. Across six benchmarks spanning question answering, coding, and mathematical reasoning, ScoreFlow achieves an 8.2% improvement over existing baselines. Moreover, it empowers smaller models to outperform larger ones with lower inference costs. Project: https://github.com/Gen-Verse/ScoreFlow

arxiv情報

著者 Yinjie Wang,Ling Yang,Guohao Li,Mengdi Wang,Bryon Aragam
発行日 2025-02-06 18:47:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ScoreFlow: Mastering LLM Agent Workflows via Score-based Preference Optimization はコメントを受け付けていません

BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation

要約

このペーパーでは、多ートリックおよびマルチレジスター/ドメインデータセットとベンチマークであるブーケ、およびその広範な共同拡張イニシアチブを紹介します。
このデータセットは最初に非英語言語で手作りされており、これらのソース言語はそれぞれ、世界の人口の半分が一般的に使用している23の言語で表されているため、より正確な翻訳を可能にするピボット言語として機能する可能性があります。
データセットは、多言語の特徴の表現を強制するために、汚染を避け、多室中心になるように特別に設計されています。
さらに、データセットはさまざまな長さの段落で編成されているため、文レベルを超えています。
関連する機械翻訳(MT)データセットと比較して、Bouquetにはドメインのより広範な表現があり、非専門家の翻訳タスクを簡素化していることが示されています。
したがって、Bouquetは、オープンイニシアチブに特に適しており、翻訳参加を求めて、それを書かれた言語にマルチウェイパラレルコーパスに拡張するために開始しています。

要約(オリジナル)

This paper presents BOUQuET, a multicentric and multi-register/domain dataset and benchmark, and its broader collaborative extension initiative. This dataset is handcrafted in non-English languages first, each of these source languages being represented among the 23 languages commonly used by half of the world’s population and therefore having the potential to serve as pivot languages that will enable more accurate translations. The dataset is specially designed to avoid contamination and be multicentric, so as to enforce representation of multilingual language features. In addition, the dataset goes beyond the sentence level, as it is organized in paragraphs of various lengths. Compared with related machine translation (MT) datasets, we show that BOUQuET has a broader representation of domains while simplifying the translation task for non-experts. Therefore, BOUQuET is specially suitable for the open initiative and call for translation participation that we are launching to extend it to a multi-way parallel corpus to any written language.

arxiv情報

著者 The Omnilingual MT Team,Pierre Andrews,Mikel Artetxe,Mariano Coria Meglioli,Marta R. Costa-jussà,Joe Chuang,David Dale,Cynthia Gao,Jean Maillard,Alex Mourachko,Christophe Ropers,Safiyyah Saleem,Eduardo Sánchez,Ioannis Tsiamas,Arina Turkatenko,Albert Ventayol-Boada,Shireen Yates
発行日 2025-02-06 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 | BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation はコメントを受け付けていません

Variation of sentence length across time and genre

要約

この論文の目標は、3つの倍数です。i)言語の傾向の調査において、英語の最大の時身性マルチジャンルコーパスである歴史的なアメリカ英語のコーパスのフルテキストバージョンを使用するいくつかの実用的な側面を提示することです。
変化の;
ii)書かれた英語の文の長さが過去数世紀にわたって着実に減少しているという広く保持されている仮定をテストする。
iii)文の長さの変化と英語の構文使用の変化との間の可能なリンクを指す。
IIIの経験的証明は、非最終的な目的のサブオーディネーターの頻度の減少によって提供されます。
文の長さ、ジャンル、およびのための発生の可能性が相互に関連していることが示されています。

要約(オリジナル)

The goal of this paper is threefold: i) to present some practical aspects of using full-text version of Corpus of Historical American English (COHA), the largest diachronic multi-genre corpus of the English language, in the investigation of a linguistic trend of change; ii) to test a widely held assumption that sentence length in written English has been steadily decreasing over the past few centuries; iii) to point to a possible link between the changes in sentence length and changes in the English syntactic usage. The empirical proof of concept for iii) is provided by the decline in the frequency of the non-finite purpose subordinator in order to. Sentence length, genre and the likelihood of occurrence of in order to are shown to be interrelated.

arxiv情報

著者 Karolina Rudnicka
発行日 2025-02-06 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Variation of sentence length across time and genre はコメントを受け付けていません

Can Grammarly and ChatGPT accelerate language change? AI-powered technologies and their impact on the English language: wordiness vs. conciseness

要約

NLP駆動の言語技術、AIベースの自然言語生成モデル、および英語の主流と非ネイティブスピーカーの間のコミュニケーション手段としての英語は、AIを駆動するツールの出力を特に言語学者に興味をそそるものにします。
このペーパーでは、言葉遣いと簡潔さに関する英語に文法とChatGptがどのように影響するかを調査します。
目的のサブフォルディナーターに焦点を当てたケーススタディは、より長くて精巧なものではなく、文法とChatGptがより短い文法構造を推奨する方法を説明するために提示されます。
分析された文はネイティブスピーカーによって生成され、完全に正しく、現代英語の言語コーパスから抽出されましたが、文法とChatGptの両方が、比較的短い文でさえ、より多くの簡潔さと冗長性の低下を示唆しています。
現在の記事では、文法のような技術は言語の変化を鏡の変化だけでなく、それを促進または加速する可能性もあると主張しています。

要約(オリジナル)

The proliferation of NLP-powered language technologies, AI-based natural language generation models, and English as a mainstream means of communication among both native and non-native speakers make the output of AI-powered tools especially intriguing to linguists. This paper investigates how Grammarly and ChatGPT affect the English language regarding wordiness vs. conciseness. A case study focusing on the purpose subordinator in order to is presented to illustrate the way in which Grammarly and ChatGPT recommend shorter grammatical structures instead of longer and more elaborate ones. Although the analysed sentences were produced by native speakers, are perfectly correct, and were extracted from a language corpus of contemporary English, both Grammarly and ChatGPT suggest more conciseness and less verbosity, even for relatively short sentences. The present article argues that technologies such as Grammarly not only mirror language change but also have the potential to facilitate or accelerate it.

arxiv情報

著者 Karolina Rudnicka
発行日 2025-02-06 18:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Can Grammarly and ChatGPT accelerate language change? AI-powered technologies and their impact on the English language: wordiness vs. conciseness はコメントを受け付けていません

LLMs to Support a Domain Specific Knowledge Assistant

要約

この作業は、国際財務報告基準(IFRS)を使用して、持続可能性報告のためのドメイン固有の知識アシスタントを開発するためのカスタムアプローチを提示します。
このドメインには、公開されている質問アンダーデータセットはありません。これにより、IFRSレポートのある企業をサポートするための高品質のチャットボットの開発が妨げられています。
したがって、このプロジェクトの2つの重要な貢献は次のとおりです。(1)IFRSの持続可能性基準に基づく高品質の合成質問(QA)データセット。
これは、持続可能性レポートにおける潜在的なユーザークエリの幅広いスペクトルに対処する1,063の多様なQAペアで構成されています。
さまざまなLLMベースの手法が採用されており、チェーンの推論や少数のショットプロンプトなど、データセットを作成します。
カスタム評価フレームワークは、忠実さ、関連性、ドメインの特異性など、複数の次元にわたって質問と回答の質を評価するために開発されています。
データセットは、これらのメトリックの10のうち8.16のスコア範囲を平均します。
(2)サステナビリティレポートドメインで質問を回避するための2つのアーキテクチャ – ラグパイプラインと完全なLLMベースのパイプライン。
アーキテクチャは、QAデータセットでの実験、微調整、トレーニングによって開発されます。
最終的なパイプラインは、ドメイン固有のデータで微調整されたLLMと、複雑なクエリの処理を改善するための業界分類コンポーネントを備えています。
RAGアーキテクチャは、単一産業で85.32%、産業を横断する多肢選択式の質問で72.15%の精度を達成し、ベースラインアプローチをそれぞれ4.67パーセントと19.21パーセントポイント上回ります。
LLMベースのパイプラインは、単一産業で93.45%、産業を横断する多肢選択式の質問で80.30%の精度を達成し、ベースラインでそれぞれ12.80および27.36パーセントポイントの改善を達成しています。

要約(オリジナル)

This work presents a custom approach to developing a domain specific knowledge assistant for sustainability reporting using the International Financial Reporting Standards (IFRS). In this domain, there is no publicly available question-answer dataset, which has impeded the development of a high-quality chatbot to support companies with IFRS reporting. The two key contributions of this project therefore are: (1) A high-quality synthetic question-answer (QA) dataset based on IFRS sustainability standards, created using a novel generation and evaluation pipeline leveraging Large Language Models (LLMs). This comprises 1,063 diverse QA pairs that address a wide spectrum of potential user queries in sustainability reporting. Various LLM-based techniques are employed to create the dataset, including chain-of-thought reasoning and few-shot prompting. A custom evaluation framework is developed to assess question and answer quality across multiple dimensions, including faithfulness, relevance, and domain specificity. The dataset averages a score range of 8.16 out of 10 on these metrics. (2) Two architectures for question-answering in the sustainability reporting domain – a RAG pipeline and a fully LLM-based pipeline. The architectures are developed by experimenting, fine-tuning, and training on the QA dataset. The final pipelines feature an LLM fine-tuned on domain specific data and an industry classification component to improve the handling of complex queries. The RAG architecture achieves an accuracy of 85.32% on single-industry and 72.15% on cross-industry multiple-choice questions, outperforming the baseline approach by 4.67 and 19.21 percentage points, respectively. The LLM-based pipeline achieves an accuracy of 93.45% on single-industry and 80.30% on cross-industry multiple-choice questions, an improvement of 12.80 and 27.36 percentage points over the baseline, respectively.

arxiv情報

著者 Maria-Flavia Lovin
発行日 2025-02-06 14:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LLMs to Support a Domain Specific Knowledge Assistant はコメントを受け付けていません