NeoQA: Evidence-based Question Answering with Generated News Events

要約

ベンチマークがすぐに古くなる可能性があるため、大規模な言語モデル(LLMS)で検索された生成(RAG)を評価することは困難です。
新しいモデルは、事前トレーニング中により最近の情報を組み込んでおり、エビデンスに基づいた推論をリコールと区別することが困難であるため、最初に検索を必要とする質問は、前の知識から答えられる可能性があります。
この問題に対処するために設計されたベンチマークであるNeoqa(トレーニング外の質問応答に関するニュースイベント)を紹介します。
NEOQAを構築するために、架空のニュースイベントとエンティティのタイムラインと知識ベースを生成し、ニュース記事とQ \&Aペアを作成して、LLMSが事前侵害の知識を活用しないようにし、トレーニングデータに事前の証拠が存在しないことを保証しました。
データセットは、証拠に基づいた質問応答を評価するための新しいプラットフォームとして提案します。これは、LLMが検索された証拠からのみ回答を生成する必要があるため、十分な証拠が利用可能である場合にのみ必要です。
NEOQAは、詳細が欠落または誤解を招くケースを含む、さまざまな証拠シナリオで制御された評価を可能にします。
私たちの調査結果は、LLMSが質問と証拠の間の微妙な不一致を区別するのに苦労しており、質問に答えるために必要な重要な情報が証拠に欠けている場合、証拠に基づいた推論の重要な制限を強調している場合、短いカット推論に苦しんでいることを示しています。

要約(オリジナル)

Evaluating Retrieval-Augmented Generation (RAG) in large language models (LLMs) is challenging because benchmarks can quickly become stale. Questions initially requiring retrieval may become answerable from pretraining knowledge as newer models incorporate more recent information during pretraining, making it difficult to distinguish evidence-based reasoning from recall. We introduce NeoQA (News Events for Out-of-training Question Answering), a benchmark designed to address this issue. To construct NeoQA, we generated timelines and knowledge bases of fictional news events and entities along with news articles and Q\&A pairs to prevent LLMs from leveraging pretraining knowledge, ensuring that no prior evidence exists in their training data. We propose our dataset as a new platform for evaluating evidence-based question answering, as it requires LLMs to generate responses exclusively from retrieved evidence and only when sufficient evidence is available. NeoQA enables controlled evaluation across various evidence scenarios, including cases with missing or misleading details. Our findings indicate that LLMs struggle to distinguish subtle mismatches between questions and evidence, and suffer from short-cut reasoning when key information required to answer a question is missing from the evidence, underscoring key limitations in evidence-based reasoning.

arxiv情報

著者 Max Glockner,Xiang Jiang,Leonardo F. R. Ribeiro,Iryna Gurevych,Markus Dreyer
発行日 2025-05-09 10:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NeoQA: Evidence-based Question Answering with Generated News Events はコメントを受け付けていません

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models

要約

子供の言語習得に触発されたインタラクティブな設定で言語モデルをトレーニングする方法を提案します。
私たちの設定では、スピーカーは、1回のターンダイアログでいくつかの情報をリスナーに伝えようとし、コミュニケーションの成功が達成された場合に報酬を受け取ります。
画像を使用した以前の関連作業(インタラクティブリファレンスゲーム用のキャプションデータとは異なり、コミュニケーションの成功を、より抽象的な言語のみの質問 – 回答設定で運用します。
まず、私たちの報酬が文法性に関する間接的な信号を提供することを示す実現可能性調査を提示します。
第二に、補強学習を使用して言語モデルを微調整する実験を実施します。
通信チャネルに対する認知的にもっともらしい制約が、スピーカーの動作の解釈可能な変化につながることを観察します。
ただし、トレーニング体制からの言語評価の改善はまだ見られません。
潜在的な変更をタスクの設計とトレーニング構成の概要を説明します。これにより、将来の作業をより適切に位置付けて、計算認知モデルにおける言語学習に関する相互作用の利点を観察します。

要約(オリジナル)

We propose a method for training language models in an interactive setting inspired by child language acquisition. In our setting, a speaker attempts to communicate some information to a listener in a single-turn dialogue and receives a reward if communicative success is achieved. Unlike earlier related work using image–caption data for interactive reference games, we operationalize communicative success in a more abstract language-only question–answering setting. First, we present a feasibility study demonstrating that our reward provides an indirect signal about grammaticality. Second, we conduct experiments using reinforcement learning to fine-tune language models. We observe that cognitively plausible constraints on the communication channel lead to interpretable changes in speaker behavior. However, we do not yet see improvements on linguistic evaluations from our training regime. We outline potential modifications to the task design and training configuration that could better position future work to use our methodology to observe the benefits of interaction on language learning in computational cognitive models.

arxiv情報

著者 Lennart Stöpler,Rufat Asadli,Mitja Nikolaus,Ryan Cotterell,Alex Warstadt
発行日 2025-05-09 11:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models はコメントを受け付けていません

An Exploratory Analysis on the Explanatory Potential of Embedding-Based Measures of Semantic Transparency for Malay Word Recognition

要約

形態学的処理の研究により、意味認識にとって意味的な透明性が重要であることが示されています。
その計算運用はまだ議論されています。
私たちの主な目的は、セマンティック透明性の埋め込みベースの尺度を調査し、読み取りへの影響を評価することです。
最初に、セマンティックスペースの複雑な単語のジオメトリを調査しました。
そのために、4,226マレーの接頭辞ワードでT-Sistributedの確率的隣接埋め込みクラスタリング分析を実施しました。
プレフィックスクラスによって異なる複雑な単語でいくつかのクラスターが観察されました。
次に、5つの簡単な対策を導き出し、それらが語彙決定潜伏期の重要な予測因子であるかどうかを調査しました。
単語の埋め込みまたはシフトベクトル(つまり、派生単語からのベース単語のベクトル減算)のいずれかから単語の接頭辞が予測される2つの線形判別分析が実行されました。
モデルが単語のプレフィックスを予測する精度は、プレフィックスの透明度の程度を示します。
各単語と同じプレフィックス(すなわち、重心)を含む他のすべての単語の間の埋め込み、各単語からのシフト、および各単語からのシフト、および構成セマンティック空間モデルのアフリックスの機能表現の予測された単語の間の埋め込みを比較することにより、さらに3つの測定値が得られました。
一連の一般化された添加剤混合モデルでは、すべての測定では、単語の頻度、単語の長さ、形態学的な家族のサイズを考慮した後、すべての測定が決定レイテンシを予測しました。
予測子として各単語とその重心との相関を含むモデルは、データに最適な適合性を提供しました。

要約(オリジナル)

Studies of morphological processing have shown that semantic transparency is crucial for word recognition. Its computational operationalization is still under discussion. Our primary objectives are to explore embedding-based measures of semantic transparency, and assess their impact on reading. First, we explored the geometry of complex words in semantic space. To do so, we conducted a t-distributed Stochastic Neighbor Embedding clustering analysis on 4,226 Malay prefixed words. Several clusters were observed for complex words varied by their prefix class. Then, we derived five simple measures, and investigated whether they were significant predictors of lexical decision latencies. Two sets of Linear Discriminant Analyses were run in which the prefix of a word is predicted from either word embeddings or shift vectors (i.e., a vector subtraction of the base word from the derived word). The accuracy with which the model predicts the prefix of a word indicates the degree of transparency of the prefix. Three further measures were obtained by comparing embeddings between each word and all other words containing the same prefix (i.e., centroid), between each word and the shift from their base word, and between each word and the predicted word of the Functional Representations of Affixes in Compositional Semantic Space model. In a series of Generalized Additive Mixed Models, all measures predicted decision latencies after accounting for word frequency, word length, and morphological family size. The model that included the correlation between each word and their centroid as a predictor provided the best fit to the data.

arxiv情報

著者 M. Maziyah Mohamed,R. H. Baayen
発行日 2025-05-09 11:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Exploratory Analysis on the Explanatory Potential of Embedding-Based Measures of Semantic Transparency for Malay Word Recognition はコメントを受け付けていません

Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B parameters: A Comparative Study of 17 Models

要約

最近の言語モデルは、さまざまな言語関連のタスクをうまく解決でき、多くの言語で述べられている入力を理解しています。
この論文では、すべての言語で単一のモデルを使用してテキストを修正するために単一のモデルを使用する場合、英語、ドイツ語、イタリア語、スウェーデン語で述べられたテキストの文法問題を修正するために使用される17の一般的なモデルのパフォーマンスを探ります。
これらのモデルによって生成された出力を分析し、変化を小さく保ちながら文法エラーの数を減らすことに焦点を当てています。
描かれた結論は、これらのモデル間でどのような問題が発生し、どのモデルが多言語の文法エラー補正タスクに推奨できるかを理解するのに役立ちます。
4つの言語すべての文法正しさを改善する6つのモデルをリストし、現在、Gemma 9Bが考慮される言語で最高のパフォーマンスを発揮していることを示しています。

要約(オリジナル)

Recent language models can successfully solve various language-related tasks, and many understand inputs stated in different languages. In this paper, we explore the performance of 17 popular models used to correct grammatical issues in texts stated in English, German, Italian, and Swedish when using a single model to correct texts in all those languages. We analyze the outputs generated by these models, focusing on decreasing the number of grammatical errors while keeping the changes small. The conclusions drawn help us understand what problems occur among those models and which models can be recommended for multilingual grammatical error correction tasks. We list six models that improve grammatical correctness in all four languages and show that Gemma 9B is currently the best performing one for the languages considered.

arxiv情報

著者 Dawid Wisniewski,Antoni Solarski,Artur Nowakowski
発行日 2025-05-09 12:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B parameters: A Comparative Study of 17 Models はコメントを受け付けていません

Do Not Change Me: On Transferring Entities Without Modification in Neural Machine Translation — a Multilingual Perspective

要約

現在の機械翻訳モデルは、ほとんどのシナリオで高品質の出力を提供します。
ただし、翻訳中にどのエンティティを変更すべきではないかを検出するなど、いくつかの特定の問題に直面しています。
この論文では、OPUSプロジェクト、Google Translate、Madlad、およびEurollmのモデルを含む人気のあるNMTモデルの能力を調査して、英語、ドイツ語、ポーランド語、ウクライナ人の4つの言語間で翻訳を作成する際にURLアドレス、イバン番号、電子メールなどのエンティティを保存します。
人気のあるNMTモデルの品質を精度の観点から調査し、モデルによって作成されたエラーについて議論し、エラーの理由を調べます。
私たちの分析は、絵文字などの特定のカテゴリを強調しており、考慮される多くのモデルに大きな課題をもたらします。
分析に加えて、9つのカテゴリと4つの前述の言語にわたるエンティティ転送の質を評価するのに役立つ36,000文の新しい多言語合成データセットを提案します。

要約(オリジナル)

Current machine translation models provide us with high-quality outputs in most scenarios. However, they still face some specific problems, such as detecting which entities should not be changed during translation. In this paper, we explore the abilities of popular NMT models, including models from the OPUS project, Google Translate, MADLAD, and EuroLLM, to preserve entities such as URL addresses, IBAN numbers, or emails when producing translations between four languages: English, German, Polish, and Ukrainian. We investigate the quality of popular NMT models in terms of accuracy, discuss errors made by the models, and examine the reasons for errors. Our analysis highlights specific categories, such as emojis, that pose significant challenges for many models considered. In addition to the analysis, we propose a new multilingual synthetic dataset of 36,000 sentences that can help assess the quality of entity transfer across nine categories and four aforementioned languages.

arxiv情報

著者 Dawid Wisniewski,Mikolaj Pokrywka,Zofia Rostek
発行日 2025-05-09 12:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do Not Change Me: On Transferring Entities Without Modification in Neural Machine Translation — a Multilingual Perspective はコメントを受け付けていません

Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

要約

このペーパーでは、大規模な言語モデルで学習するための新しい自己設計方法であるUnilogitを紹介します。
Unilogitは、GDPRなどのデータプライバシー規制に準拠した重要なタスクである、モデル全体のユーティリティを維持しながら、特定の情報を選択的に忘れているという課題に対処します。
静的なハイパーパラメーターまたはモデル出力の開始に依存する以前の方法とは異なり、UnILOGITはターゲットトークンの均一な確率を実現するためにターゲットロジットを動的に調整し、より正確な自己設定ターゲットのために現在のモデルの出力を活用します。
このアプローチは、追加のハイパーパラメーターの必要性を排除するだけでなく、黄金のターゲットを近似するモデルの能力も強化します。
パブリックベンチマークと社内のeコマースデータセットでの広範な実験は、NPOやUndialなどの最先端の方法を上回る忘れを維持するためのUnilogitの優れたパフォーマンスを示しています。
私たちの分析により、さまざまなシナリオにわたるUnilogitの堅牢性がさらに明らかになり、実用的なマシンの学習を達成する際の実用的な適用性と有効性が強調されています。

要約(オリジナル)

This paper introduces Unilogit, a novel self-distillation method for machine unlearning in Large Language Models. Unilogit addresses the challenge of selectively forgetting specific information while maintaining overall model utility, a critical task in compliance with data privacy regulations like GDPR. Unlike prior methods that rely on static hyperparameters or starting model outputs, Unilogit dynamically adjusts target logits to achieve a uniform probability for the target token, leveraging the current model’s outputs for more accurate self-distillation targets. This approach not only eliminates the need for additional hyperparameters but also enhances the model’s ability to approximate the golden targets. Extensive experiments on public benchmarks and an in-house e-commerce dataset demonstrate Unilogit’s superior performance in balancing forget and retain objectives, outperforming state-of-the-art methods such as NPO and UnDIAL. Our analysis further reveals Unilogit’s robustness across various scenarios, highlighting its practical applicability and effectiveness in achieving efficacious machine unlearning.

arxiv情報

著者 Stefan Vasilev,Christian Herold,Baohao Liao,Seyyed Hadi Hashemi,Shahram Khadivi,Christof Monz
発行日 2025-05-09 13:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, I.2.7 | Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation はコメントを受け付けていません

Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification

要約

偽の相関(ショートカット)への依存は、言語モデルの多くの成功の根底にあることが示されています。
以前の研究は、予測に影響を与える入力要素を特定することに焦点を当てていました。
モデルの意思決定メカニズム内で、ショートカットが実際にどのように処理されるかを調査します。
映画のレビューでは、結果に既知の影響を与える制御可能なショートカットとして俳優名を使用しています。
メカニズムの解釈可能性方法を使用し、ショートカットに焦点を当てた特定の注意ヘッドを特定します。
これらのヘッドは、完全な入力を処理する前に、モデルをラベルに向けてモデルを調整し、コンテキスト分析をバイパスする時期尚早の決定を効果的に行います。
これらの調査結果に基づいて、ヘッドベースのトークン属性(HTA)を導入します。これは、入力トークンに中間決定を追跡します。
HTAは、LLMSのショートカットの検出に効果的であり、ショートカット関連の注意ヘッドを選択的に非アクティブ化することにより、標的緩和を可能にすることを示します。

要約(オリジナル)

Reliance on spurious correlations (shortcuts) has been shown to underlie many of the successes of language models. Previous work focused on identifying the input elements that impact prediction. We investigate how shortcuts are actually processed within the model’s decision-making mechanism. We use actor names in movie reviews as controllable shortcuts with known impact on the outcome. We use mechanistic interpretability methods and identify specific attention heads that focus on shortcuts. These heads gear the model towards a label before processing the complete input, effectively making premature decisions that bypass contextual analysis. Based on these findings, we introduce Head-based Token Attribution (HTA), which traces intermediate decisions back to input tokens. We show that HTA is effective in detecting shortcuts in LLMs and enables targeted mitigation by selectively deactivating shortcut-related attention heads.

arxiv情報

著者 Leon Eshuijs,Shihan Wang,Antske Fokkens
発行日 2025-05-09 13:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Short-circuiting Shortcuts: Mechanistic Investigation of Shortcuts in Text Classification はコメントを受け付けていません

Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information

要約

大規模な言語モデル(LLM)が広くアクセスできるようになると、現実世界の使用を成功させるには、特定のドメイン内の知識の詳細な理解が必要になります。
これは、関連性があり、正確で、現在の情報を取得できないと、英国の住民に大きな影響を与える可能性がある公衆衛生において特に重要です。
ただし、現在、英国政府の公衆衛生情報に関するLLMの知識についてはほとんど知られていません。
この問題に対処するために、このペーパーでは、LLMSの複数選択質問(MCQA)と自動化されたパイプラインを介して作成された公衆衛生クエリに対する自由なフォーム応答を評価するための8000を超える質問を含む新しいベンチマークであるPubHealthbenchを紹介します。
また、PubHealthBenchのソーステキストとして使用される抽出された英国政府の公衆衛生ガイダンス文書の新しいデータセットもリリースします。
PubHealthBenchで24 LLMSの評価最新のプライベートLLMS(GPT-4.5、GPT-4.1およびO1)は高度な知識を持ち、MCQAセットアップで90%以上を達成し、大まかな検索エンジンの使用で人間を上回っています。
ただし、フリーフォームのセットアップでは、モデルのスコアリングが75%> 75%で、パフォーマンスが低くなります。
したがって、最先端(SOTA)LLMが公衆衛生情報のますます正確なソースであるという有望な兆候がありますが、公衆衛生のトピックに無料のフォーム応答を提供する際には、追加の保護手段またはツールが必要になる場合があります。

要約(オリジナル)

As Large Language Models (LLMs) become widely accessible, a detailed understanding of their knowledge within specific domains becomes necessary for successful real world use. This is particularly critical in public health, where failure to retrieve relevant, accurate, and current information could significantly impact UK residents. However, currently little is known about LLM knowledge of UK Government public health information. To address this issue, this paper introduces a new benchmark, PubHealthBench, with over 8000 questions for evaluating LLMs’ Multiple Choice Question Answering (MCQA) and free form responses to public health queries, created via an automated pipeline. We also release a new dataset of the extracted UK Government public health guidance documents used as source text for PubHealthBench. Assessing 24 LLMs on PubHealthBench we find the latest private LLMs (GPT-4.5, GPT-4.1 and o1) have a high degree of knowledge, achieving >90% in the MCQA setup, and outperform humans with cursory search engine use. However, in the free form setup we see lower performance with no model scoring >75%. Therefore, whilst there are promising signs that state of the art (SOTA) LLMs are an increasingly accurate source of public health information, additional safeguards or tools may still be needed when providing free form responses on public health topics.

arxiv情報

著者 Joshua Harris,Fan Grayson,Felix Feldman,Timothy Laurence,Toby Nonnenmacher,Oliver Higgins,Leo Loman,Selina Patel,Thomas Finnie,Samuel Collins,Michael Borowitz
発行日 2025-05-09 13:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG | Healthy LLMs? Benchmarking LLM Knowledge of UK Government Public Health Information はコメントを受け付けていません

Attention on Multiword Expressions: A Multilingual Study of BERT-based Models with Regard to Idiomaticity and Microsyntax

要約

この研究では、BERTアーキテクチャ(BERTベースのモデル)に基づいた微調整されたエンコーダのみのモデルの注意パターンを分析し、2つの異なるタイプのマルチワード式(MWE)、イディオムとマイクロシンガーユニット(MSUS)に向けて分析します。
イディオムは、セマンティックな非相続性の課題を提示しますが、MSUSは標準的な文法分類に適合しない型にはまらない構文行動を示しています。
特定のタスクの微調整BERTベースのモデルがMWEへの注意に影響を与えるかどうか、およびこの注意がセマンティックタスクと構文タスクの間でどのように異なるかを理解することを目指しています。
事前訓練と微調整されたBERTベースのモデルの両方で、MWEへの注意スコアを調べます。
私たちは、英語、ドイツ語、オランダ語、ポーランド語、ロシア語、ウクライナ語の6つのインドヨーロッパ言語で単一言語モデルとデータセットを利用しています。
我々の結果は、微調整がモデルがMWEに注意を割り当てる方法に大きく影響することを示しています。
具体的には、セマンティックタスクで微調整されたモデルは、レイヤー間でより均等に慣用的な表現に注意を分配する傾向があります。
構文タスクで微調整されたモデルは、構文処理要件に対応する下層のMSUSへの注意の増加を示しています。

要約(オリジナル)

This study analyzes the attention patterns of fine-tuned encoder-only models based on the BERT architecture (BERT-based models) towards two distinct types of Multiword Expressions (MWEs): idioms and microsyntactic units (MSUs). Idioms present challenges in semantic non-compositionality, whereas MSUs demonstrate unconventional syntactic behavior that does not conform to standard grammatical categorizations. We aim to understand whether fine-tuning BERT-based models on specific tasks influences their attention to MWEs, and how this attention differs between semantic and syntactic tasks. We examine attention scores to MWEs in both pre-trained and fine-tuned BERT-based models. We utilize monolingual models and datasets in six Indo-European languages – English, German, Dutch, Polish, Russian, and Ukrainian. Our results show that fine-tuning significantly influences how models allocate attention to MWEs. Specifically, models fine-tuned on semantic tasks tend to distribute attention to idiomatic expressions more evenly across layers. Models fine-tuned on syntactic tasks show an increase in attention to MSUs in the lower layers, corresponding with syntactic processing requirements.

arxiv情報

著者 Iuliia Zaitova,Vitalii Hirak,Badr M. Abdullah,Dietrich Klakow,Bernd Möbius,Tania Avgustinova
発行日 2025-05-09 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Attention on Multiword Expressions: A Multilingual Study of BERT-based Models with Regard to Idiomaticity and Microsyntax はコメントを受け付けていません

ConvoGen: Enhancing Conversational AI with Synthetic Data: A Multi-Agent Approach

要約

この論文では、コンボゲン:マルチエージェントシステムを使用して合成会話データを生成するための革新的なフレームワークを提示します。
私たちの方法は、少数のショット学習を活用し、動的に更新された少数のショットハブから反復的なサンプリングを導入して、多様で現実的な会話シナリオを作成します。
生成されたデータには、会話型AIモデルのトレーニングと評価、会話の意図分類や会話の要約などのタスクの既存のデータセットを強化するなど、多数のアプリケーションがあります。
私たちの実験は、高品質の多様な合成会話データを生成する際のこの方法の有効性を示しており、会話型AIシステムの開発と評価を強化する可能性を強調しています。

要約(オリジナル)

In this paper, we present ConvoGen: an innovative framework for generating synthetic conversational data using multi-agent systems. Our method leverages few-shot learning and introduces iterative sampling from a dynamically updated few-shot hub to create diverse and realistic conversational scenarios. The generated data has numerous applications, including training and evaluating conversational AI models, and augmenting existing datasets for tasks like conversational intent classification or conversation summarization. Our experiments demonstrate the effectiveness of this method in producing high-quality diverse synthetic conversational data, highlighting its potential to enhance the development and evaluation of conversational AI systems.

arxiv情報

著者 Reem Gody,Mahmoud Goudy,Ahmed Y. Tawfik
発行日 2025-05-09 14:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ConvoGen: Enhancing Conversational AI with Synthetic Data: A Multi-Agent Approach はコメントを受け付けていません