LCQ: Low-Rank Codebook based Quantization for Large Language Models

要約

大規模な言語モデル〜(LLMS)は最近、多くのタスクで有望なパフォーマンスを実証しています。
ただし、LLMSの高いストレージおよび計算コストは​​、LLMを展開するための課題となっています。
重量量子化は、モデル圧縮に広く使用されており、ストレージと計算コストの両方を削減できます。
LLMの既存の体重量子化方法のほとんどは、量子化にランク1コードブックを使用します。これにより、圧縮率が高い場合に実質的な精度損失が生じます。
この論文では、LLMS用の低ランクコードブックベースの量子化〜(LCQ)と呼ばれる新しい重量量子化法を提案します。
LCQは低ランクのコードブックを採用していますが、そのランクは量子化のために1より大きくなる可能性があります。
実験では、LCQが既存のメソッドよりも優れた精度を達成できることを示しています。

要約(オリジナル)

Large language models~(LLMs) have recently demonstrated promising performance in many tasks. However, the high storage and computational cost of LLMs has become a challenge for deploying LLMs. Weight quantization has been widely used for model compression, which can reduce both storage and computational cost. Most existing weight quantization methods for LLMs use a rank-one codebook for quantization, which results in substantial accuracy loss when the compression ratio is high. In this paper, we propose a novel weight quantization method, called low-rank codebook based quantization~(LCQ), for LLMs. LCQ adopts a low-rank codebook, the rank of which can be larger than one, for quantization. Experiments show that LCQ can achieve better accuracy than existing methods with a negligibly extra storage cost.

arxiv情報

著者 Wen-Pu Cai,Ming-Yang Li,Wu-Jun Li
発行日 2025-02-10 15:04:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LCQ: Low-Rank Codebook based Quantization for Large Language Models はコメントを受け付けていません

Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant

要約

強力なオープンソースの大型言語モデル(LLMS)の可用性は、個人データを使用してこれらのモデルを微調整してユーザーのユニークなライティングスタイルを模倣するなど、エキサイティングなユースケースを開きます。
このようなアシスタントの2つの重要な要件は、アシスタントがユーザー自身の執筆スタイルを認識できるように認識できるようにする必要があるという意味で、ユーザーは、電子メールアーカイブなどの非常に個人的なデータをサードパーティサービスにアップロードすることに正当に警戒することができる場合があります。

この論文では、Panzaと呼ばれる電子メール生成の特定のユースケースのために、このような自動化されたアシスタントの新しい設計と評価を紹介します。
Panzaのパーソナライゼーション機能は、逆命令技術のバリアントと検索の高等世代(RAG)を使用した微調整の組み合わせに基づいています。
この組み合わせにより、LLMを微調整して、限られたデータを使用してユーザーのライティングスタイルを反映できることを実証します。
無料のGoogle Colabインスタンス。
私たちの主要な方法論的貢献は、このパーソナライズされたライティングタスクの評価指標の最初の詳細な研究であり、システムコンポーネントのさまざまな選択、つまりRAGの使用とさまざまな微調整アプローチ、システムのパフォーマンスを影響する方法です。
さらに、100未満の電子メールサンプルが非常に少ないデータであり、人間を説得力のある模倣を模倣するモデルを作成するのに十分であることを実証します。
この発見は、言語モデルの以前に知られていない攻撃ベクトルを紹介します – 少数のライティングサンプルにアクセスすると、悪いアクターがターゲットのライティングスタイルを模倣する生成モデルを安く作成できるようになります。
完全なPanzaコードと、https://github.com/ist-daslab/panzamailで調査のためにライセンスされた3つの新しい電子メールデータセットをリリースしています。

要約(オリジナル)

The availability of powerful open-source large language models (LLMs) opens exciting use-cases, such as using personal data to fine-tune these models to imitate a user’s unique writing style. Two key requirements for such assistants are personalization – in the sense that the assistant should recognizably reflect the user’s own writing style – and privacy – users may justifiably be wary of uploading extremely personal data, such as their email archive, to a third-party service. In this paper, we present a new design and evaluation for such an automated assistant, for the specific use case of email generation, which we call Panza. Panza’s personalization features are based on a combination of fine-tuning using a variant of the Reverse Instructions technique together with Retrieval-Augmented Generation (RAG). We demonstrate that this combination allows us to fine-tune an LLM to reflect a user’s writing style using limited data, while executing on extremely limited resources, e.g. on a free Google Colab instance. Our key methodological contribution is the first detailed study of evaluation metrics for this personalized writing task, and of how different choices of system components–the use of RAG and of different fine-tuning approaches-impact the system’s performance. Additionally, we demonstrate that very little data – under 100 email samples – are sufficient to create models that convincingly imitate humans. This finding showcases a previously-unknown attack vector in language models – that access to a small number of writing samples can allow a bad actor to cheaply create generative models that imitate a target’s writing style. We are releasing the full Panza code as well as three new email datasets licensed for research use at https://github.com/IST-DASLab/PanzaMail.

arxiv情報

著者 Armand Nicolicioiu,Eugenia Iofinova,Andrej Jovanovic,Eldar Kurtic,Mahdi Nikdan,Andrei Panferov,Ilia Markov,Nir Shavit,Dan Alistarh
発行日 2025-02-10 15:08:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Panza: Design and Analysis of a Fully-Local Personalized Text Writing Assistant はコメントを受け付けていません

Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs

要約

ナイジェリアは、500以上の言語を持つ多言語の国です。
ナイジャは、約1億2,000万人のスピーカーが話しているナイジェリアのピジンであり、混合言語(英語、ポルトガル語、ヨルバ、ハウサ、イボなど)です。
主に最近まで話し言葉でしたが、いくつかのオンラインプラットフォーム(Wikipediaなど)があり、Naijaにも公開されています。
西アフリカのピジン英語(WAPE)もナイジェリアで話されており、BBCはナイジェリアだけでなく、他の西アフリカ諸国(カメルーンやガーナなど)でもインターネット上のニュースをより多くの聴衆に放送するために使用されています。
統計分析と機械翻訳実験を通じて、我々の論文は、これらの2つのピジン品種が互いに表現していないことを示しています(つまり、語順と語彙に言語の違いがあります)。
言い換えれば、ナイジャは生成AIで過小評価されており、LLMSにいくつかの例を教えることは困難です。
統計分析に加えて、ピジンの両方に関する歴史的情報と、ナイジャのボランティアウィキペディアの寄稿者とのインタビューからの洞察も提供します。

要約(オリジナル)

Nigeria is a multilingual country with 500+ languages. Naija is a Nigerian Pidgin spoken by approximately 120M speakers and it is a mixed language (e.g., English, Portuguese, Yoruba, Hausa and Igbo). Although it has mainly been a spoken language until recently, there are some online platforms (e.g., Wikipedia), publishing in written Naija as well. West African Pidgin English (WAPE) is also spoken in Nigeria and it is used by BBC to broadcast news on the internet to a wider audience not only in Nigeria but also in other West African countries (e.g., Cameroon and Ghana). Through statistical analyses and Machine Translation experiments, our paper shows that these two pidgin varieties do not represent each other (i.e., there are linguistic differences in word order and vocabulary) and Generative AI operates only based on WAPE. In other words, Naija is underrepresented in Generative AI, and it is hard to teach LLMs with few examples. In addition to the statistical analyses, we also provide historical information on both pidgins as well as insights from the interviews conducted with volunteer Wikipedia contributors in Naija.

arxiv情報

著者 David Ifeoluwa Adelani,A. Seza Doğruöz,Iyanuoluwa Shode,Anuoluwapo Aremu
発行日 2025-02-10 15:08:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs はコメントを受け付けていません

Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs)

要約

脳の活動を理解できる形で解読して表現することは、AIの挑戦的なフロンティアです。
このホワイトペーパーでは、この目標を達成するためにEEGデータで微調整された命令チューニングされた大手言語モデル(LLMS)を使用するThought2Textを提示します。
このアプローチには、3つの段階が含まれます。(1)視覚機能抽出のためのEEGエンコーダーのトレーニング、(2)画像とテキストデータのLLMSの微調整、マルチモーダルの説明生成の有効化、および(3)EEG埋め込みのさらに微調整をテキスト生成する
推論中のEEGから直接。
画像刺激とテキストキャプションを持つ6人の被験者に対して収集された公開EEGデータセットの実験は、従来の言語生成評価指標を使用して検証されたマルチモーダルLLMS(LLAMA-V3、Mistral-V0.3、QWEN2.5)の有効性を示しています。
および妥当性測定。
このアプローチは、神経科学と自然言語処理の両方で潜在的なアプリケーションを備えた、ポータブルで低コストの「思考からテキストへの」テクノロジーに対する大きな進歩を示しています。

要約(オリジナル)

Decoding and expressing brain activity in a comprehensible form is a challenging frontier in AI. This paper presents Thought2Text, which uses instruction-tuned Large Language Models (LLMs) fine-tuned with EEG data to achieve this goal. The approach involves three stages: (1) training an EEG encoder for visual feature extraction, (2) fine-tuning LLMs on image and text data, enabling multimodal description generation, and (3) further fine-tuning on EEG embeddings to generate text directly from EEG during inference. Experiments on a public EEG dataset collected for six subjects with image stimuli and text captions demonstrate the efficacy of multimodal LLMs (LLaMA-v3, Mistral-v0.3, Qwen2.5), validated using traditional language generation evaluation metrics, as well as fluency and adequacy measures. This approach marks a significant advancement towards portable, low-cost ‘thoughts-to-text’ technology with potential applications in both neuroscience and natural language processing.

arxiv情報

著者 Abhijit Mishra,Shreya Shukla,Jose Torres,Jacek Gwizdka,Shounak Roychowdhury
発行日 2025-02-10 15:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Thought2Text: Text Generation from EEG Signal using Large Language Models (LLMs) はコメントを受け付けていません

Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments

要約

この研究では、小規模でBERTベースのモデルとLlama-3.18bなどのローカルな大規模な言語モデルの両方を使用して、科学的フルテキストを効率的に分類するための戦略を探ります。
入力文のサブセットを選択して、入力サイズを削減しながら、同時に分類パフォーマンスを向上させる方法の開発に焦点を当てます。
この目的のために、侵略生物学の分野からのフルテキストの科学論文で構成される新しいデータセットを編集し、侵入種の影響に特に対処します。
これらの論文は、国際自然保護連合(IUCN)の研究者によって作成された公的に利用可能な影響評価と一致しています。
広範な実験を通じて、人間の証拠アノテーション、LLM生成注釈、または説明可能性スコアなどのさまざまなソースを使用して、エンコーダーベースの言語モデルとデコーダーベースの両方の言語モデルのパフォーマンスを改善しながら、効率を最適化しながら、選択モデルの選択モデルをトレーニングできることを実証します。
入力長は、完全なテキストを入力として処理できるModernBertのようなモデルと比較しても、結果が改善されます。
さらに、より短い入力のサンプリングを繰り返しサンプリングは、わずかに増加したコストで、分類パフォーマンスをさらに改善できる非常に効果的な戦略であることがわかります。

要約(オリジナル)

This study explores strategies for efficiently classifying scientific full texts using both small, BERT-based models and local large language models like Llama-3.1 8B. We focus on developing methods for selecting subsets of input sentences to reduce input size while simultaneously enhancing classification performance. To this end, we compile a novel dataset consisting of full-text scientific papers from the field of invasion biology, specifically addressing the impacts of invasive species. These papers are aligned with publicly available impact assessments created by researchers for the International Union for Conservation of Nature (IUCN). Through extensive experimentation, we demonstrate that various sources like human evidence annotations, LLM-generated annotations or explainability scores can be used to train sentence selection models that improve the performance of both encoder- and decoder-based language models while optimizing efficiency through the reduction in input length, leading to improved results even if compared to models like ModernBERT that are able to handle the complete text as input. Additionally, we find that repeated sampling of shorter inputs proves to be a very effective strategy that, at a slightly increased cost, can further improve classification performance.

arxiv情報

著者 Marc Felix Brinner,Sina Zarrieß
発行日 2025-02-10 15:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Efficient Scientific Full Text Classification: The Case of EICAT Impact Assessments はコメントを受け付けていません

ProjectTest: A Project-level Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms

要約

ユニットテストの生成は、LLMSの有望で重要なユースケースになっています。
ただし、LLMユニットテスト生成機能を評価するための既存の評価ベンチマークは、より実用的で挑戦的なプロジェクトレベルのコードベースではなく、機能またはクラスレベルのコードに焦点を当てています。
このような制限に対処するために、Python、Java、およびJavaScriptをカバーするユニットテスト生成のプロジェクトレベルのベンチマークであるProjectTestを提案します。
ProjectTestは、言語ごとに20の中程度のサイズの高品質のプロジェクトを備えています。
ProjectTestで9つのフロンティアLLMを評価し、結果は、PicthonとJavaのProjecttestで中程度のパフォーマンスを示し、ProjectTestの難易度を強調していることを示しています。
また、徹底的なエラー分析も実施します。これは、Claude-3.5-SonnetなどのフロンティアLLMでさえ、コンピレーションやカスケードエラーを含む重要な簡単なエラーがあることを示しています。
この観察に動機付けられて、エラー固定メカニズムを装備した場合の可能性を評価するために、手動のエラー固定シナリオと自己誤差固定シナリオの下ですべてのフロンティアLLMをさらに評価します。

要約(オリジナル)

Unit test generation has become a promising and important use case of LLMs. However, existing evaluation benchmarks for assessing LLM unit test generation capabilities focus on function- or class-level code rather than more practical and challenging project-level codebases. To address such limitation, we propose ProjectTest, a project-level benchmark for unit test generation covering Python, Java, and JavaScript. ProjectTest features 20 moderate-sized and high-quality projects per language. We evaluate nine frontier LLMs on ProjectTest and the results show that all frontier LLMs tested exhibit moderate performance on ProjectTest on Python and Java, highlighting the difficulty of ProjectTest. We also conduct a thorough error analysis, which shows that even frontier LLMs, such as Claude-3.5-Sonnet, have significant simple errors, including compilation and cascade errors. Motivated by this observation, we further evaluate all frontier LLMs under manual error-fixing and self-error-fixing scenarios to assess their potential when equipped with error-fixing mechanisms.

arxiv情報

著者 Yibo Wang,Congying Xia,Wenting Zhao,Jiangshu Du,Chunyu Miao,Zhongfen Deng,Philip S. Yu,Chen Xing
発行日 2025-02-10 15:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | ProjectTest: A Project-level Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms はコメントを受け付けていません

Position: It’s Time to Act on the Risk of Efficient Personalized Text Generation

要約

高品質のオープンソースの生成AIテキストモデル(口語的に:LLMS)の最近の急増、および効率的な微調整技術は、高品質のパーソナライズされたモデルを作成する可能性を開きました。
そして、その人自身のデータを活用してオープンソースモデルを改良することにより、彼らの執筆スタイルを信頼できるように模倣することができます。
このようなモデルを作成するテクノロジーは個人がアクセスでき、そのようなモデルのトレーニングと実行は、消費者グレードのハードウェアで安く実行できます。
これらの進歩は、使いやすさとプライバシーにとって大きな利益です。
しかし、このポジションペーパーでは、これらの進歩は、少量の公開されたテキストに基づいて、たとえば電子メールのフィッシングを目的として、悪意のある俳優が大規模な特定の個人になりすまして実質的に実行可能にすることにより、新しい安全リスクをもたらすと主張しています。
私たちはさらに、これらのリスクは、画像、音声、ビデオディープフェイクなどの他のなりすまし攻撃の大いに議論されているリスクを補完し、それとは異なり、大規模な研究コミュニティ、または現在の世代のオープンによって適切に対処されていないと主張します。
– およびクローズドソースモデル。

要約(オリジナル)

The recent surge in high-quality open-sourced Generative AI text models (colloquially: LLMs), as well as efficient finetuning techniques, has opened the possibility of creating high-quality personalized models, i.e., models generating text attuned to a specific individual’s needs and capable of credibly imitating their writing style by leveraging that person’s own data to refine an open-source model. The technology to create such models is accessible to private individuals, and training and running such models can be done cheaply on consumer-grade hardware. These advancements are a huge gain for usability and privacy. This position paper argues, however, that these advancements also introduce new safety risks by making it practically feasible for malicious actors to impersonate specific individuals at scale, for instance for the purpose of phishing emails, based on small amounts of publicly available text. We further argue that these risks are complementary to – and distinct from – the much-discussed risks of other impersonation attacks such as image, voice, or video deepfakes, and are not adequately addressed by the larger research community, or the current generation of open – and closed-source models.

arxiv情報

著者 Eugenia Iofinova,Andrej Jovanovic,Dan Alistarh
発行日 2025-02-10 15:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Position: It’s Time to Act on the Risk of Efficient Personalized Text Generation はコメントを受け付けていません

Jailbreaking LLMs’ Safeguard with Universal Magic Words for Text Embedding Models

要約

大規模な言語モデル(LLMS)のセキュリティ問題は最近、有害な出力を防ぐためにさまざまな防御メカニズムが開発されており、テキストの埋め込みモデルに基づく保護が基本的な防御として機能します。
テストを通じて、テキスト埋め込みモデルの出力の分布が大きな平均で大幅に偏っていることがわかります。
この観察に触発されて、テキストの埋め込みモデルを攻撃できる普遍的な魔法の言葉を検索するための新しい効率的な方法を提案します。
接尾辞としての普遍的な魔法の単語は、テキストの埋め込みをバイアス方向に移動できるため、テキストペアの類似性を操作し、保護策を誤解させます。
ユーザープロンプトに魔法の言葉を追加し、LLMに魔法の言葉で答えを終了するよう要求することにより、攻撃者はセーフガードを脱獄することができます。
このセキュリティリスクを根絶するために、このような攻撃に対する防衛メカニズムも提案します。これは、列車のない方法でテキスト埋め込みの偏った分布を修正することができます。

要約(オリジナル)

The security issue of large language models (LLMs) has gained significant attention recently, with various defense mechanisms developed to prevent harmful outputs, among which safeguards based on text embedding models serve as a fundamental defense. Through testing, we discover that the distribution of text embedding model outputs is significantly biased with a large mean. Inspired by this observation, we propose novel efficient methods to search for universal magic words that can attack text embedding models. The universal magic words as suffixes can move the embedding of any text towards the bias direction, therefore manipulate the similarity of any text pair and mislead safeguards. By appending magic words to user prompts and requiring LLMs to end answers with magic words, attackers can jailbreak the safeguard. To eradicate this security risk, we also propose defense mechanisms against such attacks, which can correct the biased distribution of text embeddings in a train-free manner.

arxiv情報

著者 Haoyu Liang,Youran Sun,Yunfeng Cai,Jun Zhu,Bo Zhang
発行日 2025-02-10 15:27:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE | Jailbreaking LLMs’ Safeguard with Universal Magic Words for Text Embedding Models はコメントを受け付けていません

Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation

要約

順次控除を含む1次ロジック(FOL)推論は、インテリジェントシステムにとって極めて重要であり、特に考え方(COT)コンテキストで、推論能力を評価するための貴重なタスクとして機能します。
既存のベンチマークは、多くの場合、広範な人間の注釈または手作りのテンプレートに依存しているため、堅牢な評価に必要な複雑さ、スケーラビリティ、多様性を実現することが困難です。
これらの制限に対処するために、大規模な言語モデル(LLM)の生成強度をシンボリックプロバーの厳密さと精度と相乗的に相乗するProvergenと呼ばれる新しいフレームワークを提案します。
Proverqa。
Proverqaは、各問題のアクセス可能で論理的に一貫性のある中間推論ステップを含めることによっても区別されます。
私たちの評価は、最先端のLLMSが、COTのプロンプトがあり、データセットの挑戦的な性質を強調している場合でも、Proverqaの問題を解決するのに苦労していることを示しています。
また、フレームワークによって生成された別のトレーニングセットにllama3.1-8b-instructを獲得します。
Finetunedモデルは、分散内および分散型テストセットの両方で一貫した改善を示し、提案されたデータ生成フレームワークの価値を示唆しています。
https://github.com/opendatalab/provergenで利用可能なコード

要約(オリジナル)

First-order logic (FOL) reasoning, which involves sequential deduction, is pivotal for intelligent systems and serves as a valuable task for evaluating reasoning capabilities, particularly in chain-of-thought (CoT) contexts. Existing benchmarks often rely on extensive human annotation or handcrafted templates, making it difficult to achieve the necessary complexity, scalability, and diversity for robust evaluation. To address these limitations, we propose a novel framework called ProverGen that synergizes the generative strengths of Large Language Models (LLMs) with the rigor and precision of symbolic provers, enabling the creation of a scalable, diverse, and high-quality FOL reasoning dataset, ProverQA. ProverQA is also distinguished by its inclusion of accessible and logically coherent intermediate reasoning steps for each problem. Our evaluation shows that state-of-the-art LLMs struggle to solve ProverQA problems, even with CoT prompting, highlighting the dataset’s challenging nature. We also finetune Llama3.1-8B-Instruct on a separate training set generated by our framework. The finetuned model demonstrates consistent improvements on both in-distribution and out-of-distribution test sets, suggesting the value of our proposed data generation framework. Code available at: https://github.com/opendatalab/ProverGen

arxiv情報

著者 Chengwen Qi,Ren Ma,Bowen Li,He Du,Binyuan Hui,Jinwang Wu,Yuanjun Laili,Conghui He
発行日 2025-02-10 15:31:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation はコメントを受け付けていません

LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM

要約

独自およびオープンソースの両方である大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって顕著な能力を実証しています。
しかし、彼らは法的推論のタスクに大きな制限に直面しています。
独自のモデルでは、データのプライバシーリスクと高い推論コストを導入しますが、法的ドメイントレーニングデータが不十分なため、オープンソースモデルがパフォーマンスが低下しています。
これらの制限に対処するために、独自のLLMSの助けを借りて、オープンソースLLMSの法的推論パフォーマンスを改善するために、法的推論のためにデータ生成を研究します。
これは、独自のLLMSに関する法的知識の欠如と、生成されたデータの検証の難しさのために困難です。
法的推論のための知識ガイド付きデータ生成フレームワークであるKGDGを提案します。
当社のフレームワークにより、法的知識を活用して生成の多様性を高め、生成されたデータの品質を確保するための改良と検証プロセスを導入できます。
さらに、生成されたデータセットを拡張して、LLMの推論機能をさらに強化します。
KGDGを使用して、50K高品質の例を含む合成法的推論データセットを作成します。
訓練されたモデルLawGPTは、既存の法的固有のLLMSを上回り、独自のLLMに匹敵するパフォーマンスを達成し、KGDGとLawGPTの有効性を実証します。
私たちのコードとリソースは、https://anonymous.4open.science/r/kgdg-45f5で公開されています。

要約(オリジナル)

Large language models (LLMs), both proprietary and open-source, have demonstrated remarkable capabilities across various natural language processing tasks. However, they face significant limitations in legal reasoning tasks. Proprietary models introduce data privacy risks and high inference costs, while open-source models underperform due to insufficient legal domain training data. To address these limitations, we study data generation for legal reasoning to improve the legal reasoning performance of open-source LLMs with the help of proprietary LLMs. This is challenging due to the lack of legal knowledge in proprietary LLMs and the difficulty in verifying the generated data. We propose KgDG, a knowledge-guided data generation framework for legal reasoning. Our framework enables leveraging legal knowledge to enhance generation diversity and introduces a refinement and verification process to ensure the quality of generated data. Moreover, we expand the generated dataset to further enhance the LLM reasoning capabilities. Using KgDG, we create a synthetic legal reasoning dataset containing 50K high-quality examples. Our trained model LawGPT outperforms existing legal-specific LLMs and achieves performance comparable to proprietary LLMs, demonstrating the effectiveness of KgDG and LawGPT. Our code and resources is publicly available at https://anonymous.4open.science/r/KgDG-45F5 .

arxiv情報

著者 Zhi Zhou,Kun-Yang Yu,Shi-Yu Tian,Jiang-Xin Shi,Xiao-Wen Yang,Pengxiao Song,Yi-Xuan Jin,Lan-Zhe Guo,Yu-Feng Li
発行日 2025-02-10 15:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM はコメントを受け付けていません