EnQode: Fast Amplitude Embedding for Quantum Machine Learning Using Classical Data

要約

振幅埋め込み(AE)は、量子機械学習(QML)では、古典的なデータを量子回路にエンコードするために不可欠です。
ただし、従来のAEメソッドは、サンプル全体の大規模なゲート使用量と可変エラー率により高い出力エラーをもたらす深い可変長さの回路に悩まされ、モデルの精度を低下させるノイズ駆動の矛盾をもたらします。
ENQODEを導入します。ENQodeは、データセットサンプルをクラスタリングし、低いマシン固有のANSATZを介してクラスター平均状態を解くことにより、これらの制限に対処する象徴的な表現に基づいた高速AE技術です。
物理的なゲートとスワップ操作を減らすために最適化されたENQODEは、回路の深さと組成を標準化することにより、すべてのサンプルが一貫した低いノイズレベルに直面することを保証します。
データマッピングに90%以上の忠実度があるため、ENQODEはノイズの多い中間スケール量子(NISQ)デバイスで堅牢で高性能QMLを有効にします。
当社のオープンソースソリューションは、古典的なデータを量子モデルと統合するためのスケーラブルで効率的な代替品を提供します。

要約(オリジナル)

Amplitude embedding (AE) is essential in quantum machine learning (QML) for encoding classical data onto quantum circuits. However, conventional AE methods suffer from deep, variable-length circuits that introduce high output error due to extensive gate usage and variable error rates across samples, resulting in noise-driven inconsistencies that degrade model accuracy. We introduce EnQode, a fast AE technique based on symbolic representation that addresses these limitations by clustering dataset samples and solving for cluster mean states through a low-depth, machine-specific ansatz. Optimized to reduce physical gates and SWAP operations, EnQode ensures all samples face consistent, low noise levels by standardizing circuit depth and composition. With over 90% fidelity in data mapping, EnQode enables robust, high-performance QML on noisy intermediate-scale quantum (NISQ) devices. Our open-source solution provides a scalable and efficient alternative for integrating classical data with quantum models.

arxiv情報

著者 Jason Han,Nicholas S. DiBrita,Younghyun Cho,Hengrui Luo,Tirthak Patel
発行日 2025-03-18 17:48:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG, quant-ph | EnQode: Fast Amplitude Embedding for Quantum Machine Learning Using Classical Data はコメントを受け付けていません

Level Set Teleportation: An Optimization Perspective

要約

目標のレベルセットで勾配基準を最大化することにより、勾配降下(GD)を加速しようとする最適化ルーチンであるテレポーテーションを研究します。
テレポーテーションはより大きなステップを介して直感的にスピードアップされますが、現在の作業には凸関数の収束理論、テレポーテーションオペレーターの解決の保証、さらにはこの加速を示す明確な経験的証拠さえありません。
これらの未解決の質問を解決します。
ヘシアンの安定性を満たす凸関数の場合、テレポーテーションを備えたGDが、最適ギャップが小さいときにGDよりも厳密に高速なサブ線形/線形収束速度を組み合わせて得ることを証明します。
これは、テレポーテーションが収束を改善せず、悪化させない標準的な(強い)凸状の設定とは対照的です。
実際にテレポーテーションを評価するために、ヘシアンベクトル製品のみを必要とする投影段階的な方法を開発します。
これを使用して、テレポーテーションオラクルへのアクセスを伴うグラデーションメソッドを示して、さまざまな問題について標準バージョンを実行します。
また、テレポートを備えたGDは、特に非凸最適化のために、切り捨てられたニュートン法よりも速いことがわかります。

要約(オリジナル)

We study level set teleportation, an optimization routine which tries to accelerate gradient descent (GD) by maximizing the gradient norm over a level set of the objective. While teleportation intuitively speeds-up GD via bigger steps, current work lacks convergence theory for convex functions, guarantees for solving the teleportation operator, and even clear empirical evidence showing this acceleration. We resolve these open questions. For convex functions satisfying Hessian stability, we prove that GD with teleportation obtains a combined sub-linear/linear convergence rate which is strictly faster than GD when the optimality gap is small. This is in sharp contrast to the standard (strongly) convex setting, where teleportation neither improves nor worsens convergence. To evaluate teleportation in practice, we develop a projected-gradient method requiring only Hessian-vector products. We use this to show that gradient methods with access to a teleportation oracle out-perform their standard versions on a variety of problems. We also find that GD with teleportation is faster than truncated Newton methods, particularly for non-convex optimization.

arxiv情報

著者 Aaron Mishkin,Alberto Bietti,Robert M. Gower
発行日 2025-03-18 17:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Level Set Teleportation: An Optimization Perspective はコメントを受け付けていません

An Effective Theory of Bias Amplification

要約

機械学習モデルは、データに存在するバイアスをキャプチャして増幅することができ、ソーシャルグループ間で異なるテストパフォーマンスにつながります。
これらのバイアスをよりよく理解し、評価し、軽減するには、モデルの設計の選択とデータ分布プロパティがどのようにバイアスに貢献するかについてのより深い理論的理解が必要です。
この作業では、ランダム投影の有無にかかわらず、尾根回帰のコンテキストで正確な分析理論を貢献します。以前のモデルは、単純化されたレジームでニューラルネットワークをフィードします。
私たちの理論は、機械学習バイアスの統一された厳密な説明を提供し、さまざまな特徴およびパラメーター体制におけるバイアス増幅や少数派グループバイアスなどの現象に関する洞察を提供します。
たとえば、バイアス増幅を避けるために最適な正則化ペナルティまたはトレーニング時間がある可能性があり、パラメーター化の増加に伴うグループ間でテストエラーに違いがある可能性があることがわかります。
重要なことに、私たちの理論的予測は、機械学習バイアスに関する文献で報告されている経験的観察と一致しています。
合成および半合成データセットに関する理論を広範囲に経験的に検証します。

要約(オリジナル)

Machine learning models can capture and amplify biases present in data, leading to disparate test performance across social groups. To better understand, evaluate, and mitigate these biases, a deeper theoretical understanding of how model design choices and data distribution properties contribute to bias is needed. In this work, we contribute a precise analytical theory in the context of ridge regression, both with and without random projections, where the former models feedforward neural networks in a simplified regime. Our theory offers a unified and rigorous explanation of machine learning bias, providing insights into phenomena such as bias amplification and minority-group bias in various feature and parameter regimes. For example, we observe that there may be an optimal regularization penalty or training time to avoid bias amplification, and there can be differences in test error between groups that are not alleviated with increased parameterization. Importantly, our theoretical predictions align with empirical observations reported in the literature on machine learning bias. We extensively empirically validate our theory on synthetic and semi-synthetic datasets.

arxiv情報

著者 Arjun Subramonian,Samuel J. Bell,Levent Sagun,Elvis Dohmatob
発行日 2025-03-18 17:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, stat.ML | An Effective Theory of Bias Amplification はコメントを受け付けていません

AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation

要約

エンドツーエンドの音声翻訳では、エンコーダーによって学んだ音響表現は、通常、デコーダーの観点から固定された静的です。
このホワイトペーパーでは、デコーダーの隠された状態に従ってさまざまな音響状態の利点を示し、デコーダー内の音響状態を動的に適応させることができる適応的な音声からテキストへの翻訳モデルを提案します。
音響状態とターゲットワードの埋め込みシーケンスを連結し、連結されたシーケンスをデコーダー内の後続のブロックに供給します。
音響状態とターゲット隠された状態間の深い相互作用をモデル化するために、従来のクロスアテナンスネットワークを置き換えるために、音声テキストの混合注意崇拝者が導入されています。
2つの広く使用されているデータセットの実験結果は、提案された方法が最先端の神経音声翻訳モデルを大幅に上回ることを示しています。

要約(オリジナル)

In end-to-end speech translation, acoustic representations learned by the encoder are usually fixed and static, from the perspective of the decoder, which is not desirable for dealing with the cross-modal and cross-lingual challenge in speech translation. In this paper, we show the benefits of varying acoustic states according to decoder hidden states and propose an adaptive speech-to-text translation model that is able to dynamically adapt acoustic states in the decoder. We concatenate the acoustic state and target word embedding sequence and feed the concatenated sequence into subsequent blocks in the decoder. In order to model the deep interaction between acoustic states and target hidden states, a speech-text mixed attention sublayer is introduced to replace the conventional cross-attention network. Experiment results on two widely-used datasets show that the proposed method significantly outperforms state-of-the-art neural speech translation models.

arxiv情報

著者 Wuwei Huang,Dexin Wang,Deyi Xiong
発行日 2025-03-18 11:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | AdaST: Dynamically Adapting Encoder States in the Decoder for End-to-End Speech-to-Text Translation はコメントを受け付けていません

Towards Harmless Multimodal Assistants with Blind Preference Optimization

要約

マルチモーダル大手言語モデル(MLLM)は、マルチモーダルの理解、推論、および相互作用において印象的な能力を実証しています。
MLLMSの広範なアプリケーションを考えると、関連する安全性の問題がますます重要になっています。
MLLMを人間の好みに合わせる際の優先最適化の有効性により、MLLMの安全関連データが緊急に必要です。
これに対処するために、マルチモーダルの指示、会話形式、および人間のフィードバックからのランク付けされたペアの応答を備えた無害なマルチモーダルアシスタントに向けて、MMSAFE-PO優先データセットを構築します。
また、2つの洞察に満ちた観察結果を特定します。モダリティの共同防衛とモダリティの不正行為。これは、MLLMが固有の安全性の課題を提示しながら、一定レベルの固有の防御を持っていることを示しています。
これらの観察に基づいて、盲目的優先最適化(BPO)アプローチを提案します。
3つのベンチマークでの包括的な実験は、BPOがMLLMの安全能力を効果的に強化することを示しています。
特に、BPOはベースMLLMの安全率を45.0%大幅に改善し、DPOアプローチを上回ります。
さらに、BPOをMMSAFE-POデータセットに適用すると、他の安全ベンチマークでのベースMLLMの危険なレートが大幅に低下します(MMセーフティベンチで14.5%、harmevalで82.9%がデータセットとアプローチの両方の有効性と堅牢性を示しています。
https://lu-yang666.github.io/mmsafe-po-web/。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. Given the extensive applications of MLLMs, the associated safety issues have become increasingly critical. Due to the effectiveness of preference optimization in aligning MLLMs with human preferences, there is an urgent need for safety-related preference data for MLLMs. To address this, we construct the MMSafe-PO preference dataset towards harmless multimodal assistants, featuring multimodal instructions, the conversational format, and ranked paired responses from human feedback. We also identify two insightful observations: modality co-defense and modality cheating, which illustrate that MLLMs possess a certain level of inherent defense while still presenting unique safety challenges. Based on these observations, we propose the Blind Preference Optimization (BPO) approach. Comprehensive experiments on three benchmarks show that BPO effectively enhances the safety capabilities of MLLMs. Notably, BPO significantly improves the safety rate of the base MLLM by 45.0%, outperforming the DPO approach. Additionally, applying BPO to the MMSafe-PO dataset greatly reduces the base MLLM’s unsafe rate on other safety benchmarks (14.5% on MM-SafetyBench and 82.9% on HarmEval, demonstrating the effectiveness and robustness of both the dataset and the approach. We release code and data at https://lu-yang666.github.io/MMsafe-PO-Web/.

arxiv情報

著者 Yongqi Li,Lu Yang,Jian Wang,Runyang You,Wenjie Li,Liqiang Nie
発行日 2025-03-18 12:02:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Towards Harmless Multimodal Assistants with Blind Preference Optimization はコメントを受け付けていません

Implicit Reasoning in Transformers is Reasoning through Shortcuts

要約

OpenaiのO1とO3の成功とDeepseekのR1の成功によって示されるように、テスト時間計算は、言語モデルの複雑なマルチステップ推論機能を強化するための新しいパラダイムとして浮上しています。
テスト時間計算における明示的な推論と比較して、暗黙的な推論はより推論効率が高く、生成されたトークンが少ない必要があります。
しかし、なぜ高度な推論能力が暗黙の推論スタイルで出現できないのですか?
この作業では、キュートされたマルチステップ数学的推論データセットでGPT-2をゼロから訓練し、分析実験を実施して、言語モデルがマルチステップタスクで暗黙の推論を実行する方法を調査します。
私たちの調査結果は、1)言語モデルが段階的な推論を実行し、暗黙の推論を介して領域内および領域外テストの両方で高い精度を達成することができます。
ただし、この機能は、固定パターンデータでトレーニングされた場合にのみ出現します。
2)逆に、無解像度のパターンデータのトレーニングから生じる暗黙の推論能力は、特定のパターンに過剰に適合し、さらに一般化することができない傾向があります。
特に、この制限は、最先端の大規模な言語モデルでも観察されます。
これらの調査結果は、言語モデルがショートカット学習を通じて暗黙的な推論を獲得し、一般化を欠いている間、同様のパターンのタスクで強力なパフォーマンスを可能にすることを示唆しています。

要約(オリジナル)

Test-time compute is emerging as a new paradigm for enhancing language models’ complex multi-step reasoning capabilities, as demonstrated by the success of OpenAI’s o1 and o3, as well as DeepSeek’s R1. Compared to explicit reasoning in test-time compute, implicit reasoning is more inference-efficient, requiring fewer generated tokens. However, why does the advanced reasoning capability fail to emerge in the implicit reasoning style? In this work, we train GPT-2 from scratch on a curated multi-step mathematical reasoning dataset and conduct analytical experiments to investigate how language models perform implicit reasoning in multi-step tasks. Our findings reveal: 1) Language models can perform step-by-step reasoning and achieve high accuracy in both in-domain and out-of-domain tests via implicit reasoning. However, this capability only emerges when trained on fixed-pattern data. 2) Conversely, implicit reasoning abilities emerging from training on unfixed-pattern data tend to overfit a specific pattern and fail to generalize further. Notably, this limitation is also observed in state-of-the-art large language models. These findings suggest that language models acquire implicit reasoning through shortcut learning, enabling strong performance on tasks with similar patterns while lacking generalization.

arxiv情報

著者 Tianhe Lin,Jian Xie,Siyu Yuan,Deqing Yang
発行日 2025-03-18 12:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Implicit Reasoning in Transformers is Reasoning through Shortcuts はコメントを受け付けていません

Benchmarking Failures in Tool-Augmented Language Models

要約

ツールの統合により、バニラテキスト生成を超えて言語モデル(LMS)の機能が多用途のシナリオに拡張されました。
ただし、ツールの高級言語モデル(タルム)は、多くの場合、「完全な」情報アクセスとツールの可用性を想定していますが、これは現実の世界では保持されない可能性があります。
Talmsの欠陥を体系的に研究するために、2つの主要な障害を特徴とするFail-Talmsベンチマークを紹介します。
Fail-Talmsには、単一およびマルチツールの使用を含む21のカテゴリにわたって906ツールを使用した1,749の例が含まれています。
最高のパフォーマンスの独自およびオープンソースモデルを評価し、不足しているツールや情報を認識するためのClaudeの苦労を除くすべての現在のモデルを見つけます。
さらに、障害の可能性のある緩和を研究するために、Ask-and-Help(AAH)メソッドと名付けられたリアルタイムの人間の相互作用を可能にし、不足している情報を提供するか、非機能ツールを置き換えます。
AAHは、クエリが不足している場合、モデルがタスクをより正確に解決するのに役立ちますが、複雑なツールが壊れたときに最小限の利益をもたらします。

要約(オリジナル)

The integration of tools has extended the capabilities of language models (LMs) beyond vanilla text generation to versatile scenarios. However, tool-augmented language models (TaLMs) often assume ‘perfect’ information access and tool availability, which may not hold in the real world. To systematically study TaLMs’ imperfections, we introduce the FAIL-TALMS benchmark, featuring two major failures: under-specified user queries and non-available tools. FAIL-TALMS contains 1,749 examples using 906 tools across 21 categories, including single- and multi-tool usage. We evaluate top-performing proprietary and open-source models, and find all current models except for Claude struggle to recognize missing tools or information. Further, to study possible mitigation of the failures, we enable real-time human interaction, named the Ask-and-Help (AAH) method, to provide missing information or replace non-functional tools. While AAH can help models solve tasks more correctly when queries are under-specified, it brings minimal benefit when complex tools are broken.

arxiv情報

著者 Eduardo Treviño,Hugo Contant,James Ngai,Graham Neubig,Zora Zhiruo Wang
発行日 2025-03-18 13:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE | Benchmarking Failures in Tool-Augmented Language Models はコメントを受け付けていません

Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues

要約

Mamba、RWKV、GLA、MLSTM、Deltanetなどの線形再発性ニューラルネットワーク(LRNN)は、長いシーケンスの変圧器に代わる効率的な代替品として浮上しています。
ただし、トランスとLRNNの両方が状態追跡の実行に苦労しているため、コード評価などのタスクのパフォーマンスを損なう可能性があります。
1つのフォワードパスでは、現在のアーキテクチャは、非線形RNNが効果的に処理できる最も単純な状態追跡タスクであるパリティさえも解決できません。
最近、Sarrof et al。
(2024)マンバのようなLRNNがパリティステムを解決できなかったことが、斜めの状態遷移行列の値の範囲を$ [0、1] $に制限することから、負の値を組み込むことでこの問題を解決できることを実証しました。
この結果は、Deltanetなどの非対角LRNNに拡張します。
正の固有値のみを有する状態移動マトリックスを持つ有限精度のLRNNは、平等を解くことができないが、非三角マトリックスがmodulo $ 3 $をカウントするために必要であることを証明します。
特に、LRNNは、状態移動マトリックスがアイデンティティからベクトル外積マトリックスの積である場合、それぞれ$ [1、1] $に固有値を持つベクトル外積マトリックスの積であることを証明します。
私たちの実験では、マンバとデルタネットの固有値範囲を拡張して負の値を含めることにより、パリティを解決できるだけでなく、状態追跡タスクのパフォーマンスが一貫して改善されることが確認されています。
また、状態追跡可能なLRNNが大規模で安定して効率的に事前に排除され(1.3bパラメーター)、言語モデリングの競争力のあるパフォーマンスを達成し、コードと数学のタスクでの見込みを示すことができることを示しています。

要約(オリジナル)

Linear Recurrent Neural Networks (LRNNs) such as Mamba, RWKV, GLA, mLSTM, and DeltaNet have emerged as efficient alternatives to Transformers for long sequences. However, both Transformers and LRNNs struggle to perform state-tracking, which may impair performance in tasks such as code evaluation. In one forward pass, current architectures are unable to solve even parity, the simplest state-tracking task, which non-linear RNNs can handle effectively. Recently, Sarrof et al. (2024) demonstrated that the failure of LRNNs like Mamba to solve parity stems from restricting the value range of their diagonal state-transition matrices to $[0, 1]$ and that incorporating negative values can resolve this issue. We extend this result to non-diagonal LRNNs such as DeltaNet. We prove that finite precision LRNNs with state-transition matrices having only positive eigenvalues cannot solve parity, while non-triangular matrices are needed to count modulo $3$. Notably, we also prove that LRNNs can learn any regular language when their state-transition matrices are products of identity minus vector outer product matrices, each with eigenvalues in the range $[-1, 1]$. Our experiments confirm that extending the eigenvalue range of Mamba and DeltaNet to include negative values not only enables them to solve parity but consistently improves their performance on state-tracking tasks. We also show that state-tracking enabled LRNNs can be pretrained stably and efficiently at scale (1.3B parameters), achieving competitive performance on language modeling and showing promise on code and math tasks.

arxiv情報

著者 Riccardo Grazzi,Julien Siems,Arber Zela,Jörg K. H. Franke,Frank Hutter,Massimiliano Pontil
発行日 2025-03-18 13:13:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG | Unlocking State-Tracking in Linear RNNs Through Negative Eigenvalues はコメントを受け付けていません

Zero-Shot Action Recognition in Surveillance Videos

要約

公共スペースでの監視に対する需要の高まりは、人的資源の不足により大きな課題を提示します。
現在のAIベースのビデオ監視システムは、広範な微調整を必要とするコアコンピュータービジョンモデルに大きく依存しています。これは、限られたデータセットと困難な設定(視点、低品質など)のために監視設定で特に困難です。
この作業では、監視におけるビデオ理解タスクに取り組むために、強力なゼロと少数のショットの一般化で知られる大きなビジョン言語モデル(LVLMS)を活用することを提案します。
具体的には、Videollama2、最先端のLVLM、および改善されたトークンレベルのサンプリング方法、自己反射サンプリング(自己救済)を探索します。
UCF犯罪データセットでの実験は、Videollama2がゼロショットパフォーマンスの大幅な飛躍を表しており、ベースラインを20%増加させることを示しています。
さらに、自己はゼロショットアクション認識パフォーマンスを44.6%に増加させます。
これらの結果は、多様なシナリオで監視ビデオ分析を進めるために、改善されたサンプリング手法と組み合わせたLVLMSの可能性を強調しています。

要約(オリジナル)

The growing demand for surveillance in public spaces presents significant challenges due to the shortage of human resources. Current AI-based video surveillance systems heavily rely on core computer vision models that require extensive finetuning, which is particularly difficult in surveillance settings due to limited datasets and difficult setting (viewpoint, low quality, etc.). In this work, we propose leveraging Large Vision-Language Models (LVLMs), known for their strong zero and few-shot generalization, to tackle video understanding tasks in surveillance. Specifically, we explore VideoLLaMA2, a state-of-the-art LVLM, and an improved token-level sampling method, Self-Reflective Sampling (Self-ReS). Our experiments on the UCF-Crime dataset show that VideoLLaMA2 represents a significant leap in zero-shot performance, with 20% boost over the baseline. Self-ReS additionally increases zero-shot action recognition performance to 44.6%. These results highlight the potential of LVLMs, paired with improved sampling techniques, for advancing surveillance video analysis in diverse scenarios.

arxiv情報

著者 Joao Pereira,Vasco Lopes,David Semedo,Joao Neves
発行日 2025-03-18 13:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Zero-Shot Action Recognition in Surveillance Videos はコメントを受け付けていません

JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System

要約

このペーパーでは、中国の法制度における判断文書生成のパフォーマンスを評価するための新しいベンチマークである裁判官(判決文書生成評価)を紹介します。
このタスクを、ケースの特定の事実の説明から完全な法的判断文書を生成するものとして定義します。
このベンチマークを容易にするために、実際の法的ケースからの事実の説明からなる包括的なデータセットを構築し、それに対応する完全な判断文書と組み合わせて、生成された文書の品質を評価するための基本的な真理として機能します。
このデータセットは、タスクに追加の法的知識を提供する2つの外部の法的コーパスによってさらに補強されています。1つは法令と規制で構成され、もう1つは過去の判断文書の大規模なコレクションで構成されています。
法律専門家と協力して、さまざまな次元にわたる生成された判断文書の品質を評価するための包括的な自動評価フレームワークを確立します。
一般的なドメインLLMと法的ドメインLMSの両方を使用して、少数のショットコンテキスト内学習、微調整、およびマルチソース検索の高級世代(RAG)アプローチなど、さまざまなベースラインアプローチを評価します。
実験結果は、RAGアプローチがこのタスクのパフォーマンスを効果的に改善できるが、さらなる改善の余地がまだあることを示しています。
すべてのコードとデータセットは、https://github.com/oneal2000/judgeで入手できます。

要約(オリジナル)

This paper introduces JuDGE (Judgment Document Generation Evaluation), a novel benchmark for evaluating the performance of judgment document generation in the Chinese legal system. We define the task as generating a complete legal judgment document from the given factual description of the case. To facilitate this benchmark, we construct a comprehensive dataset consisting of factual descriptions from real legal cases, paired with their corresponding full judgment documents, which serve as the ground truth for evaluating the quality of generated documents. This dataset is further augmented by two external legal corpora that provide additional legal knowledge for the task: one comprising statutes and regulations, and the other consisting of a large collection of past judgment documents. In collaboration with legal professionals, we establish a comprehensive automated evaluation framework to assess the quality of generated judgment documents across various dimensions. We evaluate various baseline approaches, including few-shot in-context learning, fine-tuning, and a multi-source retrieval-augmented generation (RAG) approach, using both general and legal-domain LLMs. The experimental results demonstrate that, while RAG approaches can effectively improve performance in this task, there is still substantial room for further improvement. All the codes and datasets are available at: https://github.com/oneal2000/JuDGE.

arxiv情報

著者 Weihang Su,Baoqing Yue,Qingyao Ai,Yiran Hu,Jiaqi Li,Changyue Wang,Kaiyuan Zhang,Yueyue Wu,Yiqun Liu
発行日 2025-03-18 13:48:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System はコメントを受け付けていません