LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates

要約

最近の発見は、変圧器ベースの大手言語モデル(LLM)の知識の多くがそのフィードフォワード(FFN)層にエンコードされていることを明らかにしています。そこでは、各FNN層は、それぞれが人間の概念的概念をエンコードするFFNの値パラメーターマトリックスからの加重列ベクトルに対応するサブアップデートの合計として解釈できます。
これに照らして、入力またはターゲットの出力スタイルに関連するこれらのサブアップデートの貢献を調整することにより、モデルのパフォーマンスと動作をさらに強化および制御できると仮定し、LLMBRACES、FFN層の価値ベクターに関連する関連スコアを計算する斬新で効率的な方法を提案し、これらのスコアをダイナミックに調整するためにこれらのスコアを調整します。
サブアップデートの寄付を最適化することにより、LLMBRACESは予測プロセスを改良し、サポートと安定性を提供する「ブレース」と同じように、より正確で信頼性の高い出力につながります。
さらに、LLMBRACESを拡張して、センチメントなどの生成特性に対する条件付き制御をサポートするため、LLM出力の細粒ステアリングを提供できます。
QWEN2.5-1.5B、LLAMA2-7B、およびLLAMA3-8Bを含むさまざまなLLMSを含む広範な実験は、LLMBRACesが微調整とゼロショットの両方の設定でベースラインアプローチを上回りながら、有意に少数の調整可能なパラメーターを必要とし、LORAを比較して比較します。
さらに、LLMBRACESは感情制御された世代と毒性低下に優れており、アプリケーション全体で柔軟で制御されたテキスト生成の可能性を強調しています。

要約(オリジナル)

Recent findings reveal that much of the knowledge in a Transformer-based Large Language Model (LLM) is encoded in its feed-forward (FFN) layers, where each FNN layer can be interpreted as the summation of sub-updates, each corresponding to a weighted column vector from the FFN’s value parameter matrix that often encodes human-interpretable concepts. In light of this, we hypothesize that model performance and behaviors can be further enhanced and controlled by modulating the contributions of these sub-updates based on their relevance to the input or target output style, and propose LLMBRACES, a novel and efficient method that computes relevance scores associated with value vectors in FFN layers and leverages these scores to dynamically adjust the contribution of sub-updates. By optimizing sub-update contributions, LLMBRACES refines the prediction process, leading to more accurate and reliable outputs, much like a ‘brace’ providing support and stability. Moreover, LLMBRACES can be extended to support conditional control over generation characteristics, such as sentiment, thereby offering fine-grained steering of LLM outputs. Extensive experiments on various LLMs-including Qwen2.5-1.5B, Llama2-7B, and Llama3-8B-demonstrate that LLMBRACES outperforms baseline approaches in both fine-tuning and zero-shot settings while requiring significantly fewer tunable parameters, up to 75% fewer compared to LoRA. Furthermore, LLMBRACES excels in sentiment-controlled generation and toxicity reduction, highlighting its potential for flexible, controlled text generation across applications.

arxiv情報

著者 Ying Shen,Lifu Huang
発行日 2025-03-20 16:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM Braces: Straightening Out LLM Predictions with Relevant Sub-Updates はコメントを受け付けていません

Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning

要約

デコーダーのみのトランスフォーマーは、多くの場合、複雑な推論タスク、特に複数のシーケンシャル操作を必要とする算術的推論に苦労しています。
この作業では、推論能力を制限する重要な要因として、モデルの中間層の表現崩壊を特定します。
これに対処するために、中間表現のエントロピーを強化し、崩壊を防ぐための連続分散分散正規化(SEQ-VCR)を提案します。
ダミーの一時停止トークンと組み合わさって、思考のチェーン(COT)トークンの代替品として、我々の方法は算術推論の問題のパフォーマンスを大幅に改善します。
挑戦的な$ 5 \ times 5 $整数乗算タスクでは、私たちのアプローチは、$ 99.5 \%$の正確な一致の精度、同じサイズのモデルを上回るモデル(0 \%$の精度)および5ショットのCOTプロンプト($ 44 \%$)を備えたGPT-4を達成します。
また、算術式と最長のサブシーケンス(LIS)データセットに関する優れた結果も示します。
私たちの調査結果は、変圧器の推論能力を高めるために中間層表現の崩壊を防ぐことの重要性を強調し、SEQ-VCRが明示的なCOT監督を必要とせずに効果的なソリューションを提供することを示しています。

要約(オリジナル)

Decoder-only Transformers often struggle with complex reasoning tasks, particularly arithmetic reasoning requiring multiple sequential operations. In this work, we identify representation collapse in the model’s intermediate layers as a key factor limiting their reasoning capabilities. To address this, we propose Sequential Variance-Covariance Regularization (Seq-VCR), which enhances the entropy of intermediate representations and prevents collapse. Combined with dummy pause tokens as substitutes for chain-of-thought (CoT) tokens, our method significantly improves performance in arithmetic reasoning problems. In the challenging $5 \times 5$ integer multiplication task, our approach achieves $99.5\%$ exact match accuracy, outperforming models of the same size (which yield $0\%$ accuracy) and GPT-4 with five-shot CoT prompting ($44\%$). We also demonstrate superior results on arithmetic expression and longest increasing subsequence (LIS) datasets. Our findings highlight the importance of preventing intermediate layer representation collapse to enhance the reasoning capabilities of Transformers and show that Seq-VCR offers an effective solution without requiring explicit CoT supervision.

arxiv情報

著者 Md Rifat Arefin,Gopeshh Subbaraj,Nicolas Gontier,Yann LeCun,Irina Rish,Ravid Shwartz-Ziv,Christopher Pal
発行日 2025-03-20 17:37:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Seq-VCR: Preventing Collapse in Intermediate Transformer Representations for Enhanced Reasoning はコメントを受け付けていません

Masked Mixers for Language Generation and Retrieval

要約

入力要素の厳密なサブセットに選択的に焦点を当てる注意メカニズムは、今日の言語モデルではほぼ遍在しています。
私たちは注意の使用に欠点があると仮定します:ほとんどの入力情報は失われます。
このアイデアをサポートして、変圧器の入力表現の精度が不十分であり、マスクミキサーと呼ばれるもののより正確な表現を観察します。
マスクされたミキサーは、初期の変圧器の実装よりも効率的に因果言語モデリングを学習し、小型でトレーニングするときに最適化された現在の変圧器よりも優れています($ n_ {ctx} <512 $)が、より大きなコンテキストウィンドウではありません。 さまざまなタスクの変圧器とマスクされたミキサートレーニング効率の違いが、入力表現の精度、または同等にグローバルな反転性によって最もよく予測されるという仮説の証拠が提示されています。 トランスが示す情報の損失は、生成よりも検索に対してより有害であると仮定します。前者は、生物物語、したがって反転可能な機能によってより密接に近似されているためです。 マスクされたミキサーは、前処理された埋め込みモデルが変更されていない場合と、埋め込みモデルがコサインの類似性ベースのインフォンセ損失の最小化を介して変更されたときの両方で、より効果的な検索モデルであることがわかります。 後者は、より多くのデータと計算で訓練されているにもかかわらず、小さなマスクミキサーが大規模で最先端の変圧器ベースの検索モデルよりも優れていることが示されています。

要約(オリジナル)

Attention mechanisms that confer selective focus on a strict subset of input elements are nearly ubiquitous in language models today. We posit there to be downside to the use of attention: most input information is lost. In support of this idea we observe poor input representation accuracy in transformers and more accurate representation in what we term masked mixers, which replace self-attention with masked convolutions. The masked mixer learns causal language modeling more efficiently than early transformer implementations and even outperforms optimized, current transformers when training on small ($n_{ctx}<512$) but not larger context windows. Evidence is presented for the hypothesis that differences in transformer and masked mixer training efficiencies for various tasks are best predicted by input representation accuracy, or equivalently global invertibility. We hypothesize that the information loss exhibited by transformers would be more detrimental to retrieval than generation, as the former is more closely approximated by a bijective and thus invertible function. We find that masked mixers are more effective retrieval models both when the pretrained embedding model is unchanged as well as when the embedding model is modified via cosine similarity-based InfoNCE loss minimization. A small masked mixer is shown to outperform a large and near state-of-the-art transformer-based retrieval model, despite the latter being trained with many orders of magnitude more data and compute.

arxiv情報

著者 Benjamin L. Badger
発行日 2025-03-20 17:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Masked Mixers for Language Generation and Retrieval はコメントを受け付けていません

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

要約

大規模な言語モデル(LLM)は、複雑なタスクで顕著な能力を示しています。
Openai O1やDeepSeek-R1などの大規模な推論モデル(LRMS)の最近の進歩は、数学や補強施設(SFT)および強化学習(RL)テクニックを活用して、チェーン(COT)の推論を強化することにより、数学やプログラミングなどのシステム-2推論ドメインのパフォーマンスをさらに改善しました。
ただし、COTの推論シーケンスが長いとパフォーマンスが向上しますが、「考え直しの現象」として知られる冗長および冗長な出力のために、重要な計算オーバーヘッドも導入します。
この論文では、LLMSで効率的な推論を達成するための現在の進歩を体系的に調査および調査するための最初の構造化調査を提供します。
全体として、LLMSの固有のメカニズムに依存して、既存の作業をいくつかの重要な方向に分類します。(1)モデルベースの効率的な推論は、より簡潔な推論モデルをより簡潔な推論モデルに最適化するか、効率的な推論モデルを直接トレーニングすることを考慮します。
(2)推論中の推論ステップと長さを動的に削減することを目的とする出力ベースの効率的な推論を推論する。
(3)入力プロンプトベースの効率的な推論は、難易度や長さの制御などの入力プロンプトプロパティに基づいて推論効率を高めることを目指しています。
さらに、推論モデルのトレーニングに効率的なデータの使用を紹介し、小言語モデルの推論機能を調査し、評価方法とベンチマークについて議論します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as OpenAI o1 and DeepSeek-R1, have further improved performance in System-2 reasoning domains like mathematics and programming by harnessing supervised fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences improve performance, they also introduce significant computational overhead due to verbose and redundant outputs, known as the ‘overthinking phenomenon’. In this paper, we provide the first structured survey to systematically investigate and explore the current progress toward achieving efficient reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we categorize existing works into several key directions: (1) model-based efficient reasoning, which considers optimizing full-length reasoning models into more concise reasoning models or directly training efficient reasoning models; (2) reasoning output-based efficient reasoning, which aims to dynamically reduce reasoning steps and length during inference; (3) input prompts-based efficient reasoning, which seeks to enhance reasoning efficiency based on input prompt properties such as difficulty or length control. Additionally, we introduce the use of efficient data for training reasoning models, explore the reasoning capabilities of small language models, and discuss evaluation methods and benchmarking.

arxiv情報

著者 Yang Sui,Yu-Neng Chuang,Guanchu Wang,Jiamu Zhang,Tianyi Zhang,Jiayi Yuan,Hongyi Liu,Andrew Wen,Shaochen,Zhong,Hanjie Chen,Xia Hu
発行日 2025-03-20 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models はコメントを受け付けていません

Large Language Models for Water Distribution Systems Modeling and Decision-Making

要約

配水システム(WDS)の設計、運用、および管理には、複雑な数学モデルが含まれます。
これらのモデルは、計算の進歩により継続的に改善されており、意思決定の改善とより効率的なWDS管理につながります。
ただし、結果のモデリング、プログラミング、分析に必要な重要な時間と労力は、大きな課題のままです。
別の問題は専門的な負担です。これは、モデル、データベース、およびその他の洗練されたツールとの相互作用を、専門家の小さなグループに限定し、それにより、非技術的な利害関係者がこれらの専門家に依存したり、サポートをモデル化することなく決定を下したりします。
さらに、モデルの結果を説明することは、専門家にとっても挑戦的です。これは、どの条件が特定の状態に到達するか、特定のポリシーを推奨する条件が不明であることが多いためです。
大規模な言語モデル(LLMS)の最近の進歩は、ヒューマンモデルの相互作用の新しい段階のドアを開きます。
この研究は、LLM-Epanetアーキテクチャに基づいた油圧モデルと水質モデルとの平易な言語相互作用の枠組みを提案しています。
このフレームワークは、LLMがWDSモデルと相互作用し、複雑なシミュレーションを実行し、シミュレーション結果を報告する能力を研究するために、クエリの複雑さのレベルの増加でテストされています。
提案されたフレームワークのパフォーマンスは、いくつかのカテゴリのクエリとハイパーパラメーター構成で評価され、WDS管理の意思決定プロセスを強化する可能性を示しています。

要約(オリジナル)

The design, operations, and management of water distribution systems (WDS) involve complex mathematical models. These models are continually improving due to computational advancements, leading to better decision-making and more efficient WDS management. However, the significant time and effort required for modeling, programming, and analyzing results remain substantial challenges. Another issue is the professional burden, which confines the interaction with models, databases, and other sophisticated tools to a small group of experts, thereby causing non-technical stakeholders to depend on these experts or make decisions without modeling support. Furthermore, explaining model results is challenging even for experts, as it is often unclear which conditions cause the model to reach a certain state or recommend a specific policy. The recent advancements in Large Language Models (LLMs) open doors for a new stage in human-model interaction. This study proposes a framework of plain language interactions with hydraulic and water quality models based on LLM-EPANET architecture. This framework is tested with increasing levels of complexity of queries to study the ability of LLMs to interact with WDS models, run complex simulations, and report simulation results. The performance of the proposed framework is evaluated across several categories of queries and hyper-parameter configurations, demonstrating its potential to enhance decision-making processes in WDS management.

arxiv情報

著者 Yinon Goldshtein,Gal Perelman,Assaf Schuster,Avi Ostfeld
発行日 2025-03-20 14:39:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | Large Language Models for Water Distribution Systems Modeling and Decision-Making はコメントを受け付けていません

‘Moralized’ Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks

要約

大規模な言語モデルの適用がさまざまな分野で拡大し続けるにつれて、有害なコンテンツ生成とガードレールメカニズムを特定するという有効性に大きな課題をもたらします。
この研究の目的は、GPT-4O、GROK-2ベータ、Llama 3.1(405b)、Gemini 1.5、およびClaude 3.5ソネットのガードレールの有効性を、一見倫理的なマルチステップの脱獄プロンプトのブラックボックステストを通じて評価することを目的としています。
「プロモーションを競う企業の中間マネージャー」のシナリオをシミュレートする同一のマルチステッププロンプトを設計することにより、倫理的攻撃を実施します。
データの結果は、上記のLLMのガードレールがバイパスされ、言葉による攻撃の内容が生成されたことを示しています。
Claude 3.5 Sonnetのマルチステップの脱獄プロンプトに対する抵抗はより明白です。
客観性を確保するために、実験プロセス、ブラックボックステストコード、および強化されたガードレールコードは、githubリポジトリにアップロードされます:https://github.com/brucewang123456789/geniustrail.git。

要約(オリジナル)

As the application of large language models continues to expand in various fields, it poses higher challenges to the effectiveness of identifying harmful content generation and guardrail mechanisms. This research aims to evaluate the guardrail effectiveness of GPT-4o, Grok-2 Beta, Llama 3.1 (405B), Gemini 1.5, and Claude 3.5 Sonnet through black-box testing of seemingly ethical multi-step jailbreak prompts. It conducts ethical attacks by designing an identical multi-step prompts that simulates the scenario of ‘corporate middle managers competing for promotions.’ The data results show that the guardrails of the above-mentioned LLMs were bypassed and the content of verbal attacks was generated. Claude 3.5 Sonnet’s resistance to multi-step jailbreak prompts is more obvious. To ensure objectivity, the experimental process, black box test code, and enhanced guardrail code are uploaded to the GitHub repository: https://github.com/brucewang123456789/GeniusTrail.git.

arxiv情報

著者 Libo Wang
発行日 2025-03-20 14:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR | ‘Moralized’ Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks はコメントを受け付けていません

Logic Explanation of AI Classifiers by Categorical Explaining Functors

要約

説明可能な人工知能の最も一般的な方法は、前処理された不透明モデルで使用される最も関連性の高い機能を特定する事後技術です。
最も高度な事後の方法のいくつかは、ロジックルールの形式での入力機能の相互相互作用を説明する説明を生成できます。
ただし、これらの方法は、抽出された説明の一貫性をモデルの根本的な推論と保証することができないことがよくあります。
このギャップを埋めるために、現在のヒューリスティックベースのアプローチの限界を超えて、抽出された説明の一貫性と忠実度を確保するために、理論的に根拠のあるアプローチを提案します。
この目的のために、カテゴリー理論から描画すると、説明と不透明モデルの推論との間に論理的巻き込みを構造的に保持する説明ファンチャーを紹介します。
概念の証明として、提案されたアプローチが矛盾または不誠実な説明の生成を大幅に軽減する方法を検証する合成ベンチマーク上の提案された理論構築を検証します。

要約(オリジナル)

The most common methods in explainable artificial intelligence are post-hoc techniques which identify the most relevant features used by pretrained opaque models. Some of the most advanced post hoc methods can generate explanations that account for the mutual interactions of input features in the form of logic rules. However, these methods frequently fail to guarantee the consistency of the extracted explanations with the model’s underlying reasoning. To bridge this gap, we propose a theoretically grounded approach to ensure coherence and fidelity of the extracted explanations, moving beyond the limitations of current heuristic-based approaches. To this end, drawing from category theory, we introduce an explaining functor which structurally preserves logical entailment between the explanation and the opaque model’s reasoning. As a proof of concept, we validate the proposed theoretical constructions on a synthetic benchmark verifying how the proposed approach significantly mitigates the generation of contradictory or unfaithful explanations.

arxiv情報

著者 Stefano Fioravanti,Francesco Giannini,Paolo Frazzetto,Fabio Zanasi,Pietro Barbiero
発行日 2025-03-20 14:50:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Logic Explanation of AI Classifiers by Categorical Explaining Functors はコメントを受け付けていません

MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

要約

大規模な言語モデル(LLM)は、数学的推論において印象的な進歩を示しています。
データの増強は数学的な問題解決能力を高めることを約束していますが、現在のアプローチは、数学的知識に固有の固有の関連構造をキャプチャしてレバレッジできない構文の変動を再形成または生成するなど、インスタンスレベルの変更などに主に制限されています。
相互接続された概念への体系的な露出を通じて数学的習熟度が発達する人間の学習プロセスに触発され、MathFusionを紹介します。MathFusionは、クロスクロスの指導統合を通じて数学的推論を強化する新しいフレームワークを紹介します。
MathFusionは、3つの融合戦略を通じてこれを実装します。(1)関連する問題をモデルソリューションの依存関係に接続します。
(2)類似の問題を組み合わせて概念的理解を強化する並列融合。
(3)条件付き融合。これにより、コンテキスト対応の選択的な問題が発生し、推論の柔軟性が向上します。
これらの戦略を適用することにより、新しいデータセット\ textBf {mathfusionqa}を生成し、その後に微調整されたモデル(deepseekmath-7b、mistral-7b、llama3-8b)が続きます。
実験結果は、数学のフュージョンが高データ効率を維持しながら数学的推論の大幅な改善を達成し、多様なベンチマーク全体で18.0ポイントの精度を高める一方で、従来の単一導入アプローチよりも大幅な改善を表す45Kの追加の合成命令のみを必要とすることを示しています。
データセット、モデル、およびコードは、https://github.com/qizhipei/mathfusionで公開されています。

要約(オリジナル)

Large Language Models (LLMs) have shown impressive progress in mathematical reasoning. While data augmentation is promising to enhance mathematical problem-solving ability, current approaches are predominantly limited to instance-level modifications-such as rephrasing or generating syntactic variations-which fail to capture and leverage the intrinsic relational structures inherent in mathematical knowledge. Inspired by human learning processes, where mathematical proficiency develops through systematic exposure to interconnected concepts, we introduce MathFusion, a novel framework that enhances mathematical reasoning through cross-problem instruction synthesis. MathFusion implements this through three fusion strategies: (1) sequential fusion, which chains related problems to model solution dependencies; (2) parallel fusion, which combines analogous problems to reinforce conceptual understanding; and (3) conditional fusion, which creates context-aware selective problems to enhance reasoning flexibility. By applying these strategies, we generate a new dataset, \textbf{MathFusionQA}, followed by fine-tuning models (DeepSeekMath-7B, Mistral-7B, Llama3-8B) on it. Experimental results demonstrate that MathFusion achieves substantial improvements in mathematical reasoning while maintaining high data efficiency, boosting performance by 18.0 points in accuracy across diverse benchmarks while requiring only 45K additional synthetic instructions, representing a substantial improvement over traditional single-instruction approaches. Our datasets, models, and code are publicly available at https://github.com/QizhiPei/mathfusion.

arxiv情報

著者 Qizhi Pei,Lijun Wu,Zhuoshi Pan,Yu Li,Honglin Lin,Chenlin Ming,Xin Gao,Conghui He,Rui Yan
発行日 2025-03-20 15:00:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion はコメントを受け付けていません

JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System

要約

このペーパーでは、中国の法制度における判断文書生成のパフォーマンスを評価するための新しいベンチマークである裁判官(判決文書生成評価)を紹介します。
このタスクを、ケースの特定の事実の説明から完全な法的判断文書を生成するものとして定義します。
このベンチマークを容易にするために、実際の法的ケースからの事実の説明からなる包括的なデータセットを構築し、それに対応する完全な判断文書と組み合わせて、生成された文書の品質を評価するための基本的な真理として機能します。
このデータセットは、タスクに追加の法的知識を提供する2つの外部の法的コーパスによってさらに補強されています。1つは法令と規制で構成され、もう1つは過去の判断文書の大規模なコレクションで構成されています。
法律専門家と協力して、さまざまな次元にわたる生成された判断文書の品質を評価するための包括的な自動評価フレームワークを確立します。
一般的なドメインLLMと法的ドメインLMSの両方を使用して、少数のショットコンテキスト内学習、微調整、およびマルチソース検索の高級世代(RAG)アプローチなど、さまざまなベースラインアプローチを評価します。
実験結果は、RAGアプローチがこのタスクのパフォーマンスを効果的に改善できるが、さらなる改善の余地がまだあることを示しています。
すべてのコードとデータセットは、https://github.com/oneal2000/judgeで入手できます。

要約(オリジナル)

This paper introduces JuDGE (Judgment Document Generation Evaluation), a novel benchmark for evaluating the performance of judgment document generation in the Chinese legal system. We define the task as generating a complete legal judgment document from the given factual description of the case. To facilitate this benchmark, we construct a comprehensive dataset consisting of factual descriptions from real legal cases, paired with their corresponding full judgment documents, which serve as the ground truth for evaluating the quality of generated documents. This dataset is further augmented by two external legal corpora that provide additional legal knowledge for the task: one comprising statutes and regulations, and the other consisting of a large collection of past judgment documents. In collaboration with legal professionals, we establish a comprehensive automated evaluation framework to assess the quality of generated judgment documents across various dimensions. We evaluate various baseline approaches, including few-shot in-context learning, fine-tuning, and a multi-source retrieval-augmented generation (RAG) approach, using both general and legal-domain LLMs. The experimental results demonstrate that, while RAG approaches can effectively improve performance in this task, there is still substantial room for further improvement. All the codes and datasets are available at: https://github.com/oneal2000/JuDGE.

arxiv情報

著者 Weihang Su,Baoqing Yue,Qingyao Ai,Yiran Hu,Jiaqi Li,Changyue Wang,Kaiyuan Zhang,Yueyue Wu,Yiqun Liu
発行日 2025-03-20 15:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System はコメントを受け付けていません

Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis

要約

表現学習と生成モデリングは視覚データを理解しようとしていますが、両方のドメインを統合することは未踏のままです。
最近の統一された自己監視学習(SSL)方法は、両方のパラダイム間のギャップを埋め始めました。
ただし、セマンティックトークンの再構築のみに依存しているため、トレーニング中に外部トークン剤が必要です。
この作業では、相乗的コントラシティブな再構成の目的を組み込んだ新しい統一されたSSLフレームワークであるSorcenを紹介します。
私たちの対照的な目的「エコーコントラスト」は、ソーセンの生成能力を活用し、トレーニング中の追加の画像作物や増強の必要性を排除します。
Sorcenは、セマンティックトークンスペースにエコーサンプルを「生成」し、対照的なポジティブペアを形成します。
Sorcenは、事前に計算されたトークンでのみ動作し、トレーニング中のオンライントークン変換の必要性を排除し、それにより計算オーバーヘッドを大幅に削減します。
ImagENET-1Kの広範な実験は、Sorcenが以前の統合SSL SOTAを0.4%、1.48 FID、1.76%、および1.53%よりも優れていることを示しています。
さらに、Sorcenは、線形プロービングで以前のシングルクラップMIM SOTAを上回り、無条件の画像生成でSOTAパフォーマンスを達成し、統一されたSSLモデルの大幅な改善とブレークスルーを強調しています。

要約(オリジナル)

While representation learning and generative modeling seek to understand visual data, unifying both domains remains unexplored. Recent Unified Self-Supervised Learning (SSL) methods have started to bridge the gap between both paradigms. However, they rely solely on semantic token reconstruction, which requires an external tokenizer during training — introducing a significant overhead. In this work, we introduce Sorcen, a novel unified SSL framework, incorporating a synergic Contrastive-Reconstruction objective. Our Contrastive objective, ‘Echo Contrast’, leverages the generative capabilities of Sorcen, eliminating the need for additional image crops or augmentations during training. Sorcen ‘generates’ an echo sample in the semantic token space, forming the contrastive positive pair. Sorcen operates exclusively on precomputed tokens, eliminating the need for an online token transformation during training, thereby significantly reducing computational overhead. Extensive experiments on ImageNet-1k demonstrate that Sorcen outperforms the previous Unified SSL SoTA by 0.4%, 1.48 FID, 1.76%, and 1.53% on linear probing, unconditional image generation, few-shot learning, and transfer learning, respectively, while being 60.8% more efficient. Additionally, Sorcen surpasses previous single-crop MIM SoTA in linear probing and achieves SoTA performance in unconditional image generation, highlighting significant improvements and breakthroughs in Unified SSL models.

arxiv情報

著者 Imanol G. Estepa,Jesús M. Rodríguez-de-Vera,Ignacio Sarasúa,Bhalaji Nagarajan,Petia Radeva
発行日 2025-03-20 15:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 | Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis はコメントを受け付けていません