Context-Efficient Retrieval with Factual Decomposition

要約

最近、情報検索を大規模な言語モデル(LLM)に組み込むことにかなりの関心がありました。
動的に拡張する外部のテキストから検索すると、モデルが現在のイベントを組み込むことができ、エピソード記憶の形態と見なすことができます。
ここでは、外部コーパスを半構造化された「原子事実」に前処理すると、検索がより効率的になることを示します。
より具体的には、取得したテキストの量が限られている場合、特定の形式の原子ファクトがさまざまな質問に答えるタスクのパフォーマンスを改善することを実証します。
検索の量を制限すると、コンテキストのサイズが減り、推論効率が向上します。

要約(オリジナル)

There has recently been considerable interest in incorporating information retrieval into large language models (LLMs). Retrieval from a dynamically expanding external corpus of text allows a model to incorporate current events and can be viewed as a form of episodic memory. Here we demonstrate that pre-processing the external corpus into semi-structured ”atomic facts” makes retrieval more efficient. More specifically, we demonstrate that our particular form of atomic facts improves performance on various question answering tasks when the amount of retrieved text is limited. Limiting the amount of retrieval reduces the size of the context and improves inference efficiency.

arxiv情報

著者 Yanhong Li,David Yunis,David McAllester,Jiawei Zhou
発行日 2025-03-25 11:48:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Context-Efficient Retrieval with Factual Decomposition はコメントを受け付けていません

Learning Evaluation Models from Large Language Models for Sequence Generation

要約

伝統的にBleuやRougeなどのメトリックに依存しているシーケンス生成の自動評価は、N-GRAMのオーバーラップに重点を置いているため、生成されたテキストシーケンスのセマンティック精度をキャプチャできないことがよくあります。
この問題の有望な解決策は、ブルートやコメットなどのモデルベースのメトリックを開発することです。
ただし、これらのアプローチは通常、評価モデルをトレーニングするために必要なラベル付き評価データの希少性によって妨げられます。
この作業では、この課題に基づいて、カスタマイズされたシーケンス評価メトリック(CSEM)を提案することにより、大規模な言語モデルを利用してモデルベースのメトリック開発のラベル付きデータを生成し、それにより人間標識データの必要性を排除することにより、この課題に基づいて構築されます。
さらに、CSEMの範囲を拡張して、単一のアスペクト、マルチアスペクト、参照、参照ベースの評価など、さまざまな評価タイプをサポートし、多様な現実世界のシナリオに合わせてメトリックのカスタマイズを可能にします。
Summevalベンチマークの実験結果は、CSEMが人間標識データなしで評価モデルを効果的にトレーニングできることを示しています。
強化学習と再ランキングのさらなる実験は、CSEMを通じて開発されたメトリックが従来の評価メトリックを上回ることを示しており、一般的に使用されるメトリックとChatGPTの両方で評価されるように、シーケンス品質の大幅な改善につながることが示されています。

要約(オリジナル)

Automatic evaluation of sequence generation, traditionally reliant on metrics like BLEU and ROUGE, often fails to capture the semantic accuracy of generated text sequences due to their emphasis on n-gram overlap. A promising solution to this problem is to develop model-based metrics, such as BLEURT and COMET. However, these approaches are typically hindered by the scarcity of labeled evaluation data, which is necessary to train the evaluation models. In this work, we build upon this challenge by proposing the Customized Sequence Evaluation Metric (CSEM), a three-stage evaluation model training method that utilizes large language models to generate labeled data for model-based metric development, thereby eliminating the need for human-labeled data. Additionally, we expand the scope of CSEM to support various evaluation types, including single-aspect, multi-aspect, reference-free, and reference-based evaluations, enabling the customization of metrics to suit diverse real-world scenarios. Experimental results on the SummEval benchmark demonstrate that CSEM can effectively train an evaluation model without human-labeled data. Further experiments in reinforcement learning and reranking show that metrics developed through CSEM outperform traditional evaluation metrics, leading to substantial improvements in sequence quality as evaluated by both commonly used metrics and ChatGPT.

arxiv情報

著者 Chenglong Wang,Hang Zhou,Kaiyan Chang,Tongran Liu,Chunliang Zhang,Quan Du,Tong Xiao,Yue Zhang,Jingbo Zhu
発行日 2025-03-25 12:00:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Learning Evaluation Models from Large Language Models for Sequence Generation はコメントを受け付けていません

Multi-agent Application System in Office Collaboration Scenarios

要約

このペーパーでは、オフィスのコラボレーション効率と仕事の質を高めるために設計されたマルチエージェントアプリケーションシステムを紹介します。
このシステムは、人工知能、機械学習、および自然言語処理技術を統合し、タスクの割り当て、進捗監視、情報共有などの機能を達成します。
システム内のエージェントは、チームメンバーのニーズに基づいてパーソナライズされたコラボレーションサポートを提供し、意思決定の品質を向上させるためのデータ分析ツールを組み込むことができます。
このペーパーでは、プランとソルバーを分​​離するインテリジェントエージェントアーキテクチャも提案しており、マルチターンクエリの書き換えやビジネスツールの取得などの手法を通じて、エージェントのマルチインテントおよびマルチターンダイアログ機能が強化されます。
さらに、このペーパーでは、オフィスコラボレーションシナリオのコンテキストでのツールの設計とマルチターン対話の詳細を説明し、実験と評価を通じてシステムの有効性を検証します。
最終的に、このシステムは、特にクエリの理解、タスク計画、ツール呼び出しで、実際のビジネスアプリケーションで優れたパフォーマンスを実証しています。
楽しみにして、このシステムは、動的環境と大規模なマルチエージェントシステム内の複雑な相互作用の問題に対処する上で、より重要な役割を果たすことが期待されています。

要約(オリジナル)

This paper introduces a multi-agent application system designed to enhance office collaboration efficiency and work quality. The system integrates artificial intelligence, machine learning, and natural language processing technologies, achieving functionalities such as task allocation, progress monitoring, and information sharing. The agents within the system are capable of providing personalized collaboration support based on team members’ needs and incorporate data analysis tools to improve decision-making quality. The paper also proposes an intelligent agent architecture that separates Plan and Solver, and through techniques such as multi-turn query rewriting and business tool retrieval, it enhances the agent’s multi-intent and multi-turn dialogue capabilities. Furthermore, the paper details the design of tools and multi-turn dialogue in the context of office collaboration scenarios, and validates the system’s effectiveness through experiments and evaluations. Ultimately, the system has demonstrated outstanding performance in real business applications, particularly in query understanding, task planning, and tool calling. Looking forward, the system is expected to play a more significant role in addressing complex interaction issues within dynamic environments and large-scale multi-agent systems.

arxiv情報

著者 Songtao Sun,Jingyi Li,Yuanfei Dong,Haoguang Liu,Chenxin Xu,Fuyang Li,Qiang Liu
発行日 2025-03-25 12:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Multi-agent Application System in Office Collaboration Scenarios はコメントを受け付けていません

Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment

要約

音声ベースのAI開発は、言語情報と麻痺情報の両方を処理する際にユニークな課題に直面しています。
この研究では、オーディオ言語モデル(LALMS)と人間が音声理解中にスピーカーの特性を統合する方法を比較し、LALMSが人間の認知メカニズムを並行する方法でスピーカーコンテキスト化された言語を処理するかどうかを尋ねます。
2つのラルム(QWEN2-AUDIOおよびULTRAVOX 0.5)の処理パターンをヒトEEG応答と比較しました。
モデルからの驚きとエントロピーメトリックを使用して、社会的ステレオタイプの違反(例えば、定期的にマニキュアを取得すると主張する男性)と生物学的知識違反(例えば、妊娠していると主張する男性)にわたるスピーカーコンセントの不一致に対する感受性を分析しました。
結果は、QWEN2-Audioがスピーカーに及ぼす内容の驚きを示し、その驚くべき値はヒトN400応答を有意に予測し、Ultravox 0.5はスピーカーの特性に対する感度が限られていることを明らかにしました。
重要なことに、どちらのモデルも、社会的違反(N400効果を誘発する)と生物学的違反(P600効果を誘発する)の間の人間のような処理の区別を再現しなかったことです。
これらの発見は、スピーカーコンテキスト化言語の処理における現在のLALMの潜在性と制限の両方を明らかにし、人間とLALMの間の社会言語処理メカニズムの違いを示唆しています。

要約(オリジナル)

Voice-based AI development faces unique challenges in processing both linguistic and paralinguistic information. This study compares how large audio-language models (LALMs) and humans integrate speaker characteristics during speech comprehension, asking whether LALMs process speaker-contextualized language in ways that parallel human cognitive mechanisms. We compared two LALMs’ (Qwen2-Audio and Ultravox 0.5) processing patterns with human EEG responses. Using surprisal and entropy metrics from the models, we analyzed their sensitivity to speaker-content incongruency across social stereotype violations (e.g., a man claiming to regularly get manicures) and biological knowledge violations (e.g., a man claiming to be pregnant). Results revealed that Qwen2-Audio exhibited increased surprisal for speaker-incongruent content and its surprisal values significantly predicted human N400 responses, while Ultravox 0.5 showed limited sensitivity to speaker characteristics. Importantly, neither model replicated the human-like processing distinction between social violations (eliciting N400 effects) and biological violations (eliciting P600 effects). These findings reveal both the potential and limitations of current LALMs in processing speaker-contextualized language, and suggest differences in social-linguistic processing mechanisms between humans and LALMs.

arxiv情報

著者 Hanlin Wu,Xufeng Duan,Zhenguang Cai
発行日 2025-03-25 12:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, q-bio.NC | Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment はコメントを受け付けていません

Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond

要約

LLMの非学習手法は最近、データ規制に準拠し、望ましくないデータモデルの影響を削除することによりLLMの安全性と倫理的懸念に対処するために導入されました。
ただし、最先端の未学習方法は、重大な脆弱性に直面しています。それらは、再学習攻撃として知られる少数の忘れられたデータポイントから削除された情報を「再学習」しやすいです。
この論文では、このような攻撃に対して未学習モデルを堅牢にする方法を体系的に調査します。
敵対的な攻撃を防御するために設計された敵対的な訓練と同様に、統一された堅牢な最適化フレームワークを通じて、堅牢な不明確な最小化(SAM)との関係を初めて確立します。
SAMの分析は、滑らかさの最適化が再学習攻撃の緩和に極めて重要な役割を果たすことを明らかにしています。
したがって、不正な堅牢性を高めるために、多様な平滑化戦略をさらに探求します。
WMDPやMuseを含むベンチマークデータセットでの広範な実験は、SAMやその他の滑らかさの最適化が、攻撃の再学習に対するLLMの抵抗を一貫して改善することを示しています。
特に、Smoothness-Enhanced Ulrearningは、(入力レベルの)脱却攻撃に対する防御にも役立ち、LLMの堅牢性における提案の影響を拡大します。
コードはhttps://github.com/optml-group/unlearn-smoothで入手できます。

要約(オリジナル)

The LLM unlearning technique has recently been introduced to comply with data regulations and address the safety and ethical concerns of LLMs by removing the undesired data-model influence. However, state-of-the-art unlearning methods face a critical vulnerability: they are susceptible to “relearning” the removed information from a small number of forget data points, known as relearning attacks. In this paper, we systematically investigate how to make unlearned models robust against such attacks. For the first time, we establish a connection between robust unlearning and sharpness-aware minimization (SAM) through a unified robust optimization framework, in an analogy to adversarial training designed to defend against adversarial attacks. Our analysis for SAM reveals that smoothness optimization plays a pivotal role in mitigating relearning attacks. Thus, we further explore diverse smoothing strategies to enhance unlearning robustness. Extensive experiments on benchmark datasets, including WMDP and MUSE, demonstrate that SAM and other smoothness optimization approaches consistently improve the resistance of LLM unlearning to relearning attacks. Notably, smoothness-enhanced unlearning also helps defend against (input-level) jailbreaking attacks, broadening our proposal’s impact in robustifying LLM unlearning. Codes are available at https://github.com/OPTML-Group/Unlearn-Smooth.

arxiv情報

著者 Chongyu Fan,Jinghan Jia,Yihua Zhang,Anil Ramakrishna,Mingyi Hong,Sijia Liu
発行日 2025-03-25 12:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Towards LLM Unlearning Resilient to Relearning Attacks: A Sharpness-Aware Minimization Perspective and Beyond はコメントを受け付けていません

The Greatest Good Benchmark: Measuring LLMs’ Alignment with Utilitarian Moral Dilemmas

要約

すべての人の幸福を最大化する決定を下す方法の問題は、人類にとって有益で危害のない言語モデルを設計することに非常に関連しています。
功利主義のジレンマを使用してLLMの道徳的判断を評価するために、最大の優れたベンチマークを紹介します。
15の多様なLLMにわたる分析は、確立された道徳理論から分かれ、人口の道徳的基準を築く一貫してエンコードされた道徳的好みを明らかにしています。
ほとんどのLLMは、公平な慈悲と道具的危害の拒絶に対する著しい選好を持っています。
これらの発見は、LLMSの「人工的な道徳的コンパス」を示しており、彼らの道徳的整合についての洞察を提供します。

要約(オリジナル)

The question of how to make decisions that maximise the well-being of all persons is very relevant to design language models that are beneficial to humanity and free from harm. We introduce the Greatest Good Benchmark to evaluate the moral judgments of LLMs using utilitarian dilemmas. Our analysis across 15 diverse LLMs reveals consistently encoded moral preferences that diverge from established moral theories and lay population moral standards. Most LLMs have a marked preference for impartial beneficence and rejection of instrumental harm. These findings showcase the ‘artificial moral compass’ of LLMs, offering insights into their moral alignment.

arxiv情報

著者 Giovanni Franco Gabriel Marraffini,Andrés Cotton,Noe Fabian Hsueh,Axel Fridman,Juan Wisznia,Luciano Del Corro
発行日 2025-03-25 12:29:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Greatest Good Benchmark: Measuring LLMs’ Alignment with Utilitarian Moral Dilemmas はコメントを受け付けていません

Lean Formalization of Generalization Error Bound by Rademacher Complexity

要約

Lean 4定理を使用して、Rademacherの複雑さを使用して、一般化エラーバウンドを正式化します。
一般化エラーは、指定されたトレーニングデータと目に見えないテストデータでの学習マシンのパフォーマンスとの間のギャップを定量化し、Rademacherの複雑さは、学習マシンの複雑さまたは仮説クラスの複雑さに基づくこのエラーの推定値として機能します。
PAC学習やVCディメンションなどの従来の方法とは異なり、Rademacherの複雑さは、ディープラーニングやカーネルメソッドなどの多様な機械学習シナリオに適用されます。
経験的および人口のレーデマーの複雑さを含む重要な概念と定理を形式化し、McDiarmidの不平等、HoeffdingのLemma、および対称化の議論の正式な証拠を通じて一般化誤差境界を確立します。

要約(オリジナル)

We formalize the generalization error bound using Rademacher complexity in the Lean 4 theorem prover. Generalization error quantifies the gap between a learning machine’s performance on given training data versus unseen test data, and Rademacher complexity serves as an estimate of this error based on the complexity of learning machines, or hypothesis class. Unlike traditional methods such as PAC learning and VC dimension, Rademacher complexity is applicable across diverse machine learning scenarios including deep learning and kernel methods. We formalize key concepts and theorems, including the empirical and population Rademacher complexities, and establish generalization error bounds through formal proofs of McDiarmid’s inequality, Hoeffding’s lemma, and symmetrization arguments.

arxiv情報

著者 Sho Sonoda,Kazumi Kasaura,Yuma Mizuno,Kei Tsukamoto,Naoto Onda
発行日 2025-03-25 12:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, math.ST, stat.TH | Lean Formalization of Generalization Error Bound by Rademacher Complexity はコメントを受け付けていません

Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts?

要約

大規模な言語モデル(LLM)は、安全性微調整方法を使用して人間の好みに合わせているにもかかわらず、不快なコンテンツの生成につながる、作られた敵対的な攻撃または脱獄の影響を受けやすいことが知られています。
入力トークンスペースの大きな次元は、これらのモデルを脱獄できる敵対的なプロンプトを見つけることを避けられませんが、安全性のあるLLMが整列後に安全な応答を誘発する有毒な種子プロンプトに意味的に関連する自然プロンプトに対して安全であるかどうかを評価することを目指しています。
驚くべきことに、GPT-4などの人気のある整列LLMは、モデルを侵入する目的でも作成されていない素朴なプロンプトを使用して妥協できることがわかりました。
さらに、整理されていないモデルから有毒な応答を誘発するシードプロンプトを与えられた場合、LLMを脱獄できるいくつかの意味的に関連する自然プロンプトを体系的に生成できることを経験的に示します。
これに向けて、応答の方法ガイド付き質問増強(reg-qa)を提案して、安全性に合わせたLLMの一般化を自然なプロンプトに評価します。これは、最初に整理されていないLLMを使用して種子の質問を与えられて、LLMをさらに活用して、これらの回答を生成する可能性のある質問を生成するためにさらにレバレッジ(Q)を生成することを提案します。
興味深いことに、GPT-4Oなどの安全性微調整LLMは、安全でないコンテンツ(拒否なし)から自然な脱獄の質問を生成することに対して脆弱であり、後者(AからQ)ステップに使用できることがわかります。
Jailbreakbench Leaderboardの主要な敵対的な攻撃方法に匹敵する/優れた攻撃成功率を取得しますが、リーダーボードの既存のすべての攻撃に対して効果的なSmooth-LLMや同義語代替などの防御に対しては大幅に安定しています。

要約(オリジナル)

Large Language Models (LLMs) are known to be susceptible to crafted adversarial attacks or jailbreaks that lead to the generation of objectionable content despite being aligned to human preferences using safety fine-tuning methods. While the large dimensionality of input token space makes it inevitable to find adversarial prompts that can jailbreak these models, we aim to evaluate whether safety fine-tuned LLMs are safe against natural prompts which are semantically related to toxic seed prompts that elicit safe responses after alignment. We surprisingly find that popular aligned LLMs such as GPT-4 can be compromised using naive prompts that are NOT even crafted with an objective of jailbreaking the model. Furthermore, we empirically show that given a seed prompt that elicits a toxic response from an unaligned model, one can systematically generate several semantically related natural prompts that can jailbreak aligned LLMs. Towards this, we propose a method of Response Guided Question Augmentation (ReG-QA) to evaluate the generalization of safety aligned LLMs to natural prompts, that first generates several toxic answers given a seed question using an unaligned LLM (Q to A), and further leverages an LLM to generate questions that are likely to produce these answers (A to Q). We interestingly find that safety fine-tuned LLMs such as GPT-4o are vulnerable to producing natural jailbreak questions from unsafe content (without denial) and can thus be used for the latter (A to Q) step. We obtain attack success rates that are comparable to/ better than leading adversarial attack methods on the JailbreakBench leaderboard, while being significantly more stable against defenses such as Smooth-LLM and Synonym Substitution, which are effective against existing all attacks on the leaderboard.

arxiv情報

著者 Sravanti Addepalli,Yerram Varun,Arun Suggala,Karthikeyan Shanmugam,Prateek Jain
発行日 2025-03-25 12:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? はコメントを受け付けていません

HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X

要約

TwitterやFacebookなどのソーシャルメディアプラットフォームの広範な使用により、あらゆる年齢の人々が自分の考えや経験を共有できるようになり、ユーザーが生成したコンテンツの膨大な蓄積につながりました。
しかし、これらのプラットフォームは、利点とともに、合理的な言説を損ない、民主的価値を脅かす可能性のあるヘイトスピーチと攻撃的なコンテンツを管理するという課題にも直面しています。
その結果、特にHinglish、German-English、Banglaなどのコードミックス言語を含む複数の言語でのコンテキスト分析が必要になる可能性のある会話の複雑さを考えると、そのようなコンテンツを検出および軽減するための自動化された方法の必要性が高まっています。
私たちは英語のタスクに参加しました。そこでは、英語のツイートを2つのカテゴリに分類する必要があります。
この作業では、GPT-3.5ターボなどの最先端の大規模な言語モデルをプロンプトで実験して、ツイートを憎しみや攻撃的または非憎悪に分類するように促します。
この研究では、3つの異なる実行にわたってMacro-F1スコアを使用して分類モデルのパフォーマンスを評価します。
すべてのクラスで精度とリコールのバランスをとるMacro-F1スコアは、モデル評価の主要なメトリックとして使用されます。
得られたスコアは、実行1の場合は0.756、実行2で0.751、ラン3で0.754であり、実行中の分散が最小限の高いパフォーマンスを示しています。
結果は、モデルが精度とリコールの観点から一貫してうまく機能し、実行1が最高のパフォーマンスを示していることを示唆しています。
これらの調査結果は、異なる実行にわたるモデルの堅牢性と信頼性を強調しています。

要約(オリジナル)

The widespread use of social media platforms like Twitter and Facebook has enabled people of all ages to share their thoughts and experiences, leading to an immense accumulation of user-generated content. However, alongside the benefits, these platforms also face the challenge of managing hate speech and offensive content, which can undermine rational discourse and threaten democratic values. As a result, there is a growing need for automated methods to detect and mitigate such content, especially given the complexity of conversations that may require contextual analysis across multiple languages, including code-mixed languages like Hinglish, German-English, and Bangla. We participated in the English task where we have to classify English tweets into two categories namely Hate and Offensive and Non Hate-Offensive. In this work, we experiment with state-of-the-art large language models like GPT-3.5 Turbo via prompting to classify tweets into Hate and Offensive or Non Hate-Offensive. In this study, we evaluate the performance of a classification model using Macro-F1 scores across three distinct runs. The Macro-F1 score, which balances precision and recall across all classes, is used as the primary metric for model evaluation. The scores obtained are 0.756 for run 1, 0.751 for run 2, and 0.754 for run 3, indicating a high level of performance with minimal variance among the runs. The results suggest that the model consistently performs well in terms of precision and recall, with run 1 showing the highest performance. These findings highlight the robustness and reliability of the model across different runs.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-25 12:53:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | HateGPT: Unleashing GPT-3.5 Turbo to Combat Hate Speech on X はコメントを受け付けていません

Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency

要約

セマンティック層の埋め込み拡散(SLED)メカニズムは、トランスベースのアーキテクチャ内の階層セマンティクスの表現を再定義し、幅広い言語タスクにわたってコンテキストの一貫性を強化します。
スペクトル分析に基づいた多層拡散プロセスを導入することにより、グローバルとローカルのセマンティックの一貫性の間の複雑なバランスを実現します。
実験結果は、困惑とBLEUスコアの大幅な改善を示し、多言語やドメインのテキスト生成を含む多様なドメインに効果的に適応するメカニズムの能力を強調しています。
厳密な数学的フレームワークは、加重された隣接マトリックス、カーネルベースの改良、動的な層ごとの正規化を組み込んだ埋め込み拡散プロセスを支えています。
エラー分布分析により、SLEDはセマンティックアライメントとコヒーレンスの課題に対処し、さまざまなベンチマーク全体でベースラインアプローチを上回ることが明らかになりました。
スケーラビリティ研究は、そのパフォーマンスの向上が異なるモデルサイズで一貫して維持されていることを示しており、計算効率と言語精度の実用的なバランスを反映しています。
また、この実装はエネルギー効率を達成し、精度を損なうことなく、トレーニング中のリソース消費を減らします。
定性的ケーススタディは、拡張された物語とコンテキスト集約的なシナリオへの適応性をさらに検証し、実際のアプリケーションに対するメカニズムの可能性を強調しています。
SLEDは、設計の埋め込みと、言語モデリングの進歩への影響について異なる視点を提供します。

要約(オリジナル)

The Semantic Layered Embedding Diffusion (SLED) mechanism redefines the representation of hierarchical semantics within transformer-based architectures, enabling enhanced contextual consistency across a wide array of linguistic tasks. By introducing a multi-layered diffusion process grounded in spectral analysis, it achieves a complex balance between global and local semantic coherence. Experimental results demonstrate significant improvements in perplexity and BLEU scores, emphasizing the mechanism’s ability to adapt effectively across diverse domains, including multilingual and cross-domain text generation. A rigorous mathematical framework underpins the embedding diffusion process, incorporating weighted adjacency matrices, kernel-based refinements, and dynamic layer-wise normalization. Error distribution analysis reveals that SLED addresses challenges in semantic alignment and coherence, outperforming baseline approaches across varied benchmarks. Scalability studies illustrate that its performance gains are maintained consistently across different model sizes, reflecting a practical balance between computational efficiency and linguistic precision. The implementation also achieves energy efficiency, reducing resource consumption during training and inference phases without compromising accuracy. Qualitative case studies further validate its adaptability to extended narratives and context-intensive scenarios, highlighting the mechanism’s potential for real-world applications. SLED offers a different perspective on embedding design and its implications for advancing language modeling.

arxiv情報

著者 Irin Kabakum,Thomas Montgomery,Daniel Ravenwood,Genevieve Harrington
発行日 2025-03-25 12:55:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Semantic Layered Embedding Diffusion in Large Language Models for Multi-Contextual Consistency はコメントを受け付けていません