Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages

要約

多言語の大規模な言語モデル(LLM)は、特に英語などの高リソース言語で、さまざまな言語で重要な効果を実証しています。
ただし、他の低リソース言語、特にインド言語にわたる事実上の正確さの点でのパフォーマンスは、調査の領域のままです。
この研究では、LLMS-GPT-4O、GEMMA-2-9B、GEMMA-2-2B、およびLLAMA-3.1-8Bの事実上の正確さを評価します – 英語と19のインド語の言語での質問回答ペアを含むIndicQuestデータセットを使用して、英語とINDIC言語のパフォーマンスを比較します。
英語とそれぞれのインド翻訳で同じ質問をすることにより、インド言語の地域の文脈の質問に対してモデルがより信頼できるか、英語で動作するときにモデルがより信頼できるかどうかを分析します。
私たちの調査結果は、LLMがインドのコンテキストに根ざした質問でさえ、LLMが英語でより良いパフォーマンスを発揮することを明らかにしています。
特に、低リソースインド言語で生成された応答の幻覚の傾向が高いことを観察し、現在のLLMの多言語理解能力の課題を強調しています。

要約(オリジナル)

Multilingual Large Language Models (LLMs) have demonstrated significant effectiveness across various languages, particularly in high-resource languages such as English. However, their performance in terms of factual accuracy across other low-resource languages, especially Indic languages, remains an area of investigation. In this study, we assess the factual accuracy of LLMs – GPT-4o, Gemma-2-9B, Gemma-2-2B, and Llama-3.1-8B – by comparing their performance in English and Indic languages using the IndicQuest dataset, which contains question-answer pairs in English and 19 Indic languages. By asking the same questions in English and their respective Indic translations, we analyze whether the models are more reliable for regional context questions in Indic languages or when operating in English. Our findings reveal that LLMs often perform better in English, even for questions rooted in Indic contexts. Notably, we observe a higher tendency for hallucination in responses generated in low-resource Indic languages, highlighting challenges in the multilingual understanding capabilities of current LLMs.

arxiv情報

著者 Pritika Rohera,Chaitrali Ginimav,Gayatri Sawant,Raviraj Joshi
発行日 2025-04-28 17:48:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages はコメントを受け付けていません

AutoJudge: Judge Decoding Without Manual Annotation

要約

Autojudgeを導入します。これは、タスク固有の損失の投機的デコードを使用して、大規模な言語モデル(LLM)推論を加速するフレームワークです。
トークンごとに元のモデル出力分布トークンを一致させる代わりに、生成されたトークンのどれが生成された応答の下流の品質に影響するかを特定し、「重要でない」トークンをより速く生成できるように保証を緩和します。
私たちのアプローチは、ターゲットモデルとドラフトモデルの間の不一致を修正して品質を維持する必要があるか、どちらがスキップされるかをテストするために、半砂糖の検索アルゴリズムに依存しています。
次に、既存のLLM埋め込みに基づいて軽量分類器をトレーニングして、推論時間に最終的な回答品質を損なうことなく安全に受け入れることができます。
ゼロショットGSM8K推論のLlama 3.2 1b(ドラフト)およびLlama 3.1 8b(ターゲット)モデルでアプローチをテストします。ここでは、検証サイクルごとに最大1.5倍の受け入れられたトークンを達成し、標準的な投機的デコードと比較して回答精度で1%未満の分解、少量の精度で2倍以上になります。
LiveCodebenchベンチマークに適用すると、当社のアプローチは、他のプログラミング固有の重要なトークンを自動的に検出し、同様のスピードアップを示し、タスク全体に一般化する能力を示します。

要約(オリジナル)

We introduce AutoJudge, a framework that accelerates large language model (LLM) inference with task-specific lossy speculative decoding. Instead of matching the original model output distribution token-by-token, we identify which of the generated tokens affect the downstream quality of the generated response, relaxing the guarantee so that the ‘unimportant’ tokens can be generated faster. Our approach relies on a semi-greedy search algorithm to test which of the mismatches between target and draft model should be corrected to preserve quality, and which ones may be skipped. We then train a lightweight classifier based on existing LLM embeddings to predict, at inference time, which mismatching tokens can be safely accepted without compromising the final answer quality. We test our approach with Llama 3.2 1B (draft) and Llama 3.1 8B (target) models on zero-shot GSM8K reasoning, where it achieves up to 1.5x more accepted tokens per verification cycle with under 1% degradation in answer accuracy compared to standard speculative decoding and over 2x with small loss in accuracy. When applied to the LiveCodeBench benchmark, our approach automatically detects other, programming-specific important tokens and shows similar speedups, demonstrating its ability to generalize across tasks.

arxiv情報

著者 Roman Garipov,Fedor Velikonivtsev,Ruslan Svirschevski,Vage Egiazarian,Max Ryabinin
発行日 2025-04-28 17:59:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | AutoJudge: Judge Decoding Without Manual Annotation はコメントを受け付けていません

Leveraging Large Language Models for Effective Label-free Node Classification in Text-Attributed Graphs

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造と属性を統合する堅牢な機能により、グラフデータのノード分類の好ましいモデルになりました。
ただし、これらのモデルは、トレーニング用のかなりの量の高品質のラベル付きデータに大きく依存しており、多くの場合、取得するのに費用がかかります。
大規模な言語モデル(LLMS)の台頭により、有望なアプローチは、並外れたゼロショット機能とノードラベルの広範な知識を利用することです。
奨励された結果にもかかわらず、このアプローチはLLMSに多数のクエリを必要とするか、LLMSによって生成された騒々しいラベルのためにパフォーマンスの低下に苦しんでいます。
これらの課題に対処するために、LLMSを費用対効果の高いラベルフリーノード分類を行うアクティブなセルフトレーニングフレームワークであるLocleを紹介します。
Locleは、GNNSを使用して「重要な」サンプルの小さなセットを繰り返し識別し、LLMSとGNNの両方で有益な擬似ラベルを抽出し、モデルトレーニングを強化するための追加の監督シグナルとして機能します。
具体的には、Locleは3つの重要なコンポーネントで構成されています。(i)初期注釈のための効果的なアクティブノード選択戦略。
(ii)ラベルの不調和とエントロピーに基づいて「重要な」ノードを識別する慎重なサンプル選択スキーム。
(iii)LLMとGNNを再配線されたトポロジを組み合わせたラベル改良モジュール。
5つのベンチマークテキストアトリビューグラフデータセットでの広範な実験は、Locleが同じクエリ予算の下でLLMSに最先端のメソッドをラベルなしのノード分類に関して大幅に上回ることを示しています。
特に、14.3Kノードを備えたDBLPデータセットでは、Locleは1セント未満のコストで最先端の精度を8.08%改善します。
私たちのコードは、https://github.com/hkbu-lagas/locleで入手できます。

要約(オリジナル)

Graph neural networks (GNNs) have become the preferred models for node classification in graph data due to their robust capabilities in integrating graph structures and attributes. However, these models heavily depend on a substantial amount of high-quality labeled data for training, which is often costly to obtain. With the rise of large language models (LLMs), a promising approach is to utilize their exceptional zero-shot capabilities and extensive knowledge for node labeling. Despite encouraging results, this approach either requires numerous queries to LLMs or suffers from reduced performance due to noisy labels generated by LLMs. To address these challenges, we introduce Locle, an active self-training framework that does Label-free node Classification with LLMs cost-Effectively. Locle iteratively identifies small sets of ‘critical’ samples using GNNs and extracts informative pseudo-labels for them with both LLMs and GNNs, serving as additional supervision signals to enhance model training. Specifically, Locle comprises three key components: (i) an effective active node selection strategy for initial annotations; (ii) a careful sample selection scheme to identify ‘critical’ nodes based on label disharmonicity and entropy; and (iii) a label refinement module that combines LLMs and GNNs with a rewired topology. Extensive experiments on five benchmark text-attributed graph datasets demonstrate that Locle significantly outperforms state-of-the-art methods under the same query budget to LLMs in terms of label-free node classification. Notably, on the DBLP dataset with 14.3k nodes, Locle achieves an 8.08% improvement in accuracy over the state-of-the-art at a cost of less than one cent. Our code is available at https://github.com/HKBU-LAGAS/Locle.

arxiv情報

著者 Taiyan Zhang,Renchi Yang,Yurui Lai,Mingyu Yan,Xiaochun Ye,Dongrui Fan
発行日 2025-04-28 12:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Leveraging Large Language Models for Effective Label-free Node Classification in Text-Attributed Graphs はコメントを受け付けていません

SoK: Knowledge is All You Need: Accelerating Last Mile Delivery for Automated Provenance-based Intrusion Detection with LLMs

要約

最近、出所ベースの侵入検知システム(PIDSES)は、エンドポイントの脅威分析のために広く提案されています。
ただし、体系的な統合と知識の利用の欠如により、既存のPIDSEは依然として実用的な展開のために重要な手動介入を必要とし、完全な自動化が困難になります。
この論文は、彼らが利用する知識の種類に従ってピドを分類することにより、破壊的な革新を提示します。
既存の研究における「知識サイロの問題」の一般的な問題に対応して、大規模な言語モデル(LLM)を搭載した新しい知識主導型の起源ベースの侵入検出フレームワークを紹介します。
また、このフレームワークの上に構築されたベストプラクティスシステムであるOmnisecも発表します。
攻撃表現の知識、脅威知能の知識、良性行動の知識を統合することにより、オムニセックはパブリックベンチマークデータセットで最先端のアプローチを上回ります。
Omnisecは、https://anonymous.4open.science/r/pids-with-llm-613bでオンラインで入手できます。

要約(オリジナル)

Recently, provenance-based intrusion detection systems (PIDSes) have been widely proposed for endpoint threat analysis. However, due to the lack of systematic integration and utilization of knowledge, existing PIDSes still require significant manual intervention for practical deployment, making full automation challenging. This paper presents a disruptive innovation by categorizing PIDSes according to the types of knowledge they utilize. In response to the prevalent issue of “knowledge silos problem” in existing research, we introduce a novel knowledge-driven provenance-based intrusion detection framework, powered by large language models (LLMs). We also present OmniSec, a best practice system built upon this framework. By integrating attack representation knowledge, threat intelligence knowledge, and benign behavior knowledge, OmniSec outperforms the state-of-the-art approaches on public benchmark datasets. OmniSec is available online at https://anonymous.4open.science/r/PIDS-with-LLM-613B.

arxiv情報

著者 Wenrui Cheng,Tiantian Zhu,Chunlin Xiong,Haofei Sun,Zijun Wang,Shunan Jing,Mingqi Lv,Yan Chen
発行日 2025-04-28 12:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | SoK: Knowledge is All You Need: Accelerating Last Mile Delivery for Automated Provenance-based Intrusion Detection with LLMs はコメントを受け付けていません

Learning Efficiency Meets Symmetry Breaking

要約

グラフのニューラルネットワークを活用する学習ベースのプランナーは、大規模な検索スペースに適用される検索ガイダンスを学ぶことができますが、対称性に対処する可能性はほとんど未踏のままです。
このホワイトペーパーでは、検索中に対称性を管理するように設計された2つの剪定方法、アクションプルーニングと状態剪定とともに、対称性を検出する能力とともに、学習効率を調和させる計画問題のグラフ表現を紹介します。
これらの手法をFast Downwardに統合すると、最新のIPC学習トラックデータセットでラマを初めて成功させます。
コードはhttps://github.com/bybeye/distincterでリリースされます。

要約(オリジナル)

Learning-based planners leveraging Graph Neural Networks can learn search guidance applicable to large search spaces, yet their potential to address symmetries remains largely unexplored. In this paper, we introduce a graph representation of planning problems allying learning efficiency with the ability to detect symmetries, along with two pruning methods, action pruning and state pruning, designed to manage symmetries during search. The integration of these techniques into Fast Downward achieves a first-time success over LAMA on the latest IPC learning track dataset. Code is released at: https://github.com/bybeye/Distincter.

arxiv情報

著者 Yingbin Bai,Sylvie Thiebaux,Felipe Trevizan
発行日 2025-04-28 12:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Learning Efficiency Meets Symmetry Breaking はコメントを受け付けていません

Quantum Circuit Design using a Progressive Widening Enhanced Monte Carlo Tree Search

要約

変分量子アルゴリズム(VQAS)のパフォーマンスは、最適化するパラメーター化された量子回路の選択に強く依存します。
VQASの最大の課題の1つは、特定の問題に合わせた量子回路を設計することです。
この記事では、量子回路設計のプロセスを自動化するためのグラデーションフリーモンテカルロツリー検索(MCTS)手法を提案します。
提案された手法では、サンプリングスキームと、空間を動的に探索するためのプログレッシブ拡大技術に基づいて、アクション空間の新しい定式化を紹介します。
ランダム量子回路のドメインでMCTSアプローチをテストする場合、MCTSは、スタビライザーr \ ‘enyiエントロピーの異なる値の下で非構造化された回路に近似します。
MCTSは、非スタビライザーの程度とは独立してベンチマーク量子状態を近似することができます。
次に、私たちの手法は、量子化学や線形方程式のシステムなど、さまざまなアプリケーションドメインにわたって堅牢性を示します。
以前のMCTSの研究と比較して、我々の手法は、等しい結果を達成しながら、量子回路評価の数を10倍最大100に減らします。
さらに、結果として得られる量子回路は、最大3倍少ないCNOTゲートを示します。これは、騒々しい量子ハードウェアの実装に重要です。

要約(オリジナル)

The performance of Variational Quantum Algorithms (VQAs) strongly depends on the choice of the parameterized quantum circuit to optimize. One of the biggest challenges in VQAs is designing quantum circuits tailored to the particular problem. This article proposes a gradient-free Monte Carlo Tree Search (MCTS) technique to automate the process of quantum circuit design. Our proposed technique introduces a novel formulation of the action space based on a sampling scheme and a progressive widening technique to explore the space dynamically. When testing our MCTS approach on the domain of random quantum circuits, MCTS approximates unstructured circuits under different values of stabilizer R\’enyi entropy. It turns out that MCTS manages to approximate the benchmark quantum states independently from their degree of nonstabilizerness. Next, our technique exhibits robustness across various application domains, including quantum chemistry and systems of linear equations. Compared to previous MCTS research, our technique reduces the number of quantum circuit evaluations by a factor of 10 up to 100 while achieving equal or better results. In addition, the resulting quantum circuits exhibit up to three times fewer CNOT gates, which is important for implementation on noisy quantum hardware.

arxiv情報

著者 Vincenzo Lipardi,Domenica Dibenedetto,Georgios Stamoulis,Mark H. M. Winands
発行日 2025-04-28 12:38:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, quant-ph | Quantum Circuit Design using a Progressive Widening Enhanced Monte Carlo Tree Search はコメントを受け付けていません

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

要約

生成AI(2020-2023)の「Act I」と呼ばれる可能性のある大規模な言語モデルの第1世代は、大規模なパラメーターとデータスケーリングを通じて顕著な成功を達成しましたが、知識の遅延、浅い推論、制約された認知プロセスなどの基本的な制限を示しました。
この時代に、AIとの主要なインターフェースとして迅速なエンジニアリングが登場し、自然言語による対話レベルのコミュニケーションを可能にしました。
現在、モデルがテストタイムスケーリング技術を通じて知識網状システム(潜在空間)から思考建設エンジンに移行している「Act II」(2024-Present)の出現を目撃しています。
この新しいパラダイムは、言語ベースの思考を通じてAIとのマインドレベルのつながりを確立します。
この論文では、認知工学の概念的基盤を明確にし、この瞬間がその発展に重要である理由を説明します。
包括的なチュートリアルと最適化された実装を通じて、これらの高度なアプローチを体系的に分解し、認知工学へのアクセスを民主化し、すべての開業医がAIの第2法に参加できるようにします。
githubリポジトリのテスト時間スケーリングに関する定期的に更新された論文コレクション:https://github.com/gair-nlp/cognition-engineering

要約(オリジナル)

The first generation of Large Language Models – what might be called ‘Act I’ of generative AI (2020-2023) – achieved remarkable success through massive parameter and data scaling, yet exhibited fundamental limitations such as knowledge latency, shallow reasoning, and constrained cognitive processes. During this era, prompt engineering emerged as our primary interface with AI, enabling dialogue-level communication through natural language. We now witness the emergence of ‘Act II’ (2024-present), where models are transitioning from knowledge-retrieval systems (in latent space) to thought-construction engines through test-time scaling techniques. This new paradigm establishes a mind-level connection with AI through language-based thoughts. In this paper, we clarify the conceptual foundations of cognition engineering and explain why this moment is critical for its development. We systematically break down these advanced approaches through comprehensive tutorials and optimized implementations, democratizing access to cognition engineering and enabling every practitioner to participate in AI’s second act. We provide a regularly updated collection of papers on test-time scaling in the GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering

arxiv情報

著者 Shijie Xia,Yiwei Qin,Xuefeng Li,Yan Ma,Run-Ze Fan,Steffi Chern,Haoyang Zou,Fan Zhou,Xiangkun Hu,Jiahe Jin,Yanheng He,Yixin Ye,Yixiu Liu,Pengfei Liu
発行日 2025-04-28 12:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Generative AI Act II: Test Time Scaling Drives Cognition Engineering はコメントを受け付けていません

Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation

要約

検索された生成(RAG)は、外部の知識ソースに出力を接地することにより、大規模な言語モデル(LLM)を強化するための変革的アプローチとなっています。
しかし、重要な質問は続きます。LLMSの入力制約の範囲内で、どのようにして膨大な量の外部知識を効果的に管理できますか?
従来の方法は、外部ドキュメントをより小さな固定サイズのセグメントにチャンキングすることにより、これに対処します。
このアプローチは入力の制限を軽減しますが、多くの場合、コンテキストを分割し、検索が不完全になり、生成の一貫性が低下します。
これらの欠点を克服するために、グローバルなコンテキストの維持を目指して、2つの高度な技術、後期チャンキングとコンテキスト検索が導入されました。
その可能性にもかかわらず、彼らの比較強みと制限は不明のままです。
この研究では、後期チャンキングと文脈の検索に関する厳密な分析を提示し、RAGシステムの最適化における有効性と効率性を評価します。
私たちの結果は、コンテキストの検索がセマンティックコヒーレンスをより効果的に保持するが、より大きな計算リソースが必要であることを示しています。
対照的に、後期チャンキングはより高い効率を提供しますが、関連性と完全性を犠牲にする傾向があります。

要約(オリジナル)

Retrieval-augmented generation (RAG) has become a transformative approach for enhancing large language models (LLMs) by grounding their outputs in external knowledge sources. Yet, a critical question persists: how can vast volumes of external knowledge be managed effectively within the input constraints of LLMs? Traditional methods address this by chunking external documents into smaller, fixed-size segments. While this approach alleviates input limitations, it often fragments context, resulting in incomplete retrieval and diminished coherence in generation. To overcome these shortcomings, two advanced techniques, late chunking and contextual retrieval, have been introduced, both aiming to preserve global context. Despite their potential, their comparative strengths and limitations remain unclear. This study presents a rigorous analysis of late chunking and contextual retrieval, evaluating their effectiveness and efficiency in optimizing RAG systems. Our results indicate that contextual retrieval preserves semantic coherence more effectively but requires greater computational resources. In contrast, late chunking offers higher efficiency but tends to sacrifice relevance and completeness.

arxiv情報

著者 Carlo Merola,Jaspinder Singh
発行日 2025-04-28 12:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation はコメントを受け付けていません

Contextures: The Mechanism of Representation Learning

要約

この論文は、表現学習のメカニズム、または前orainingのメカニズムを数学的に特徴付けるための文脈理論を確立します。
基礎モデルの顕著な経験的成功にもかかわらず、彼らがどの表現を学習し、なぜこれらの表現がさまざまな下流のタスクに役立つのかはそれほど明確ではありません。
特に、モデルサイズを拡大することでリターンが減少し、新しい事前トレーニング方法の設計がさらに進歩するためには、この時点で、表現学習の科学的理解が重要です。
以前の研究では、さまざまな表現学習方法がまったく異なって扱われましたが、コンテキスト理論はこれらの方法を分析するための統一されたフレームワークを提供します。
中心的な議論は、入力Xとコンテキスト変数Aの間の関連付けから表現が学習されるということです。エンコーダがこの関連の最大情報をキャプチャする場合、エンコーダーはコンテキストを学習すると言うことを証明します。
また、XとAの関連が強すぎたり弱すぎたりしない場合、コンテキストが最も有用であることも示します。
コンテキスト理論の重要な意味は、モデルサイズのみを増やすと、収益が減少し、さらなる進歩がより良いコンテキストが必要であるということです。
多くの事前トレーニング目標が、監視された学習、自己監視学習、生成モデルなど、コンテキストを学習できることを実証します。その後、コンテキストを学習するために、SVMEとKiseの2つの一般的な目的を紹介します。
また、複数のコンテキストを組み合わせる方法も示します。これは、既存のコンテキストからより良いコンテキストを作成する簡単な方法です。
次に、表現学習の統計学習境界を証明します。
最後に、データ分布のシフトの影響について、前流タスクへの影響について説明します。

要約(オリジナル)

This dissertation establishes the contexture theory to mathematically characterize the mechanism of representation learning, or pretraining. Despite the remarkable empirical success of foundation models, it is not very clear what representations they learn, and why these representations are useful for various downstream tasks. A scientific understanding of representation learning is critical, especially at this point when scaling up the model size is producing diminishing returns, and designing new pretraining methods is imperative for further progress. Prior work treated different representation learning methods quite differently, whereas the contexture theory provides a unified framework for analyzing these methods. The central argument is that a representation is learned from the association between the input X and a context variable A. We prove that if an encoder captures the maximum information of this association, in which case we say that the encoder learns the contexture, then it will be optimal on the class of tasks that are compatible with the context. We also show that a context is the most useful when the association between X and A is neither too strong nor too weak. The important implication of the contexture theory is that increasing the model size alone will achieve diminishing returns, and further advancements require better contexts. We demonstrate that many pretraining objectives can learn the contexture, including supervised learning, self-supervised learning, generative models, etc. Then, we introduce two general objectives — SVME and KISE, for learning the contexture. We also show how to mix multiple contexts together, an effortless way to create better contexts from existing ones. Then, we prove statistical learning bounds for representation learning. Finally, we discuss the effect of the data distribution shift from pretraining to the downstream task.

arxiv情報

著者 Runtian Zhai
発行日 2025-04-28 13:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Contextures: The Mechanism of Representation Learning はコメントを受け付けていません

Evolution Meets Diffusion: Efficient Neural Architecture Generation

要約

ニューラルアーキテクチャ検索(NAS)は、ディープラーニングモデルの設計におけるその変革の可能性について、広範囲にわたる注目を集めています。
ただし、NASの広大で複雑な検索スペースは、大幅な計算コストと時間コストにつながります。
Neural Architecture Generation(NAG)は、NASを世代の問題として再構成することにより、これに対処し、特定のタスクに最適なアーキテクチャの正確な生成を可能にします。
その約束にもかかわらず、拡散モデルのような主流の方法は、グローバルな検索機能の制限に直面しており、高い計算と時間の需要によって妨げられています。
これらの課題を克服するために、効率的かつトレーニングのないアーキテクチャ生成を達成する新しいアプローチである進化的拡散ベースの神経建築生成(EDNAG)を提案します。
EDNAGは、進化的アルゴリズムを活用して、拡散モデルの除去プロセスをシミュレートし、フィットネスを使用してランダムガウス分布から最適なアーキテクチャ分布への移行を導きます。
このアプローチは、進化戦略と拡散モデルの強みを組み合わせて、迅速かつ効果的なアーキテクチャ生成を可能にします。
広範な実験は、EDNAGがアーキテクチャの最適化において最先端の(SOTA)パフォーマンスを達成し、最大10.45%の精度を改善することを示しています。
さらに、時間のかかるトレーニングの必要性を排除し、推論の速度を平均50倍引き上げ、その並外れた効率と有効性を示します。

要約(オリジナル)

Neural Architecture Search (NAS) has gained widespread attention for its transformative potential in deep learning model design. However, the vast and complex search space of NAS leads to significant computational and time costs. Neural Architecture Generation (NAG) addresses this by reframing NAS as a generation problem, enabling the precise generation of optimal architectures for specific tasks. Despite its promise, mainstream methods like diffusion models face limitations in global search capabilities and are still hindered by high computational and time demands. To overcome these challenges, we propose Evolutionary Diffusion-based Neural Architecture Generation (EDNAG), a novel approach that achieves efficient and training-free architecture generation. EDNAG leverages evolutionary algorithms to simulate the denoising process in diffusion models, using fitness to guide the transition from random Gaussian distributions to optimal architecture distributions. This approach combines the strengths of evolutionary strategies and diffusion models, enabling rapid and effective architecture generation. Extensive experiments demonstrate that EDNAG achieves state-of-the-art (SOTA) performance in architecture optimization, with an improvement in accuracy of up to 10.45%. Furthermore, it eliminates the need for time-consuming training and boosts inference speed by an average of 50 times, showcasing its exceptional efficiency and effectiveness.

arxiv情報

著者 Bingye Zhou,Caiyang Yu
発行日 2025-04-28 13:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE | Evolution Meets Diffusion: Efficient Neural Architecture Generation はコメントを受け付けていません