Tensor Networks for Explainable Machine Learning in Cybersecurity

要約

このペーパーでは、テンソルネットワークが機械学習アルゴリズムの説明可能性の開発にどのように役立つかを示します。
具体的には、マトリックス積状態(MP)に基づいて監視されていないクラスタリングアルゴリズムを開発し、敵対的な脅威インテリジェンスの実際のユースケースのコンテキストでそれを適用します。
私たちの調査では、MPSはパフォーマンスの観点から自動エンコーダーやGANなどの従来のディープラーニングモデルに対抗し、モデルの解釈がはるかに豊富であることが証明されています。
私たちのアプローチは、特徴的な確率、フォン・ノイマンのエントロピー、および相互情報の抽出を自然に促進し、異常の分類と前例のないレベルの透明性と解釈性を促進するための説得力のある物語を提供します。

要約(オリジナル)

In this paper we show how tensor networks help in developing explainability of machine learning algorithms. Specifically, we develop an unsupervised clustering algorithm based on Matrix Product States (MPS) and apply it in the context of a real use-case of adversary-generated threat intelligence. Our investigation proves that MPS rival traditional deep learning models such as autoencoders and GANs in terms of performance, while providing much richer model interpretability. Our approach naturally facilitates the extraction of feature-wise probabilities, Von Neumann Entropy, and mutual information, offering a compelling narrative for classification of anomalies and fostering an unprecedented level of transparency and interpretability, something fundamental to understand the rationale behind artificial intelligence decisions.

arxiv情報

著者 Borja Aizpurua,Samuel Palmer,Roman Orus
発行日 2025-04-25 14:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, quant-ph | Tensor Networks for Explainable Machine Learning in Cybersecurity はコメントを受け付けていません

Paradigm shift on Coding Productivity Using GenAI

要約

生成AI(genai)アプリケーションは、自動化されたコードの共創を可能にすることにより、ソフトウェアエンジニアリングを変換しています。
ただし、産業環境におけるGenaiの生産性効果に関する経験的証拠は依然として限られています。
このホワイトペーパーでは、電気通信およびフィンテックドメイン内のGenaiコーディングアシスタント(Codeium、Amazon Qなど)の採用を調査します。
産業ドメイン専門家との調査とインタビューを通じて、タスクの複雑さ、コーディングスキル、ドメイン知識、Genai統合など、主要な生産性の影響要因を特定します。
私たちの調査結果は、Genaiツールが日常的なコーディングタスク(例:リファクタリングやJavadoc生成)の生産性を向上させるが、コードベースのコンテキストが限られているため、カスタマイズされた設計ルールのサポートが不十分であるため、複雑でドメイン固有のアクティビティの課題に直面していることを示しています。
コード転送のための新しいパラダイムを強調し、効果的なGenai使用に不可欠な反復迅速な改良、没入型開発環境、自動コード評価を強調します。

要約(オリジナル)

Generative AI (GenAI) applications are transforming software engineering by enabling automated code co-creation. However, empirical evidence on GenAI’s productivity effects in industrial settings remains limited. This paper investigates the adoption of GenAI coding assistants (e.g., Codeium, Amazon Q) within telecommunications and FinTech domains. Through surveys and interviews with industrial domain-experts, we identify primary productivity-influencing factors, including task complexity, coding skills, domain knowledge, and GenAI integration. Our findings indicate that GenAI tools enhance productivity in routine coding tasks (e.g., refactoring and Javadoc generation) but face challenges in complex, domain-specific activities due to limited context-awareness of codebases and insufficient support for customized design rules. We highlight new paradigms for coding transfer, emphasizing iterative prompt refinement, immersive development environment, and automated code evaluation as essential for effective GenAI usage.

arxiv情報

著者 Liang Yu
発行日 2025-04-25 15:00:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Paradigm shift on Coding Productivity Using GenAI はコメントを受け付けていません

Physics-Informed Inference Time Scaling via Simulation-Calibrated Scientific Machine Learning

要約

高次元の部分微分方程式(PDE)は、量子化学から経済学や財政に至るまでの分野全体に大きな計算上の課題をもたらします。
科学機械学習(SCIML)技術はおおよそのソリューションを提供しますが、多くの場合、バイアスに苦しみ、重要な物理的洞察を無視します。
言語モデルの推論時間スケーリング戦略に触発され、物理的法則を施行することにより推論中にSCIML予測を動的に洗練および削除する物理学に基づいたフレームワークであるシミュレーションキャリブレーションされた科学機械学習(SCASML)を提案します。
SCASMLレバレッジは、系統的エラーを定量化し、Feynman-KACおよびElworthy-Bismut-LI式に基づいてモンテカルロソルバーを使用して、予測を動的に修正する新しい物理的法則を導き出しました。
数値分析と理論分析の両方で、計算最適な推論方法を介して収束速度が強化されていることが確認されます。
私たちの数値実験は、SCASMLが基本代理モデルと比較して誤差を20〜50%減らすことを示しており、推論中に高次元PDEの近似溶液を改善する最初のアルゴリズムとして確立されています。
Code of Scasmlはhttps://github.com/francis-fan-create/scasmlで入手できます。

要約(オリジナル)

High-dimensional partial differential equations (PDEs) pose significant computational challenges across fields ranging from quantum chemistry to economics and finance. Although scientific machine learning (SciML) techniques offer approximate solutions, they often suffer from bias and neglect crucial physical insights. Inspired by inference-time scaling strategies in language models, we propose Simulation-Calibrated Scientific Machine Learning (SCaSML), a physics-informed framework that dynamically refines and debiases the SCiML predictions during inference by enforcing the physical laws. SCaSML leverages derived new physical laws that quantifies systematic errors and employs Monte Carlo solvers based on the Feynman-Kac and Elworthy-Bismut-Li formulas to dynamically correct the prediction. Both numerical and theoretical analysis confirms enhanced convergence rates via compute-optimal inference methods. Our numerical experiments demonstrate that SCaSML reduces errors by 20-50% compared to the base surrogate model, establishing it as the first algorithm to refine approximated solutions to high-dimensional PDE during inference. Code of SCaSML is available at https://github.com/Francis-Fan-create/SCaSML.

arxiv情報

著者 Zexi Fan,Yan Sun,Shihao Yang,Yiping Lu
発行日 2025-04-25 15:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NA, math.NA, math.PR, stat.ML | Physics-Informed Inference Time Scaling via Simulation-Calibrated Scientific Machine Learning はコメントを受け付けていません

Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach

要約

今日のデジタルの世界ではウェブサイトが重要であり、現在1,11億人以上が活動しており、毎日約252,000の新しいサイトが発売されています。
Webサイトのレイアウト設計を機能的なUIコードに変換することは、Webサイト開発の時間のかかるが不可欠なステップです。
視覚設計を機能コードに変換する手動の方法は、特に非専門家にとって重要な課題を提示します。
自動設計からコードへのソリューションを探索するために、最初にGPT-4Oに関する動機付け研究を実施し、UIコードの生成において3種類の問題を特定します:要素の省略、要素の歪み、および要素の誤解。
さらに、小さな視覚セグメントに焦点を当てることで、マルチモーダルの大手言語モデル(MLLM)がこれらの障害を生成プロセスに緩和するのに役立つことを明らかにします。
このホワイトペーパーでは、Webページ設計のUIコードへの翻訳を自動化するための分裂と征服ベースのアプローチであるDCGENを提案します。
DCGenは、スクリーンショットを管理可能なセグメントに分割し、各セグメントのコードを生成し、スクリーンショット全体の完全なUIコードに再組み立てすることから開始します。
現実世界のWebサイトとさまざまなMLLMで構成されるデータセットで広範なテストを実施し、DCGENが視覚的類似性を最大15%改善し、大規模な入力画像のコード類似性を8%に達成することを実証しています。
人間の評価は、DCGENが開発者がWebページを大幅に速く実装し、UIデザインよりも類似しているのを助けることができることを示しています。
私たちの知る限り、DCGENは、スクリーンショットから直接UIコードを生成するための最初のセグメントに対応するMLLMベースのアプローチです。

要約(オリジナル)

Websites are critical in today’s digital world, with over 1.11 billion currently active and approximately 252,000 new sites launched daily. Converting website layout design into functional UI code is a time-consuming yet indispensable step of website development. Manual methods of converting visual designs into functional code present significant challenges, especially for non-experts. To explore automatic design-to-code solutions, we first conduct a motivating study on GPT-4o and identify three types of issues in generating UI code: element omission, element distortion, and element misarrangement. We further reveal that a focus on smaller visual segments can help multimodal large language models (MLLMs) mitigate these failures in the generation process. In this paper, we propose DCGen, a divide-and-conquer-based approach to automate the translation of webpage design to UI code. DCGen starts by dividing screenshots into manageable segments, generating code for each segment, and then reassembling them into complete UI code for the entire screenshot. We conduct extensive testing with a dataset comprised of real-world websites and various MLLMs and demonstrate that DCGen achieves up to a 15% improvement in visual similarity and 8% in code similarity for large input images. Human evaluations show that DCGen can help developers implement webpages significantly faster and more similar to the UI designs. To the best of our knowledge, DCGen is the first segment-aware MLLM-based approach for generating UI code directly from screenshots.

arxiv情報

著者 Yuxuan Wan,Chaozheng Wang,Yi Dong,Wenxuan Wang,Shuqing Li,Yintong Huo,Michael R. Lyu
発行日 2025-04-25 15:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach はコメントを受け付けていません

Deep Learning-based Intrusion Detection Systems: A Survey

要約

侵入検知システム(IDS)は、サイバーセキュリティコミュニティで長い間ホットトピックでした。
近年、ディープラーニング(DL)テクニックの導入により、IDは一般化の増加により大きな進歩を遂げました。
この背後にある理論的根拠は、既知のシステム動作の根本的なパターンを学習することにより、IDSの検出がゼロデイの脆弱性を活用する侵入に一般化できるということです。
この調査では、このタイプのIDをDLベースのID(DL-ID)と呼びます。
DLの観点から、この調査では、データ収集、ログストレージ、ログ解析、グラフの要約、攻撃検出、攻撃調査など、DL-IDのすべての段階を体系的にレビューします。
現在の研究者に対応するために、公開されているベンチマークデータセットを説明するセクションが含まれています。
この調査では、現在の課題と潜在的な将来の研究の方向性について説明し、研究者がDL-IDの研究の基本的なアイデアとビジョンを理解し、研究の関心を動機付けることを目指しています。

要約(オリジナル)

Intrusion Detection Systems (IDS) have long been a hot topic in the cybersecurity community. In recent years, with the introduction of deep learning (DL) techniques, IDS have made great progress due to their increasing generalizability. The rationale behind this is that by learning the underlying patterns of known system behaviors, IDS detection can be generalized to intrusions that exploit zero-day vulnerabilities. In this survey, we refer to this type of IDS as DL-based IDS (DL-IDS). From the perspective of DL, this survey systematically reviews all the stages of DL-IDS, including data collection, log storage, log parsing, graph summarization, attack detection, and attack investigation. To accommodate current researchers, a section describing the publicly available benchmark datasets is included. This survey further discusses current challenges and potential future research directions, aiming to help researchers understand the basic ideas and visions of DL-IDS research, as well as to motivate their research interests.

arxiv情報

著者 Zhiwei Xu,Yujuan Wu,Shiheng Wang,Jiabao Gao,Tian Qiu,Ziqi Wang,Hai Wan,Xibin Zhao
発行日 2025-04-25 15:16:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Deep Learning-based Intrusion Detection Systems: A Survey はコメントを受け付けていません

A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints

要約

モデルフリーの強化学習方法には、訓練されたポリシーに行動の制約を課す固有のメカニズムがありません。
特定の拡張機能は存在しますが、追加の報酬信号を備えた値の制約や面会密度の制約など、特定のタイプの制約に限定されています。
この作業では、これらの既存の手法を統合し、価値ベースおよびアクター批判の強化学習方法のための一般的なプライマルデュアルフレームワークを使用して、古典的な最適化と制御理論でギャップを埋めます。
得られた二重製剤は、このような二重制約(または正規化項)とプライマルの報酬の修正との本質的な関係が明らかにされているため、学習ポリシーに追加の制約を課すのに特に役立つことが判明しました。
さらに、このフレームワークを使用して、いくつかの新しいタイプの制約を導入することができ、ポリシーのアクション密度または連続した状態とアクション間の移行に関連するコストに境界を課すことができます。
調整されたプライマル二重の最適化問題から、トレーニング可能な報酬の変更を使用してトレーニング全体で自動的に処理されるポリシー制約のさまざまな組み合わせをサポートする実用的なアルゴリズムが導き出されます。
提案された$ \ texttt {dualcrl} $メソッドは、より詳細に調べられ、2つの解釈可能な環境で異なる(組み合わせ)制約の下で評価されます。
結果は、このようなシステムの設計者に、可能なポリシー制約の多用途のツールボックスを最終的に提供するメソッドの有効性を強調しています。

要約(オリジナル)

Model-free reinforcement learning methods lack an inherent mechanism to impose behavioural constraints on the trained policies. Although certain extensions exist, they remain limited to specific types of constraints, such as value constraints with additional reward signals or visitation density constraints. In this work we unify these existing techniques and bridge the gap with classical optimization and control theory, using a generic primal-dual framework for value-based and actor-critic reinforcement learning methods. The obtained dual formulations turn out to be especially useful for imposing additional constraints on the learned policy, as an intrinsic relationship between such dual constraints (or regularization terms) and reward modifications in the primal is revealed. Furthermore, using this framework, we are able to introduce some novel types of constraints, allowing to impose bounds on the policy’s action density or on costs associated with transitions between consecutive states and actions. From the adjusted primal-dual optimization problems, a practical algorithm is derived that supports various combinations of policy constraints that are automatically handled throughout training using trainable reward modifications. The proposed $\texttt{DualCRL}$ method is examined in more detail and evaluated under different (combinations of) constraints on two interpretable environments. The results highlight the efficacy of the method, which ultimately provides the designer of such systems with a versatile toolbox of possible policy constraints.

arxiv情報

著者 Bram De Cooman,Johan Suykens
発行日 2025-04-25 15:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, I.2.8 | A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints はコメントを受け付けていません

CAPO: Cost-Aware Prompt Optimization

要約

大規模な言語モデル(LLM)は、単にプロンプ​​トに導かれる幅広いタスクを解決することにより、自然言語処理に革命をもたらしました。
しかし、彼らのパフォーマンスは迅速な策定に非常に敏感です。
自動化されたプロンプト最適化は、最適なプロンプトを見つけることによりこの課題に対処しますが、現在の方法ではかなりの数のLLMコールと入力トークンが必要であり、プロンプトの最適化が高価になります。
Capo(コスト認識の迅速な最適化)を紹介します。これは、Automl技術を統合することで迅速な最適化効率を高めるアルゴリズムです。
Capoは、LLMSをオペレーターとしての進化的アプローチであり、評価と多目的最適化を節約するためのレースを組み込み、パフォーマンスと迅速な長さのバランスをとります。
堅牢性を向上させるためにタスクの説明を活用しながら、指示と少数のショット例を共同で最適化します。
多様なデータセットとLLMSにわたる広範な実験は、Capoが11/15のケースで最先端の離散プロンプト最適化方法を上回ることを示しています。
私たちのアルゴリズムは、予算が少ない既により良いパフォーマンスを達成し、レースを通じて評価を節約し、長さのペナルティを介して平均プロンプトの長さを減らし、費用効率とコスト認識の両方にします。
少数のショットの例がなくても、Capoは競合他社よりも優れており、一般的に初期プロンプトに対して堅牢なままです。
Capoは、コスト効率を向上させることにより、迅速な最適化をより強力でアクセスしやすくするための重要なステップを表しています。

要約(オリジナル)

Large language models (LLMs) have revolutionized natural language processing by solving a wide range of tasks simply guided by a prompt. Yet their performance is highly sensitive to prompt formulation. While automated prompt optimization addresses this challenge by finding optimal prompts, current methods require a substantial number of LLM calls and input tokens, making prompt optimization expensive. We introduce CAPO (Cost-Aware Prompt Optimization), an algorithm that enhances prompt optimization efficiency by integrating AutoML techniques. CAPO is an evolutionary approach with LLMs as operators, incorporating racing to save evaluations and multi-objective optimization to balance performance with prompt length. It jointly optimizes instructions and few-shot examples while leveraging task descriptions for improved robustness. Our extensive experiments across diverse datasets and LLMs demonstrate that CAPO outperforms state-of-the-art discrete prompt optimization methods in 11/15 cases with improvements up to 21%p. Our algorithm achieves better performances already with smaller budgets, saves evaluations through racing, and decreases average prompt length via a length penalty, making it both cost-efficient and cost-aware. Even without few-shot examples, CAPO outperforms its competitors and generally remains robust to initial prompts. CAPO represents an important step toward making prompt optimization more powerful and accessible by improving cost-efficiency.

arxiv情報

著者 Tom Zehle,Moritz Schlager,Timo Heiß,Matthias Feurer
発行日 2025-04-25 15:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NE, stat.ML | CAPO: Cost-Aware Prompt Optimization はコメントを受け付けていません

LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection

要約

さまざまなセクターにわたる人工知能(AI)の変革的影響にもかかわらず、サイバーセキュリティは、高い誤った陽性率と表面的なコードの理解によって妨げられ、従来の静的および動的分析ツールに依存し続けています。
生成AIはソフトウェア開発に有望な自動化機能を提供しますが、脆弱性検出のために大規模な言語モデル(LLMS)を活用することは、独自の課題をもたらします。
このホワイトペーパーでは、脆弱性を特定する際のLLMの潜在性と制限を調査し、幻覚、限られたコンテキストの長さ、知識のカットオフなどの固有の弱点を認めています。
脆弱性検出のために機械学習モデルを採用した以前の試みは、現実世界の適用性、機能エンジニアリングの課題、文脈的理解の欠如、および進化する脅威の景観に対応するためのトレーニングモデルの複雑さにより、効果がないことが証明されています。
したがって、これらの制限を軽減し、LLMベースの脆弱性検出の品質と信頼性を確保することに焦点を当てた堅牢なAI駆動型アプローチを提案します。
検索された生成(RAG)とエージェントの混合(MOA)を組み合わせた革新的な方法論を通じて、この研究はLLMSの強みを活用しながら、その弱点に対処し、最終的には進化し続けるソフトウェアのランド構想を確保するための信頼できる効率的なAI搭載ソリューションへの道を開くことを目指しています。

要約(オリジナル)

Despite the transformative impact of Artificial Intelligence (AI) across various sectors, cyber security continues to rely on traditional static and dynamic analysis tools, hampered by high false positive rates and superficial code comprehension. While generative AI offers promising automation capabilities for software development, leveraging Large Language Models (LLMs) for vulnerability detection presents unique challenges. This paper explores the potential and limitations of LLMs in identifying vulnerabilities, acknowledging inherent weaknesses such as hallucinations, limited context length, and knowledge cut-offs. Previous attempts employing machine learning models for vulnerability detection have proven ineffective due to limited real-world applicability, feature engineering challenges, lack of contextual understanding, and the complexities of training models to keep pace with the evolving threat landscape. Therefore, we propose a robust AI-driven approach focused on mitigating these limitations and ensuring the quality and reliability of LLM based vulnerability detection. Through innovative methodologies combining Retrieval-Augmented Generation (RAG) and Mixtureof-Agents (MoA), this research seeks to leverage the strengths of LLMs while addressing their weaknesses, ultimately paving the way for dependable and efficient AI-powered solutions in securing the ever-evolving software landscape.

arxiv情報

著者 Rajesh Yarra
発行日 2025-04-25 15:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection はコメントを受け付けていません

AMAD: AutoMasked Attention for Unsupervised Multivariate Time Series Anomaly Detection

要約

監視されていない多変量時系列異常検出(UMTSAD)は、金融、ネットワーク、センサーシステムなど、さまざまなドメインで重要な役割を果たします。
近年、一般的な連続したタスクにおけるディープラーニングの優れたパフォーマンスにより、多くのモデルは深いUMTSADタスクに特化しており、特に変圧器と自己触媒メカニズムに基づいた印象的な結果を達成しています。
ただし、これらのモデルの根底にある配列異常関連の仮定は、多くの場合、濃縮またはピークの異常パターンなどの特定の事前定義されたパターンとシナリオに限定されます。
これらの制限は、特にラベルの欠如が重要な課題をもたらす場合、多様な異常な状況に一般化する能力を妨げます。
これらの問題に対処するために、\ textbf {a} uto \ textbf {m}を統合するAmadを提案します。
Amadは、Automaskメカニズムと注意混合モジュールに基づいた新しい構造を導入し、シンプルでありながら一般化された異常関連の表現フレームワークを形成します。
このフレームワークは、マックスミントレーニング戦略とローカルグローバルコントラスト学習アプローチによってさらに強化されています。
マルチスケールの特徴抽出と自動相対関連モデリングを組み合わせることにより、AMADはUMTSADの課題に対して堅牢で適応性のあるソリューションを提供します。
広範な実験結果は、さまざまなデータセットにわたるSOTAベンチマークと比較して、競争力のあるパフォーマンス結果を達成する提案されたモデルが競争力のあるパフォーマンス結果を達成することを示しています。

要約(オリジナル)

Unsupervised multivariate time series anomaly detection (UMTSAD) plays a critical role in various domains, including finance, networks, and sensor systems. In recent years, due to the outstanding performance of deep learning in general sequential tasks, many models have been specialized for deep UMTSAD tasks and have achieved impressive results, particularly those based on the Transformer and self-attention mechanisms. However, the sequence anomaly association assumptions underlying these models are often limited to specific predefined patterns and scenarios, such as concentrated or peak anomaly patterns. These limitations hinder their ability to generalize to diverse anomaly situations, especially where the lack of labels poses significant challenges. To address these issues, we propose AMAD, which integrates \textbf{A}uto\textbf{M}asked Attention for UMTS\textbf{AD} scenarios. AMAD introduces a novel structure based on the AutoMask mechanism and an attention mixup module, forming a simple yet generalized anomaly association representation framework. This framework is further enhanced by a Max-Min training strategy and a Local-Global contrastive learning approach. By combining multi-scale feature extraction with automatic relative association modeling, AMAD provides a robust and adaptable solution to UMTSAD challenges. Extensive experimental results demonstrate that the proposed model achieving competitive performance results compared to SOTA benchmarks across a variety of datasets.

arxiv情報

著者 Tiange Huang,Yongjun Li
発行日 2025-04-25 15:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.5.1 | AMAD: AutoMasked Attention for Unsupervised Multivariate Time Series Anomaly Detection はコメントを受け付けていません

Kimi-Audio Technical Report

要約

オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーションモデルであるKimi-Audioを紹介します。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論の展開、評価など、Kimi-Audioの構築における実践について詳しく説明します。
具体的には、12.5Hzのオーディオトークンザーを活用し、入力として連続的な機能を備えた新しいLLMベースのアーキテクチャを出力として離散トークンとして設計し、フローマッチングに基づいてチャンクワイズストリーミングデテクエイザーを開発します。
スピーチ、サウンド、音楽などの幅広いモダリティをカバーする1300万時間以上のオーディオデータで構成されるトレーニング前のデータセットをキュレートし、高品質で多様なトレーニング後のデータを構築するパイプラインを構築します。
事前に訓練されたLLMから初期化されたKimi-Audioは、いくつかの慎重に設計されたタスクを備えたオーディオデータとテキストデータの両方で継続的に事前に訓練されており、さまざまなオーディオ関連のタスクをサポートするために微調整されています。
広範な評価によると、Kimi-Audioは、音声認識、オーディオ理解、オーディオ質問の回答、音声会話など、さまざまなオーディオベンチマークで最先端のパフォーマンスを達成しています。
https://github.com/moonshotai/kimi-audioで、コード、モデルチェックポイント、および評価ツールキットをリリースします。

要約(オリジナル)

We present Kimi-Audio, an open-source audio foundation model that excels in audio understanding, generation, and conversation. We detail the practices in building Kimi-Audio, including model architecture, data curation, training recipe, inference deployment, and evaluation. Specifically, we leverage a 12.5Hz audio tokenizer, design a novel LLM-based architecture with continuous features as input and discrete tokens as output, and develop a chunk-wise streaming detokenizer based on flow matching. We curate a pre-training dataset that consists of more than 13 million hours of audio data covering a wide range of modalities including speech, sound, and music, and build a pipeline to construct high-quality and diverse post-training data. Initialized from a pre-trained LLM, Kimi-Audio is continual pre-trained on both audio and text data with several carefully designed tasks, and then fine-tuned to support a diverse of audio-related tasks. Extensive evaluation shows that Kimi-Audio achieves state-of-the-art performance on a range of audio benchmarks including speech recognition, audio understanding, audio question answering, and speech conversation. We release the codes, model checkpoints, as well as the evaluation toolkits in https://github.com/MoonshotAI/Kimi-Audio.

arxiv情報

著者 KimiTeam,Ding Ding,Zeqian Ju,Yichong Leng,Songxiang Liu,Tong Liu,Zeyu Shang,Kai Shen,Wei Song,Xu Tan,Heyi Tang,Zhengtao Wang,Chu Wei,Yifei Xin,Xinran Xu,Jianwei Yu,Yutao Zhang,Xinyu Zhou,Y. Charles,Jun Chen,Yanru Chen,Yulun Du,Weiran He,Zhenxing Hu,Guokun Lai,Qingcheng Li,Yangyang Liu,Weidong Sun,Jianzhou Wang,Yuzhi Wang,Yuefeng Wu,Yuxin Wu,Dongchao Yang,Hao Yang,Ying Yang,Zhilin Yang,Aoxiong Yin,Ruibin Yuan,Yutong Zhang,Zaida Zhou
発行日 2025-04-25 15:31:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | Kimi-Audio Technical Report はコメントを受け付けていません