Voice Cloning: Comprehensive Survey

要約

音声クローニングは、今日のデジタルの世界で急速に進歩しており、多くの研究者や企業がさまざまなアプリケーションのこれらのアルゴリズムを改善するために取り組んでいます。
この記事の目的は、音声クローンのための標準化された用語を確立し、そのさまざまなバリエーションを調査することを目的としています。
これは、スピーカーの適応を基本的な概念としてカバーし、そのコンテキスト内の少数のショット、ゼロショット、多言語TTSなどのトピックをより深く掘り下げます。
最後に、音声クローン研究および関連データセットで一般的に使用される評価メトリックを調査します。
この調査では、利用可能な音声クローニングアルゴリズムをまとめて、その生成と検出に向けた研究を促進し、その誤用を制限します。

要約(オリジナル)

Voice Cloning has rapidly advanced in today’s digital world, with many researchers and corporations working to improve these algorithms for various applications. This article aims to establish a standardized terminology for voice cloning and explore its different variations. It will cover speaker adaptation as the fundamental concept and then delve deeper into topics such as few-shot, zero-shot, and multilingual TTS within that context. Finally, we will explore the evaluation metrics commonly used in voice cloning research and related datasets. This survey compiles the available voice cloning algorithms to encourage research toward its generation and detection to limit its misuse.

arxiv情報

著者 Hussam Azzuni,Abdulmotaleb El Saddik
発行日 2025-05-01 15:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Voice Cloning: Comprehensive Survey はコメントを受け付けていません

Efficient IoT Intrusion Detection with an Improved Attention-Based CNN-BiLSTM Architecture

要約

インターネットのインターネット(IoT)システムの増え続けるセキュリティの脆弱性には、脅威検出アプローチの改善が必要です。
このペーパーでは、トラフィックパターン分析、時間的サポート学習、および焦点を絞った特徴抽出で構成される統合アプローチを採用することにより、ボットネット攻撃を検出するためのコンパクトで効率的なアプローチを提示します。
提案された注意ベースのモデルは、ハイブリッドCNN-BILSTMアーキテクチャから利益を得ており、N-BaioTデータセットを使用したボットネット攻撃の検出において99%の分類精度を達成し、さまざまなシナリオで高精度とリコールを維持します。
提案されたモデルのパフォーマンスは、Mathews相関係数やCohenのKappa相関係数などの重要なパラメーターによってさらに検証されます。
これらのパラメーターの理想的な結果は、実際の設定および目に見えないデータで、ボットネット攻撃を正確かつ効率的に検出する提案されたモデルの能力を示しています。
提案されたモデルは、IoTネットワークが新たなセキュリティの課題に直面するための強力な防衛メカニズムであることが証明されました。

要約(オリジナル)

The ever-increasing security vulnerabilities in the Internet-of-Things (IoT) systems require improved threat detection approaches. This paper presents a compact and efficient approach to detect botnet attacks by employing an integrated approach that consists of traffic pattern analysis, temporal support learning, and focused feature extraction. The proposed attention-based model benefits from a hybrid CNN-BiLSTM architecture and achieves 99% classification accuracy in detecting botnet attacks utilizing the N-BaIoT dataset, while maintaining high precision and recall across various scenarios. The proposed model’s performance is further validated by key parameters, such as Mathews Correlation Coefficient and Cohen’s kappa Correlation Coefficient. The close-to-ideal results for these parameters demonstrate the proposed model’s ability to detect botnet attacks accurately and efficiently in practical settings and on unseen data. The proposed model proved to be a powerful defence mechanism for IoT networks to face emerging security challenges.

arxiv情報

著者 Amna Naeem,Muazzam A. Khan,Nada Alasbali,Jawad Ahmad,Aizaz Ahmad Khattak,Muhammad Shahbaz Khan
発行日 2025-05-01 15:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Efficient IoT Intrusion Detection with an Improved Attention-Based CNN-BiLSTM Architecture はコメントを受け付けていません

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

要約

強化学習(RL)は、監視された微調整(SFT)に広く依存せずに、大規模な言語モデルの推論能力を直接強化できます。
この作業では、従来のポリシーグラデーション(PG)メカニズムを再訪し、グループポリシーグラジエント(GPG)と呼ばれるミニマリストRLアプローチを提案します。
従来の方法とは異なり、GPGは元のRL目標を直接最適化し、サロゲート損失関数の必要性を回避します。
批評家と参照モデルを排除し、KLの発散の制約を回避し、利点と勾配推定バイアスに対処することにより、私たちのアプローチは、グループ相対政策最適化(GRPO)と比較してトレーニングプロセスを大幅に簡素化します。
私たちのアプローチは、補助技術や調整に依存することなく、優れたパフォーマンスを実現します。
図1に示すように、広範な実験は、この方法が計算コストを削減するだけでなく、さまざまな単峰性およびマルチモーダルタスクでGRPOを一貫して上回ることを示しています。
私たちのコードは、https://github.com/amap-ml/gpgで入手できます。

要約(オリジナル)

Reinforcement Learning (RL) can directly enhance the reasoning capabilities of large language models without extensive reliance on Supervised Fine-Tuning (SFT). In this work, we revisit the traditional Policy Gradient (PG) mechanism and propose a minimalist RL approach termed Group Policy Gradient (GPG). Unlike conventional methods, GPG directly optimize the original RL objective, thus obviating the need for surrogate loss functions. By eliminating the critic and reference models, avoiding KL divergence constraints, and addressing the advantage and gradient estimation bias, our approach significantly simplifies the training process compared to Group Relative Policy Optimization (GRPO). Our approach achieves superior performance without relying on auxiliary techniques or adjustments. As illustrated in Figure 1, extensive experiments demonstrate that our method not only reduces computational costs but also consistently outperforms GRPO across various unimodal and multimodal tasks. Our code is available at https://github.com/AMAP-ML/GPG.

arxiv情報

著者 Xiangxiang Chu,Hailang Huang,Xiao Zhang,Fei Wei,Yong Wang
発行日 2025-05-01 15:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning はコメントを受け付けていません

A Finite-State Controller Based Offline Solver for Deterministic POMDPs

要約

決定論的な部分的に観察可能なマルコフ決定プロセス(detPOMDP)は、エージェントがその環境状態について不確実であるが、決定論的に行動し、観察することができる問題の問題でしばしば発生します。
このホワイトペーパーでは、DetPOMDPSのMonte Carlo Value Iteration(MCVI)アルゴリズムの適応であるDetMCVIを提案します。これは、有限状態コントローラー(FSC)の形でポリシーを構築します。
DetMCVIは、成功率が高いため、大きな問題を解決し、detPOMDPの既存のベースラインを上回ります。
また、実際のモバイルロボットフォレストマッピングシナリオでアルゴリズムのパフォーマンスを検証します。

要約(オリジナル)

Deterministic partially observable Markov decision processes (DetPOMDPs) often arise in planning problems where the agent is uncertain about its environmental state but can act and observe deterministically. In this paper, we propose DetMCVI, an adaptation of the Monte Carlo Value Iteration (MCVI) algorithm for DetPOMDPs, which builds policies in the form of finite-state controllers (FSCs). DetMCVI solves large problems with a high success rate, outperforming existing baselines for DetPOMDPs. We also verify the performance of the algorithm in a real-world mobile robot forest mapping scenario.

arxiv情報

著者 Alex Schutz,Yang You,Matias Mattamala,Ipek Caliskanelli,Bruno Lacerda,Nick Hawes
発行日 2025-05-01 15:30:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.8 | A Finite-State Controller Based Offline Solver for Deterministic POMDPs はコメントを受け付けていません

Fast and Low-Cost Genomic Foundation Models via Outlier Removal

要約

GENMIC Foundationモデル(GFMS)の最初の統一された敵対攻撃ベンチマークを提案します。
既存のGFMベンチマークとは異なり、Germは、GFMの脆弱性を敵対的攻撃に対する脆弱性を体系的に評価するための最初の包括的な評価フレームワークを提供します。
方法論的には、4つの広く採用された攻撃アルゴリズムと3つの防衛戦略を使用して、5つの最先端のGFMの敵対的堅牢性を評価します。
重要なことに、当社のベンチマークは、モデルアーキテクチャ、量子化スキーム、トレーニングデータセットに関してGFMの脆弱性を分析するためのアクセス可能で包括的なフレームワークを提供します。
経験的に、変圧器ベースのモデルは、ハイナドナと比較して敵対的な摂動に対してより大きな堅牢性を示し、脆弱性に対する建築設計の影響を強調しています。
さらに、敵対的な攻撃は、生物学的に有意なゲノム領域を頻繁に標的にし、これらのモデルが有意義なシーケンス機能を効果的にキャプチャすることを示唆しています。

要約(オリジナル)

We propose the first unified adversarial attack benchmark for Genomic Foundation Models (GFMs), named GERM. Unlike existing GFM benchmarks, GERM offers the first comprehensive evaluation framework to systematically assess the vulnerability of GFMs to adversarial attacks. Methodologically, we evaluate the adversarial robustness of five state-of-the-art GFMs using four widely adopted attack algorithms and three defense strategies. Importantly, our benchmark provides an accessible and comprehensive framework to analyze GFM vulnerabilities with respect to model architecture, quantization schemes, and training datasets. Empirically, transformer-based models exhibit greater robustness to adversarial perturbations compared to HyenaDNA, highlighting the impact of architectural design on vulnerability. Moreover, adversarial attacks frequently target biologically significant genomic regions, suggesting that these models effectively capture meaningful sequence features.

arxiv情報

著者 Haozheng Luo,Chenghao Qiu,Maojiang Su,Zhihan Zhou,Zoe Mehta,Guo Ye,Jerry Yao-Chieh Hu,Han Liu
発行日 2025-05-01 15:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Fast and Low-Cost Genomic Foundation Models via Outlier Removal はコメントを受け付けていません

Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4

要約

この研究では、大規模な言語モデル、特にGPT4が、戦略的意思決定のコンテキスト内での類似の推論において人間の能力を一致させることができるかどうかを調査します。
ソースを含む新しい実験設計を使用してマッチングをターゲットにするために、GPT4はすべてのもっともらしい類推を取得することにより高いリコールを達成しますが、低精度に苦しみ、表面的な類似性に基づいて誤った類似性を適用することが多いことがわかります。
対照的に、人間の参加者は高精度ではあるが低いリコールを示し、より少ない類推を選択しますが、より強い因果関係を備えています。
これらの発見は、単純な検索を超えた正確な因果マッピングを必要とする明確なステップとして、類似の推論の評価段階であるマッチングを識別することにより理論を前進させます。
現在のLLMは候補者の類推を生成するのに熟練していますが、人間はドメイン全体で深い構造的類似性を認識する上で比較利点を維持しています。
エラー分析により、AIエラーは表面レベルのマッチングから生じるのに対し、ヒューマンエラーは因果構造の誤解に起因することが明らかになりました。
総合すると、結果は、LLMが幅広い類推ジェネレーターとして機能する可能性があるAIの生産的な分業の組織の意思決定を支援し、人間は戦略的問題に最も文脈的に適切な類推を適用する重要な評価者として機能することを示唆しています。

要約(オリジナル)

This study investigates whether large language models, specifically GPT4, can match human capabilities in analogical reasoning within strategic decision making contexts. Using a novel experimental design involving source to target matching, we find that GPT4 achieves high recall by retrieving all plausible analogies but suffers from low precision, frequently applying incorrect analogies based on superficial similarities. In contrast, human participants exhibit high precision but low recall, selecting fewer analogies yet with stronger causal alignment. These findings advance theory by identifying matching, the evaluative phase of analogical reasoning, as a distinct step that requires accurate causal mapping beyond simple retrieval. While current LLMs are proficient in generating candidate analogies, humans maintain a comparative advantage in recognizing deep structural similarities across domains. Error analysis reveals that AI errors arise from surface level matching, whereas human errors stem from misinterpretations of causal structure. Taken together, the results suggest a productive division of labor in AI assisted organizational decision making where LLMs may serve as broad analogy generators, while humans act as critical evaluators, applying the most contextually appropriate analogies to strategic problems.

arxiv情報

著者 Phanish Puranam,Prothit Sen,Maciej Workiewicz
発行日 2025-05-01 15:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | Can LLMs Help Improve Analogical Reasoning For Strategic Decisions? Experimental Evidence from Humans and GPT-4 はコメントを受け付けていません

Combining LLMs with Logic-Based Framework to Explain MCTS

要約

シーケンシャル計画のための人工知能(AI)への信頼の欠如に応じて、モンテカルロツリー検索(MCTS)アルゴリズム向けに設計された計算ツリー論理誘導大言語モデル(LLM)ベースの自然言語説明フレームワークを設計します。
MCTSは、検索ツリーの複雑さのために解釈するのが難しいことが多いことがよくありますが、私たちのフレームワークは、MCTSを中心とした幅広い自由形式の事後クエリと、アプリケーションドメインのマルコフ決定プロセス(MDP)を扱うのに十分な柔軟性があります。
ユーザークエリをロジックおよび変数ステートメントに変換することにより、私たちのフレームワークは、検索ツリーから得られた証拠が、基礎となる環境ダイナミクスと実際の確率制御プロセスの制約と事実上一致し続けることを保証します。
定量的評価を通じてフレームワークを厳密に評価し、精度と事実の一貫性の観点から強力なパフォーマンスを実証します。

要約(オリジナル)

In response to the lack of trust in Artificial Intelligence (AI) for sequential planning, we design a Computational Tree Logic-guided large language model (LLM)-based natural language explanation framework designed for the Monte Carlo Tree Search (MCTS) algorithm. MCTS is often considered challenging to interpret due to the complexity of its search trees, but our framework is flexible enough to handle a wide range of free-form post-hoc queries and knowledge-based inquiries centered around MCTS and the Markov Decision Process (MDP) of the application domain. By transforming user queries into logic and variable statements, our framework ensures that the evidence obtained from the search tree remains factually consistent with the underlying environmental dynamics and any constraints in the actual stochastic control process. We evaluate the framework rigorously through quantitative assessments, where it demonstrates strong performance in terms of accuracy and factual consistency.

arxiv情報

著者 Ziyan An,Xia Wang,Hendrik Baier,Zirong Chen,Abhishek Dubey,Taylor T. Johnson,Jonathan Sprinkle,Ayan Mukhopadhyay,Meiyi Ma
発行日 2025-05-01 15:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Combining LLMs with Logic-Based Framework to Explain MCTS はコメントを受け付けていません

Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

要約

このポジションペーパーでは、従来のML評価とベンチマーク戦略が最新のGenaiモデルとシステムを評価するニーズを満たすには不十分であるため、生成AIの経験的評価は危機的な時点にあることを観察します。
これには、これらのモデルには通常、ほとんど固定されていない入力スペースと出力スペースがほとんどなく、通常は明確に定義されたグラウンドトゥルースターゲットがないという事実など、多くの理由があり、通常、以前のモデル出力のコンテキストに基づいて強いフィードバックループと予測依存性を示します。
これらの重要な問題に加えて、{\ em Leakage}と{\ em contamination}の問題は、実際にはGenai評価のために対処するのが最も重要で困難な問題であると主張します。
興味深いことに、AI競技の分野は、競争環境内の悪い俳優による不正行為に対抗する目的で、漏れと戦うための効果的な措置と実践を開発しました。
これにより、AI競争は特に貴重な(しかし十分に活用されていない)リソースになります。
今こそ、この分野では、AI競争をgenai評価における経験的厳密さのゴールドスタンダードと見なし、価値に応じて結果を活用して収穫する時です。

要約(オリジナル)

In this position paper, we observe that empirical evaluation in Generative AI is at a crisis point since traditional ML evaluation and benchmarking strategies are insufficient to meet the needs of evaluating modern GenAI models and systems. There are many reasons for this, including the fact that these models typically have nearly unbounded input and output spaces, typically do not have a well defined ground truth target, and typically exhibit strong feedback loops and prediction dependence based on context of previous model outputs. On top of these critical issues, we argue that the problems of {\em leakage} and {\em contamination} are in fact the most important and difficult issues to address for GenAI evaluations. Interestingly, the field of AI Competitions has developed effective measures and practices to combat leakage for the purpose of counteracting cheating by bad actors within a competition setting. This makes AI Competitions an especially valuable (but underutilized) resource. Now is time for the field to view AI Competitions as the gold standard for empirical rigor in GenAI evaluation, and to harness and harvest their results with according value.

arxiv情報

著者 D. Sculley,Will Cukierski,Phil Culliton,Sohier Dane,Maggie Demkin,Ryan Holbrook,Addison Howard,Paul Mooney,Walter Reade,Megan Risdal,Nate Keating
発行日 2025-05-01 15:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation はコメントを受け付けていません

Cognitive Neural Architecture Search Reveals Hierarchical Entailment

要約

最近の研究は、脳が以前に考えられていたよりも浅いことを示唆しており、腹側の視覚経路の伝統的に想定されている階層構造に挑戦しています。
ここでは、明確な表現階層を持つモデルにおける進化的ニューラルアーキテクチャの検索結果を介して、脳整列のための畳み込みネットワークアーキテクチャを最適化することを実証します。
ランダムな重みを持っているにもかかわらず、特定されたモデルは、回帰分析と表現類似性分析の両方で測定されるように、前処理された分類モデルのスコアを上回る脳整列スコアを達成します。
さらに、従来の監視されたトレーニングを通じて、後期腹部領域との整合のために最適化されたアーキテクチャは、競争力のある分類モデルになります。
これらの発見は、階層構造が霊長類の視覚処理の基本的なメカニズムであることを示唆しています。
最後に、この研究は、手動で設計された畳み込みネットワークへの分野の依存を減らすことができる計算認知神経科学研究のフレームワークとしての神経アーキテクチャ検索の可能性を示しています。

要約(オリジナル)

Recent research has suggested that the brain is more shallow than previously thought, challenging the traditionally assumed hierarchical structure of the ventral visual pathway. Here, we demonstrate that optimizing convolutional network architectures for brain-alignment via evolutionary neural architecture search results in models with clear representational hierarchies. Despite having random weights, the identified models achieve brain-alignment scores surpassing even those of pretrained classification models – as measured by both regression and representational similarity analysis. Furthermore, through traditional supervised training, architectures optimized for alignment with late ventral regions become competitive classification models. These findings suggest that hierarchical structure is a fundamental mechanism of primate visual processing. Finally, this work demonstrates the potential of neural architecture search as a framework for computational cognitive neuroscience research that could reduce the field’s reliance on manually designed convolutional networks.

arxiv情報

著者 Lukas Kuhn,Sari Saba-Sadiya,Gemma Roig
発行日 2025-05-01 15:51:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE, q-bio.QM | Cognitive Neural Architecture Search Reveals Hierarchical Entailment はコメントを受け付けていません

Commute Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、グラフ構造データから学習に顕著な成功を示しています。
ただし、指示されたグラフ(gigraph)へのアプリケーションは、主にノード関係に固有の非対称性が原因で、独自の課題を提示します。
従来のGNNは、単方向の関係を捉えるのに熟達していますが、gigraphで通常見られる非対称の最も短いパスなど、ノード間の相互パス依存性をエンコードすることは不足しています。
このギャップを認識して、通勤グラフニューラルネットワーク(CGNN)を導入します。これは、ノードごとの通勤時間をメッセージパススキームにシームレスに統合するアプローチです。
CGNNの礎石は、新しく処方されたDigraph Laplacianを使用して通勤時間を計算するための効率的な方法です。
その後、通勤時間は近隣の集約プロセスに統合され、各レイヤーの中央ノードへのそれぞれの通勤時間に従って近隣の寄付が加重されます。
これにより、CGNNは、gigraphsの相互の非対称関係を直接キャプチャできます。
8つのベンチマークデータセットでの広範な実験では、13の最先端の方法に対するCGNNの優位性が確認されています。

要約(オリジナル)

Graph Neural Networks (GNNs) have shown remarkable success in learning from graph-structured data. However, their application to directed graphs (digraphs) presents unique challenges, primarily due to the inherent asymmetry in node relationships. Traditional GNNs are adept at capturing unidirectional relations but fall short in encoding the mutual path dependencies between nodes, such as asymmetrical shortest paths typically found in digraphs. Recognizing this gap, we introduce Commute Graph Neural Networks (CGNN), an approach that seamlessly integrates node-wise commute time into the message passing scheme. The cornerstone of CGNN is an efficient method for computing commute time using a newly formulated digraph Laplacian. Commute time is then integrated into the neighborhood aggregation process, with neighbor contributions weighted according to their respective commute time to the central node in each layer. It enables CGNN to directly capture the mutual, asymmetric relationships in digraphs. Extensive experiments on 8 benchmarking datasets confirm the superiority of CGNN against 13 state-of-the-art methods.

arxiv情報

著者 Wei Zhuo,Han Yu,Guang Tan,Xiaoxiao Li
発行日 2025-05-01 15:57:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Commute Graph Neural Networks はコメントを受け付けていません