autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks

要約

この作業では、コンピューターオーディションタスクの新しいディープラーニングトレーニングフレームワークであるAutrainerの主要な運用原則を紹介します。
Autrainerは、Pytorchベースのツールキットで、さまざまなコンピューターオーディションタスクで迅速で再現可能で、簡単に拡張可能なトレーニングを可能にします。
具体的には、Autrainerは低コードトレーニングを提供し、幅広いニューラルネットワークと前処理ルーチンをサポートします。
この作業では、その内部の仕組みと重要な機能の概要を示します。

要約(オリジナル)

This work introduces the key operating principles for autrainer, our new deep learning training framework for computer audition tasks. autrainer is a PyTorch-based toolkit that allows for rapid, reproducible, and easily extensible training on a variety of different computer audition tasks. Concretely, autrainer offers low-code training and supports a wide range of neural networks as well as preprocessing routines. In this work, we present an overview of its inner workings and key capabilities.

arxiv情報

著者 Simon Rampp,Andreas Triantafyllopoulos,Manuel Milling,Björn W. Schuller
発行日 2025-04-10 13:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | autrainer: A Modular and Extensible Deep Learning Toolkit for Computer Audition Tasks はコメントを受け付けていません

An Adversarial Perspective on Machine Unlearning for AI Safety

要約

大規模な言語モデルは、危険な知識に関する質問を拒否するために微調整されていますが、これらの保護はしばしばバイパスされる可能性があります。
学習方法は、モデルから危険な能力を完全に削除し、敵がアクセスできないようにすることを目指しています。
この作業は、敵対的な観点から、訓練後の訓練後の安全性と伝統的な安全性の根本的な違いに挑戦します。
既存の脱獄方法は、以前に学習に対して効果がないと報告されているが、慎重に適用すると成功することができることを実証します。
さらに、おそらく能力が低いと思われる能力を回復するさまざまな適応方法を開発します。
たとえば、10の無関係な例で微調整したり、アクティベーション空間で特定の方向を削除したりすると、最先端の未学習方法であるRMUで編集されたモデルのほとんどの危険な機能が回復する可能性があることを示しています。
私たちの調査結果は、現在の学習アプローチの堅牢性に挑戦し、安全トレーニングよりも彼らの利点に疑問を呈しています。

要約(オリジナル)

Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training.

arxiv情報

著者 Jakub Łucki,Boyi Wei,Yangsibo Huang,Peter Henderson,Florian Tramèr,Javier Rando
発行日 2025-04-10 13:54:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | An Adversarial Perspective on Machine Unlearning for AI Safety はコメントを受け付けていません

‘i am a stochastic parrot, and so r u’: Is AI-based framing of human behaviour and cognition a conceptual metaphor or conceptual engineering?

要約

AIテクノロジーの私たちの日常生活への大規模な統合を考えると、AI関連の概念は、AIシステムを人間の行動および/または言語習得などの認知能力と比phor的に比較するために使用されています。
当然のことながら、これらの比phor的な比較の認識論的成功は議論されるべきです。
「計算」と「肉」の悪魔主義の矛盾する位置を背景に、私たちは次のように尋ねます。計算とAIの概念的星座を人間の領域に適用できますか?
特にAIの概念的な星座がこの方法で使用されている場合、何をしているのでしょうか?
概念と言語使用のウィットゲンシュタインの見解に根ざして、2つの考えられる答えを検討し、互いに反対します。これらの例は概念的な比phorであるか、概念工学の試みです。
私たちはそれらが概念的な比phorであると主張しますが、(1)この立場はそれ自体の認識論的不測の事態を認識していないと主張します。
計算の概念的な基盤では、(3)最も重要なことは、人間の心理学と計算の間の比phor的なつながりのために、誤解を招く「二重比phor」です。
人間のドメインにAIのこの予測される概念構成の欠点に応えて、私たちはセマンティックキャッチがあると主張します。
概念的なメタファーの視点は、概念工学の形態の手段を示しています。
この方法論の基準が満たされている場合、概念的な比phorビューに関連する誤りと認識論的な欠点をバイパスすることができます。
最高の状態では、人間とAIの概念的なドメインの相互汚染は、現在の概念の境界がどのように役立つか、どのように承認されるかについて、私たちに新たに反映するように促すものです。

要約(オリジナル)

Given the massive integration of AI technologies into our daily lives, AI-related concepts are being used to metaphorically compare AI systems with human behaviour and/or cognitive abilities like language acquisition. Rightfully, the epistemic success of these metaphorical comparisons should be debated. Against the backdrop of the conflicting positions of the ‘computational’ and ‘meat’ chauvinisms, we ask: can the conceptual constellation of the computational and AI be applied to the human domain and what does it mean to do so? What is one doing when the conceptual constellations of AI in particular are used in this fashion? Rooted in a Wittgensteinian view of concepts and language-use, we consider two possible answers and pit them against each other: either these examples are conceptual metaphors, or they are attempts at conceptual engineering. We argue that they are conceptual metaphors, but that (1) this position is unaware of its own epistemological contingency, and (2) it risks committing the ”map-territory fallacy”. Down at the conceptual foundations of computation, (3) it most importantly is a misleading ‘double metaphor’ because of the metaphorical connection between human psychology and computation. In response to the shortcomings of this projected conceptual organisation of AI onto the human domain, we argue that there is a semantic catch. The perspective of the conceptual metaphors shows avenues for forms of conceptual engineering. If this methodology’s criteria are met, the fallacies and epistemic shortcomings related to the conceptual metaphor view can be bypassed. At its best, the cross-pollution of the human and AI conceptual domains is one that prompts us to reflect anew on how the boundaries of our current concepts serve us and how they could be approved.

arxiv情報

著者 Warmhold Jan Thomas Mollema,Thomas Wachter
発行日 2025-04-10 13:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, K.4 | ‘i am a stochastic parrot, and so r u’: Is AI-based framing of human behaviour and cognition a conceptual metaphor or conceptual engineering? はコメントを受け付けていません

Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency

要約

2017年のAlphazeroは、数千万ドルで計算予算を実行して、数百万のゲーム(自己プレイ)に対して何百万ものゲームをプレイすることで、人間の知識なしにチェスやその他のゲームをマスターすることができました。
Monte Carlo Tree Search(MCTS)アルゴリズムのバリアントを使用しました。
このペーパーでは、MCTSアルゴリズムの新しいハイブリッドバリアントであるSearch-Contemptを紹介します。これは、自己プレイで生成された位置の分布を根本的に変化させ、より挑戦的なポジションを好みます。
さらに、検索コンテンツは、オッズチェス(片側が最初から好ましくない位置を受け取る)のエンジンの強さを大きく後押しすることが示されています。
さらに重要なことは、数十万のトレーニングゲームが走るトレーニングゲームの数と、アルファゼロが必要とする数千万ドルのトレーニングゲームの代わりに数万ドルの費用がかかるため、自己プレイベースのエンジンをはるかに計算効率の良い方法でトレーニングする可能性を開きます。
これは、非常に限られた計算、コスト、または時間の予算でも、標準消費者GPUでそのようなプログラムをゼロからトレーニングすることが最終的に可能になる可能性があることを意味します。

要約(オリジナル)

AlphaZero in 2017 was able to master chess and other games without human knowledge by playing millions of games against itself (self-play), with a computation budget running in the tens of millions of dollars. It used a variant of the Monte Carlo Tree Search (MCTS) algorithm, known as PUCT. This paper introduces search-contempt, a novel hybrid variant of the MCTS algorithm that fundamentally alters the distribution of positions generated in self-play, preferring more challenging positions. In addition, search-contempt has been shown to give a big boost in strength for engines in Odds Chess (where one side receives an unfavorable position from the start). More significantly, it opens up the possibility of training a self-play based engine, in a much more computationally efficient manner with the number of training games running into hundreds of thousands, costing tens of thousands of dollars (instead of tens of millions of training games costing millions of dollars required by AlphaZero). This means that it may finally be possible to train such a program from zero on a standard consumer GPU even with a very limited compute, cost, or time budget.

arxiv情報

著者 Ameya Joshi
発行日 2025-04-10 13:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency はコメントを受け付けていません

Data over dialogue: Why artificial intelligence is unlikely to humanise medicine

要約

最近、人工知能(AI)と医学の専門家の数が増えており、AIシステム、特に機械学習(ML)システムの使用が、臨床医と患者の関係の質を大幅に改善することにより、医学の実践を人間化する可能性が高いことを示唆しています。
しかし、この論文では、医療MLシステムはこれらの関係を改善するよりもこれらの関係に悪影響を与える可能性が高いと主張します。
特に、医療MLシステムの使用は、臨床医と患者の間の信頼、ケア、共感、理解、およびコミュニケーションの質を構成する可能性が高いと主張します。

要約(オリジナル)

Recently, a growing number of experts in artificial intelligence (AI) and medicine have be-gun to suggest that the use of AI systems, particularly machine learning (ML) systems, is likely to humanise the practice of medicine by substantially improving the quality of clinician-patient relationships. In this thesis, however, I argue that medical ML systems are more likely to negatively impact these relationships than to improve them. In particular, I argue that the use of medical ML systems is likely to comprise the quality of trust, care, empathy, understanding, and communication between clinicians and patients.

arxiv情報

著者 Joshua Hatherley
発行日 2025-04-10 14:03:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, cs.LG | Data over dialogue: Why artificial intelligence is unlikely to humanise medicine はコメントを受け付けていません

SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow

要約

最近、フローマッチングベースの音声合成により、推論ステップの数を減らしながら、合成された音声の品質が大幅に向上しました。
この論文では、修正された流れに基づいた軽量で効率的な音声合成システムであるSlimspeechを紹介します。
修正フローモデルを利用して既存の音声合成方法に基づいて構築され、その構造を変更してパラメーターを削減し、教師モデルとして機能します。
リフロー操作を改良することにより、蒸留技術を利用してモデルのパフォーマンスをさらに向上させながら、より大きなモデルからよりまっすぐなサンプリング軌道を備えた小さなモデルを直接導き出します。
実験結果は、モデルパラメーターが大幅に削減された提案された方法が、ワンステップサンプリングを通じてより大きなモデルに匹敵するパフォーマンスを達成することを示しています。

要約(オリジナル)

Recently, flow matching based speech synthesis has significantly enhanced the quality of synthesized speech while reducing the number of inference steps. In this paper, we introduce SlimSpeech, a lightweight and efficient speech synthesis system based on rectified flow. We have built upon the existing speech synthesis method utilizing the rectified flow model, modifying its structure to reduce parameters and serve as a teacher model. By refining the reflow operation, we directly derive a smaller model with a more straight sampling trajectory from the larger model, while utilizing distillation techniques to further enhance the model performance. Experimental results demonstrate that our proposed method, with significantly reduced model parameters, achieves comparable performance to larger models through one-step sampling.

arxiv情報

著者 Kaidi Wang,Wenhao Guan,Shenghui Lu,Jianglong Yao,Lin Li,Qingyang Hong
発行日 2025-04-10 14:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | SlimSpeech: Lightweight and Efficient Text-to-Speech with Slim Rectified Flow はコメントを受け付けていません

Genetic Programming with Reinforcement Learning Trained Transformer for Real-World Dynamic Scheduling Problems

要約

現実世界の環境での動的なスケジューリングは、予期せぬ混乱に適応するのに苦労しており、従来の静的スケジューリング方法と人間が設計したヒューリスティックを不十分にします。
このペーパーでは、動的なスケジューリングシナリオの複雑さに取り組むように特別に設計された、強化学習(GPRT)を通じて訓練された変圧器を組み合わせた革新的なアプローチを紹介します。
GPRTは変圧器を活用してGPによって生成されたヒューリスティックを改良しながら、GPの進化を播種および導きます。
この二重の機能は、スケジューリングヒューリスティックの適応性と有効性を高め、実際のタスクの動的な性質によりよく応答できるようにします。
この統合アプローチの有効性は、GPRTメソッドが従来のGP、スタンドアロントランスメソッド、およびその他の最先端の競合他社よりも優れているコンテナターミナルトラックスケジューリングの実用的なアプリケーションを通じて実証されています。
この研究の重要な貢献は、GPRTメソッドの開発です。これは、GPと強化学習(RL)の新しい組み合わせを示し、堅牢で効率的なスケジューリングソリューションを生成します。
重要なことに、GPRTはコンテナポートトラックのスケジューリングに限定されません。
さまざまな動的スケジューリングの課題に適用される多用途のフレームワークを提供します。
その実用性は、その解釈可能性と修正の容易さと相まって、多様な現実世界のシナリオにとって貴重なツールになります。

要約(オリジナル)

Dynamic scheduling in real-world environments often struggles to adapt to unforeseen disruptions, making traditional static scheduling methods and human-designed heuristics inadequate. This paper introduces an innovative approach that combines Genetic Programming (GP) with a Transformer trained through Reinforcement Learning (GPRT), specifically designed to tackle the complexities of dynamic scheduling scenarios. GPRT leverages the Transformer to refine heuristics generated by GP while also seeding and guiding the evolution of GP. This dual functionality enhances the adaptability and effectiveness of the scheduling heuristics, enabling them to better respond to the dynamic nature of real-world tasks. The efficacy of this integrated approach is demonstrated through a practical application in container terminal truck scheduling, where the GPRT method outperforms traditional GP, standalone Transformer methods, and other state-of-the-art competitors. The key contribution of this research is the development of the GPRT method, which showcases a novel combination of GP and Reinforcement Learning (RL) to produce robust and efficient scheduling solutions. Importantly, GPRT is not limited to container port truck scheduling; it offers a versatile framework applicable to various dynamic scheduling challenges. Its practicality, coupled with its interpretability and ease of modification, makes it a valuable tool for diverse real-world scenarios.

arxiv情報

著者 Xian Chen,Rong Qu,Jing Dong,Ruibin Bai,Yaochu Jin
発行日 2025-04-10 14:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Genetic Programming with Reinforcement Learning Trained Transformer for Real-World Dynamic Scheduling Problems はコメントを受け付けていません

When Counterfactual Reasoning Fails: Chaos and Real-World Complexity

要約

人間の認知と意思決定の基礎である反事実上の推論は、多くの場合、機械学習モデルの解釈からアルゴリズムの公平性の促進に至るまでのアプリケーションで、因果学習の「聖杯」と見なされます。
反事実的推論は、基礎となる因果モデルが明確に定義されているコンテキストで広く研究されていますが、現実世界の因果モデリングは、モデルとパラメーターの不確実性、観測ノイズ、およびカオス挙動によってしばしば妨げられます。
このような設定における反事実分析の信頼性は、ほとんど未踏のままです。
この作業では、構造因果モデルの枠組み内で反事実的推論の制限を調査します。
具体的には、\ emphing {counteractualシーケンス推定}を経験的に調査し、ますます信頼できなくなるケースを強調します。
モデルの不確実性の程度や混oticとしたダイナミクスの程度などの現実的な仮定は、予測された軌跡と真の反事実的軌跡の間の劇的な逸脱を含む直感に反する結果をもたらす可能性があることがわかります。
この作業は、カオスと不確実性を特徴とする設定に反事実的な推論を適用する際に注意を促します。
さらに、特定のシステムが、行動に関する反事実的な質問に答える能力に基本的な制限をもたらす可能性があるかどうかという問題を提起します。

要約(オリジナル)

Counterfactual reasoning, a cornerstone of human cognition and decision-making, is often seen as the ‘holy grail’ of causal learning, with applications ranging from interpreting machine learning models to promoting algorithmic fairness. While counterfactual reasoning has been extensively studied in contexts where the underlying causal model is well-defined, real-world causal modeling is often hindered by model and parameter uncertainty, observational noise, and chaotic behavior. The reliability of counterfactual analysis in such settings remains largely unexplored. In this work, we investigate the limitations of counterfactual reasoning within the framework of Structural Causal Models. Specifically, we empirically investigate \emph{counterfactual sequence estimation} and highlight cases where it becomes increasingly unreliable. We find that realistic assumptions, such as low degrees of model uncertainty or chaotic dynamics, can result in counterintuitive outcomes, including dramatic deviations between predicted and true counterfactual trajectories. This work urges caution when applying counterfactual reasoning in settings characterized by chaos and uncertainty. Furthermore, it raises the question of whether certain systems may pose fundamental limitations on the ability to answer counterfactual questions about their behavior.

arxiv情報

著者 Yahya Aalaila,Gerrit Großmann,Sumantrak Mukherjee,Jonas Wahl,Sebastian Vollmer
発行日 2025-04-10 14:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | When Counterfactual Reasoning Fails: Chaos and Real-World Complexity はコメントを受け付けていません

FairEval: Evaluating Fairness in LLM-Based Recommendations with Personality Awareness

要約

大規模な言語モデル(LLMS)の最近の進歩により、アプリケーションは推奨システム(RecllMS)に可能になりましたが、人口統計学的および心理的ユーザーの側面全体の公平性に関する懸念は残っています。
LLMベースの推奨事項の公平性を体系的に評価するための新しい評価フレームワークであるFairvalを紹介します。
Fairvalは、性格特性を、性別、人種、年齢などの8つの敏感な人口統計属性と統合し、ユーザーレベルのバイアスの包括的な評価を可能にします。
音楽や映画の推奨事項で、ChatGPT 4oやGemini 1.5 Flashを含むモデルを評価します。
Fairvalの公平性メトリックであるPAFSは、ChATGPT 4oで最大0.9969、Gemini 1.5 Flashで0.9997を達成し、格差は34.79%に達します。
これらの結果は、迅速な感度における堅牢性の重要性を強調し、より包括的な推奨システムをサポートします。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have enabled their application to recommender systems (RecLLMs), yet concerns remain regarding fairness across demographic and psychological user dimensions. We introduce FairEval, a novel evaluation framework to systematically assess fairness in LLM-based recommendations. FairEval integrates personality traits with eight sensitive demographic attributes,including gender, race, and age, enabling a comprehensive assessment of user-level bias. We evaluate models, including ChatGPT 4o and Gemini 1.5 Flash, on music and movie recommendations. FairEval’s fairness metric, PAFS, achieves scores up to 0.9969 for ChatGPT 4o and 0.9997 for Gemini 1.5 Flash, with disparities reaching 34.79 percent. These results highlight the importance of robustness in prompt sensitivity and support more inclusive recommendation systems.

arxiv情報

著者 Chandan Kumar Sah,Xiaoli Lian,Tony Xu,Li Zhang
発行日 2025-04-10 14:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.IR | FairEval: Evaluating Fairness in LLM-Based Recommendations with Personality Awareness はコメントを受け付けていません

A System for Comprehensive Assessment of RAG Frameworks

要約

検索メカニズムを統合することにより、大規模な言語モデル(LLMS)の事実上の精度と文脈的関連性を高めるための標準的なパラダイムとして、検索拡張生成(RAG)が浮上しています。
ただし、既存の評価フレームワークは、特に実際の展開シナリオで、RAGシステムを評価するための全体的なブラックボックスアプローチを提供できません。
このギャップに対処するために、展開されたRAGアプリケーションを体系的にベンチマークするように設計されたモジュール式で柔軟な評価フレームワークであるScarf(RAGフレームワークの包括的な評価のシステム)を紹介します。
Scarfは、エンドツーエンドのブラックボックス評価方法を提供し、多様なぼろきれフレームワーク間で限定的なエフォルト比較を可能にします。
当社のフレームワークは、複数の展開構成をサポートし、ベクトルデータベースとLLMサービング戦略を介した自動テストを容易にし、詳細なパフォーマンスレポートを作成します。
さらに、Scarfは、Response Coherenceなどの実用的な考慮事項を統合し、RAGアプリケーションを評価する研究者や業界の専門家にスケーラブルで適応性のあるソリューションを提供します。
REST APIインターフェイスを使用して、スカーフを実際のシナリオに適用する方法を示し、さまざまなRAGフレームワークと構成を評価する柔軟性を示します。
ScarfはGitHubリポジトリで入手できます。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has emerged as a standard paradigm for enhancing the factual accuracy and contextual relevance of Large Language Models (LLMs) by integrating retrieval mechanisms. However, existing evaluation frameworks fail to provide a holistic black-box approach to assessing RAG systems, especially in real-world deployment scenarios. To address this gap, we introduce SCARF (System for Comprehensive Assessment of RAG Frameworks), a modular and flexible evaluation framework designed to benchmark deployed RAG applications systematically. SCARF provides an end-to-end, black-box evaluation methodology, enabling a limited-effort comparison across diverse RAG frameworks. Our framework supports multiple deployment configurations and facilitates automated testing across vector databases and LLM serving strategies, producing a detailed performance report. Moreover, SCARF integrates practical considerations such as response coherence, providing a scalable and adaptable solution for researchers and industry professionals evaluating RAG applications. Using the REST APIs interface, we demonstrate how SCARF can be applied to real-world scenarios, showcasing its flexibility in assessing different RAG frameworks and configurations. SCARF is available at GitHub repository.

arxiv情報

著者 Mattia Rengo,Senad Beadini,Domenico Alfano,Roberto Abbruzzese
発行日 2025-04-10 14:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | A System for Comprehensive Assessment of RAG Frameworks はコメントを受け付けていません