Survey on the Evaluation of Generative Models in Music

要約

音楽における生成システムに関する研究は、近年かなりの注目と成長を遂げています。
そのようなシステムを体系的に評価するためのさまざまな試みがなされています。
主観的および客観的なアプローチ、定性的および定量的アプローチ、および経験的および計算方法をカバーする、システム出力とモデルの使いやすさの両方を評価するための共通の評価目標、方法論、およびメトリックの学際的なレビューを提供します。
音楽学、エンジニアリング、およびHCIの観点から、このようなアプローチの利点と課題について説明します。

要約(オリジナル)

Research on generative systems in music has seen considerable attention and growth in recent years. A variety of attempts have been made to systematically evaluate such systems. We provide an interdisciplinary review of the common evaluation targets, methodologies, and metrics for the evaluation of both system output and model usability, covering subjective and objective approaches, qualitative and quantitative approaches, as well as empirical and computational methods. We discuss the advantages and challenges of such approaches from a musicological, an engineering, and an HCI perspective.

arxiv情報

著者 Alexander Lerch,Claire Arthur,Nick Bryan-Kinns,Corey Ford,Qianyi Sun,Ashvala Vinay
発行日 2025-06-05 14:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD | Survey on the Evaluation of Generative Models in Music はコメントを受け付けていません

Truly Self-Improving Agents Require Intrinsic Metacognitive Learning

要約

自己改善エージェントは、監督を最小限に抑えて新しい機能を継続的に取得することを目指しています。
ただし、現在のアプローチは2つの重要な制限に直面しています。自己改善プロセスはしばしば厳格であり、タスクドメイン全体で一般化することができず、エージェント機能の増加に応じて拡大するのに苦労しています。
効果的な自己改善には、独自の学習プロセスを積極的に評価し、反映し、適応させるエージェントの固有の能力として定義される固有のメタ認知学習が必要であると主張します。
人間のメタ認知からインスピレーションを得て、3つのコンポーネントを含む正式なフレームワークを紹介します:メタ認知知識(能力、タスク、学習戦略の自己評価)、メタ認知計画(学習方法と学習方法の決定)、およびメタ認知評価(将来の学習を改善するための学習経験を反映)。
既存の自己改善剤を分析すると、それらは、スケーラビリティと適応性を制限する固定されたヒトが設計したループである外因性メタ認知メカニズムに主に依存していることがわかります。
各コンポーネントを調べると、本質的なメタ認知のための多くの成分がすでに存在していると主張します。
最後に、人間とエージェントの間でメタ認知的責任を最適に配布し、内因性のメタ認知学習を強く評価し、改善する方法を探ります。これは、真に持続、一般化、および整合した自己改善を可能にするために対処する必要がある重要な課題です。

要約(オリジナル)

Self-improving agents aim to continuously acquire new capabilities with minimal supervision. However, current approaches face two key limitations: their self-improvement processes are often rigid, fail to generalize across tasks domains, and struggle to scale with increasing agent capabilities. We argue that effective self-improvement requires intrinsic metacognitive learning, defined as an agent’s intrinsic ability to actively evaluate, reflect on, and adapt its own learning processes. Drawing inspiration from human metacognition, we introduce a formal framework comprising three components: metacognitive knowledge (self-assessment of capabilities, tasks, and learning strategies), metacognitive planning (deciding what and how to learn), and metacognitive evaluation (reflecting on learning experiences to improve future learning). Analyzing existing self-improving agents, we find they rely predominantly on extrinsic metacognitive mechanisms, which are fixed, human-designed loops that limit scalability and adaptability. Examining each component, we contend that many ingredients for intrinsic metacognition are already present. Finally, we explore how to optimally distribute metacognitive responsibilities between humans and agents, and robustly evaluate and improve intrinsic metacognitive learning, key challenges that must be addressed to enable truly sustained, generalized, and aligned self-improvement.

arxiv情報

著者 Tennison Liu,Mihaela van der Schaar
発行日 2025-06-05 14:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Truly Self-Improving Agents Require Intrinsic Metacognitive Learning はコメントを受け付けていません

LLM Social Simulations Are a Promising Research Method

要約

人間の研究対象の正確で検証可能な大手言語モデル(LLM)シミュレーションは、人間の行動を理解し、新しいAIシステムをトレーニングするためのアクセス可能なデータソースを約束します。
しかし、これまでの結果は限られており、この方法を採用した社会科学者はほとんどいません。
このポジションペーパーでは、LLMの社会シミュレーションの約束は、5つの扱いやすい課題に対処することで達成できると主張します。
LLMSと人間の研究対象の間の経験的比較のレビュー、トピックに関する解説、および関連する作業において、私たちの議論を根拠としています。
コンテキストが豊富なプロンプトと、社会科学データセットでの微調整など、有望な方向を特定します。
LLMソーシャルシミュレーションはすでにパイロットおよび探索的研究に使用できると考えており、LLM機能を急速に進めるには、より広範な使用がすぐに可能になる可能性があると考えています。
研究者は、新しいAIシステムを最大限に活用するために、概念モデルの開発と反復評価を優先する必要があります。

要約(オリジナル)

Accurate and verifiable large language model (LLM) simulations of human research subjects promise an accessible data source for understanding human behavior and training new AI systems. However, results to date have been limited, and few social scientists have adopted this method. In this position paper, we argue that the promise of LLM social simulations can be achieved by addressing five tractable challenges. We ground our argument in a review of empirical comparisons between LLMs and human research subjects, commentaries on the topic, and related work. We identify promising directions, including context-rich prompting and fine-tuning with social science datasets. We believe that LLM social simulations can already be used for pilot and exploratory studies, and more widespread use may soon be possible with rapidly advancing LLM capabilities. Researchers should prioritize developing conceptual models and iterative evaluations to make the best use of new AI systems.

arxiv情報

著者 Jacy Reese Anthis,Ryan Liu,Sean M. Richardson,Austin C. Kozlowski,Bernard Koch,James Evans,Erik Brynjolfsson,Michael Bernstein
発行日 2025-06-05 15:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC | LLM Social Simulations Are a Promising Research Method はコメントを受け付けていません

DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning

要約

ゼロショットイベント検出(ED)、トレーニングデータなしで自然言語テキストでイベントの言及を特定するタスクは、専門ドメインでのドキュメントの理解に重要です。
複雑なイベントオントロジーを理解し、パッセージからドメイン固有のトリガーを抽出し、それらを適切に過負荷にして構造化し、ゼロショットedの大規模な言語モデル(LLM)の有用性を制限します。
この目的のために、DreamerとGranderを使用してEDのタスクを切り離す多様な推論的推論フレームワークであるDicoreを提案します。
Dreamerは、オープンエンドのイベントの発見を通じて、イベントのカバレッジを後押しするのに役立つ異なる推論を奨励しています。
逆に、Granderは収束的な推論を導入して、フリーフォームの予測を有限状態のマシンガイド制約デコードを使用してタスク固有の命令に合わせます。
さらに、LLM-Judgeは最終出力を検証して高精度を確保します。
5つのドメインと9つのLLMにわたる6つのデータセットでの広範な実験を通じて、Dicoreが以前のゼロショット、転送学習、および推論ベースラインを一貫して上回り、最高のベースラインで4〜7%の平均F1を達成し、Dicoreを強力なゼロショットエドフレームワークとして確立する方法を示します。

要約(オリジナル)

Zero-shot Event Detection (ED), the task of identifying event mentions in natural language text without any training data, is critical for document understanding in specialized domains. Understanding the complex event ontology, extracting domain-specific triggers from the passage, and structuring them appropriately overloads and limits the utility of Large Language Models (LLMs) for zero-shot ED. To this end, we propose DiCoRe, a divergent-convergent reasoning framework that decouples the task of ED using Dreamer and Grounder. Dreamer encourages divergent reasoning through open-ended event discovery, which helps to boost event coverage. Conversely, Grounder introduces convergent reasoning to align the free-form predictions with the task-specific instructions using finite-state machine guided constrained decoding. Additionally, an LLM-Judge verifies the final outputs to ensure high precision. Through extensive experiments on six datasets across five domains and nine LLMs, we demonstrate how DiCoRe consistently outperforms prior zero-shot, transfer-learning, and reasoning baselines, achieving 4-7% average F1 gains over the best baseline — establishing DiCoRe as a strong zero-shot ED framework.

arxiv情報

著者 Tanmay Parekh,Kartik Mehta,Ninareh Mehrabi,Kai-Wei Chang,Nanyun Peng
発行日 2025-06-05 15:16:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DiCoRe: Enhancing Zero-shot Event Detection via Divergent-Convergent LLM Reasoning はコメントを受け付けていません

AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models

要約

大規模なオーディオ言語モデル(LALMS)の内部メカニズムを理解することは、その動作を解釈し、パフォーマンスを改善するために重要です。
この作業は、LALMSが聴覚属性を内部的に認識し、認識する方法の最初の詳細な分析を示しています。
3つの最先端のラームに語彙投影を適用することにより、属性情報がレイヤーとトークンの位置を越えてどのように進化するかを追跡します。
属性情報は一般に、認識が失敗すると層の深さとともに減少し、以前の層での解決属性はより良い精度と相関することがわかります。
さらに、LALMSは、属性状態の属性状態に必要な情報を集約するのではなく、属性を予測するために聴覚入力のクエリを照会することに大きく依存しています。
調査結果に基づいて、ラームを強化する方法を実証します。
私たちの結果は、聴覚属性処理に関する洞察を提供し、将来の改善への道を開いています。

要約(オリジナル)

Understanding the internal mechanisms of large audio-language models (LALMs) is crucial for interpreting their behavior and improving performance. This work presents the first in-depth analysis of how LALMs internally perceive and recognize auditory attributes. By applying vocabulary projection on three state-of-the-art LALMs, we track how attribute information evolves across layers and token positions. We find that attribute information generally decreases with layer depth when recognition fails, and that resolving attributes at earlier layers correlates with better accuracy. Moreover, LALMs heavily rely on querying auditory inputs for predicting attributes instead of aggregating necessary information in hidden states at attribute-mentioning positions. Based on our findings, we demonstrate a method to enhance LALMs. Our results offer insights into auditory attribute processing, paving the way for future improvements.

arxiv情報

著者 Chih-Kai Yang,Neo Ho,Yi-Jyun Lee,Hung-yi Lee
発行日 2025-06-05 15:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | AudioLens: A Closer Look at Auditory Attribute Perception of Large Audio-Language Models はコメントを受け付けていません

AnyTop: Character Animation Diffusion with Any Topology

要約

任意のスケルトンの動きを生成することは、コンピューターグラフィックスの長年の課題であり、多様なデータセットの不足とデータの不規則な性質のためにほとんど未発表のままです。
この作業では、骨格構造のみを入力として使用して、異なるモーションダイナミクスを持つ多様な文字の動きを生成する拡散モデルであるAnyTopを紹介します。
私たちの作品は、任意のスケルトン学習に合わせた変圧器ベースの除去ネットワークを特徴としており、トポロジー情報を従来の注意メカニズムに統合しています。
さらに、テキストの共同説明を潜在的な特徴表現に組み込むことにより、AnyTopは、多様なスケルトン全体のジョイント間のセマンティック対応を学習します。
私たちの評価は、トポロジごとにわずか3つのトレーニング例であっても、Anytopがよく一般化され、目に見えないスケルトンの動きも生成できることを示しています。
さらに、モデルの潜在スペースは非常に有益であり、共同通信、時間的セグメンテーション、モーション編集などの下流タスクを可能にします。
当社のWebページhttps://anytop2025.github.io/anytop-pageには、ビデオとコードへのリンクが含まれています。

要約(オリジナル)

Generating motion for arbitrary skeletons is a longstanding challenge in computer graphics, remaining largely unexplored due to the scarcity of diverse datasets and the irregular nature of the data. In this work, we introduce AnyTop, a diffusion model that generates motions for diverse characters with distinct motion dynamics, using only their skeletal structure as input. Our work features a transformer-based denoising network, tailored for arbitrary skeleton learning, integrating topology information into the traditional attention mechanism. Additionally, by incorporating textual joint descriptions into the latent feature representation, AnyTop learns semantic correspondences between joints across diverse skeletons. Our evaluation demonstrates that AnyTop generalizes well, even with as few as three training examples per topology, and can produce motions for unseen skeletons as well. Furthermore, our model’s latent space is highly informative, enabling downstream tasks such as joint correspondence, temporal segmentation and motion editing. Our webpage, https://anytop2025.github.io/Anytop-page, includes links to videos and code.

arxiv情報

著者 Inbar Gat,Sigal Raab,Guy Tevet,Yuval Reshef,Amit H. Bermano,Daniel Cohen-Or
発行日 2025-06-05 15:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR | AnyTop: Character Animation Diffusion with Any Topology はコメントを受け付けていません

Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models

要約

テキストから画像の生成におけるオブジェクト数を正確に制御することは、依然として重要な課題です。
トレーニングデータがすべてのカウントバリエーションをカバーすることはめったにないため、監視された方法はしばしば失敗します。
除去プロセスを操作してオブジェクトを追加または削除する方法が役立ちます。
ただし、ラベル付きデータが必要であり、堅牢性と画質を制限し、遅い繰り返しプロセスに依存しています。
ソフトオブジェクト密度の合計に依存している事前に訓練された微分可能なカウントモデルが存在し、生成を操作することができますが、3つの主な課題があります。(i)クリーンな画像で事前に訓練されているため、騒々しい入力で動作する範囲の範囲では効果が低下します。
(ii)視点の変更に対して堅牢ではありません。
(iii)最適化は計算高価であり、画像ごとに繰り返されるモデル評価が必要です。
事前に訓練されたオブジェクトカウントテクニックとオブジェクト検出器を使用して、生成をガイドする新しいフレームワークを提案します。
まず、完全に生成された画像で計算された外側ループ損失を使用して、カウントトークンを最適化します。
第二に、検出モデルを介したバックプロパゲーションを必要とせずに、他の要因の中でも、視点と比例シフトによって引き起こされるエラーを修正する検出駆動型のスケーリング用語を導入します。
第三に、最適化されたパラメーターを新しいプロンプトのために再利用できることを示し、繰り返し最適化の必要性を削除します。
私たちの方法は、トークンの再利用、さまざまな検出器との互換性による柔軟性、および多様なオブジェクトカテゴリ全体のカウントが改善された精度を介した効率を提供します。

要約(オリジナル)

Accurately controlling object count in text-to-image generation remains a key challenge. Supervised methods often fail, as training data rarely covers all count variations. Methods that manipulate the denoising process to add or remove objects can help; however, they still require labeled data, limit robustness and image quality, and rely on a slow, iterative process. Pre-trained differentiable counting models that rely on soft object density summation exist and could steer generation, but employing them presents three main challenges: (i) they are pre-trained on clean images, making them less effective during denoising steps that operate on noisy inputs; (ii) they are not robust to viewpoint changes; and (iii) optimization is computationally expensive, requiring repeated model evaluations per image. We propose a new framework that uses pre-trained object counting techniques and object detectors to guide generation. First, we optimize a counting token using an outer-loop loss computed on fully generated images. Second, we introduce a detection-driven scaling term that corrects errors caused by viewpoint and proportion shifts, among other factors, without requiring backpropagation through the detection model. Third, we show that the optimized parameters can be reused for new prompts, removing the need for repeated optimization. Our method provides efficiency through token reuse, flexibility via compatibility with various detectors, and accuracy with improved counting across diverse object categories.

arxiv情報

著者 Oz Zafar,Yuval Cohen,Lior Wolf,Idan Schwartz
発行日 2025-06-05 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models はコメントを受け付けていません

Goal-Oriented Time-Series Forecasting: Foundation Framework Design

要約

従来の時系列予測は、多くの場合、予測エラーの最小化にのみ焦点を当てており、それらを採用する実際のアプリケーションの特定の要件を無視します。
このペーパーでは、新しいトレーニング方法論を紹介します。これにより、予測モデルは、最終アプリケーションで指定された予測範囲の重要性に基づいて、焦点を動的に調整できます。
これらの範囲を事前に修正する以前の方法とは異なり、トレーニングアプローチは、信号範囲全体にわたる予測をより小さなセグメントに分解し、その後、動的に重み付けされて組み合わせて、関心のある領域内で正確な予測を生成します。
新しいワイヤレス通信データセットを含む標準のデータセットでメソッドをテストしましたが、予測の精度を向上させるだけでなく、予測モデルを使用したエンドアプリケーションのパフォーマンスも向上することがわかりました。
この研究は、さまざまな実用的なアプリケーションで予測と意思決定をよりよく接続する予測システムを作成するための基礎を提供します。

要約(オリジナル)

Traditional time-series forecasting often focuses only on minimizing prediction errors, ignoring the specific requirements of real-world applications that employ them. This paper presents a new training methodology, which allows a forecasting model to dynamically adjust its focus based on the importance of forecast ranges specified by the end application. Unlike previous methods that fix these ranges beforehand, our training approach breaks down predictions over the entire signal range into smaller segments, which are then dynamically weighted and combined to produce accurate forecasts within a region of interest. We tested our method on standard datasets, including a new wireless communication dataset, and found that not only it improves prediction accuracy but also enhances the performance of end application employing the forecasting model. This research provides a basis for creating forecasting systems that better connect prediction and decision-making in various practical applications.

arxiv情報

著者 Luca-Andrei Fechete,Mohamed Sana,Fadhel Ayed,Nicola Piovesan,Wenjie Li,Antonio De Domenico,Tareq Si Salem
発行日 2025-06-05 15:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Goal-Oriented Time-Series Forecasting: Foundation Framework Design はコメントを受け付けていません

Knowledgeable-r1: Policy Optimization for Knowledge Exploration in Retrieval-Augmented Generation

要約

検索された生成(RAG)は、知識集約型タスクのパフォーマンスを改善するための主流の方法です。
ただし、現在のRAGシステムは、取得されたコンテキストに重点を置きすぎることがよくあります。
これは、特に誤解を招くまたは過度の情報に対処する場合、不正確な情報源への依存につながり、モデルの固有の知識を見落とす可能性があります。
この不均衡を解決するために、共同サンプリングを使用して知識能力探索におけるマルチポリシー分布を定義して、パラメトリックおよびコンテキストナレッジの大規模な言語モデルの自己統合された利用を刺激することを提案します。
実験は、知識豊富なR1がパラメーターとコンテキスト競合タスクと一般的なラグタスクの両方で堅牢性と推論の精度を大幅に向上させることを示しています。
私たちのコードは、https://github.com/lcy80366872/ nowledgable-r1で入手できます。

要約(オリジナル)

Retrieval-augmented generation (RAG) is a mainstream method for improving performance on knowledge-intensive tasks. However,current RAG systems often place too much emphasis on retrieved contexts. This can lead to reliance on inaccurate sources and overlook the model’s inherent knowledge, especially when dealing with misleading or excessive information. To resolve this imbalance, we propose Knowledgeable-r1 that using joint sampling and define multi policy distributions in knowledge capability exploration to stimulate large language models’self-integrated utilization of parametric and contextual knowledge. Experiments show that Knowledgeable-r1 significantly enhances robustness and reasoning accuracy in both parameters and contextual conflict tasks and general RAG tasks, especially outperforming baselines by 17.07% in counterfactual scenarios and demonstrating consistent gains across RAG tasks. Our code are available at https://github.com/lcy80366872/ knowledgeable-r1.

arxiv情報

著者 Chenyu Lin,Yilin Wen,Du Su,Fei Sun,Muhan Chen,Chenfu Bao,Zhonghou Lv
発行日 2025-06-05 15:34:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Knowledgeable-r1: Policy Optimization for Knowledge Exploration in Retrieval-Augmented Generation はコメントを受け付けていません

Explainability in Practice: A Survey of Explainable NLP Across Various Domains

要約

自然言語処理(NLP)は、ヘルスケア、財務、顧客関係管理など、多くの重要な分野で基礎となっています。
これは、意思決定プロセスで広く使用されているGPTベースのアーキテクチャやBERTなどの高度なモデルの開発と使用に特に当てはまります。
ただし、これらの高度なNLPモデルのブラックボックスの性質は、透明性と説明可能性に対する緊急の必要性を生み出しました。
このレビューでは、実用的な展開と現実世界のアプリケーションに焦点を当てた説明可能なNLP(XNLP)を調査し、その実装とドメイン固有のコンテキストで直面する課題を調べます。
この論文は、NLPにおける説明可能性の重要性を強調し、ヘルスケアの明確な洞察の必要性から詐欺の検出とリスク評価に対する強調まで、XNLPをさまざまなセクターのユニークな要求をどのように満たすかについて包括的な視点を提供します。
さらに、このレビューは、ドメイン固有の探索を提供し、モデル評価における現実世界の適用性、メトリック評価、人間の相互作用の役割などの過小評価された領域を議論することにより、XNLP文献の知識ギャップを埋めることを目的としています。
この論文は、XNLPの理解とより広い応用を強化できる将来の研究の方向性を提案することで締めくくります。

要約(オリジナル)

Natural Language Processing (NLP) has become a cornerstone in many critical sectors, including healthcare, finance, and customer relationship management. This is especially true with the development and use of advanced models such as GPT-based architectures and BERT, which are widely used in decision-making processes. However, the black-box nature of these advanced NLP models has created an urgent need for transparency and explainability. This review explores explainable NLP (XNLP) with a focus on its practical deployment and real-world applications, examining its implementation and the challenges faced in domain-specific contexts. The paper underscores the importance of explainability in NLP and provides a comprehensive perspective on how XNLP can be designed to meet the unique demands of various sectors, from healthcare’s need for clear insights to finance’s emphasis on fraud detection and risk assessment. Additionally, this review aims to bridge the knowledge gap in XNLP literature by offering a domain-specific exploration and discussing underrepresented areas such as real-world applicability, metric evaluation, and the role of human interaction in model assessment. The paper concludes by suggesting future research directions that could enhance the understanding and broader application of XNLP.

arxiv情報

著者 Hadi Mohammadi,Ayoub Bagheri,Anastasia Giachanou,Daniel L. Oberski
発行日 2025-06-05 15:41:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Explainability in Practice: A Survey of Explainable NLP Across Various Domains はコメントを受け付けていません