Survey of Abstract Meaning Representation: Then, Now, Future

要約

このホワイトペーパーでは、グラフベースの構造を介して文の意味をキャプチャする意味表現フレームワークである抽象的な意味表現(AMR)の調査を紹介します。
AMRは、ノードが概念に対応し、エッジが関係を示し、複雑な文の意味を効果的にエンコードする根本化された、指示された非環式グラフとして文を表します。
この調査では、AMRとその拡張機能を調査し、AMR機能に焦点を当てています。
次に、従来、現在、および可能な先物アプローチを示すことにより、解析(テキストからAMR)および生成(AMRからテキスト)タスクを調査します。
また、テキスト生成、テキスト分類、情報抽出、情報探索を含むAMRのさまざまなアプリケーションもレビューします。
この調査では、最近の開発と課題を分析することにより、この調査では、研究のための将来の方向性と、人間の言語の機械の理解を高めるためのAMRの潜在的な影響に関する洞察を提供します。

要約(オリジナル)

This paper presents a survey of Abstract Meaning Representation (AMR), a semantic representation framework that captures the meaning of sentences through a graph-based structure. AMR represents sentences as rooted, directed acyclic graphs, where nodes correspond to concepts and edges denote relationships, effectively encoding the meaning of complex sentences. This survey investigates AMR and its extensions, focusing on AMR capabilities. It then explores the parsing (text-to-AMR) and generation (AMR-to-text) tasks by showing traditional, current, and possible futures approaches. It also reviews various applications of AMR including text generation, text classification, and information extraction and information seeking. By analyzing recent developments and challenges in the field, this survey provides insights into future directions for research and the potential impact of AMR on enhancing machine understanding of human language.

arxiv情報

著者 Behrooz Mansouri
発行日 2025-05-06 06:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Survey of Abstract Meaning Representation: Then, Now, Future はコメントを受け付けていません

Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization

要約

ロータリー位置の埋め込み(ロープ)を改善することにより、言語モデル(LMS)のコンテキスト長を拡張することがトレンドになりました。
既存の作業は主に注意メカニズム内でのロープの制限に対処していますが、このペーパーでは、LMSのほぼすべての部分で分析を提供し、ロープベースの注意のための長さの一般化に対する悪影響を明らかにします。
離散信号処理理論を使用して、不均一な離散フーリエ変換を暗黙的に達成することにより、ロープが周期的な注意を可能にすることを示します。
ただし、この周期性は、次のことによって引き起こされるスペクトル損傷によって損なわれます。1)線形層と注意の外側の活性化機能。
2)時間領域の切り捨てによってもたらされる訓練された周波数成分が不十分です。
観察に基づいて、フーリエの位置埋め込み(FOPE)を提案します。これにより、周期的な拡張と長さの一般化の両方を改善するために、注意の周波数ドメイン特性が強化されます。
FOPEはフーリエシリーズを構築し、破壊的な周波数成分をゼロアウトし、スペクトル損傷に対するモデルの堅牢性を高めます。
さまざまなモデルスケールとベンチマークの実験では、さまざまなコンテキストウィンドウ内で、FopeはロープやAlibiに比べてより安定した性能を維持していることが示されています。
いくつかの分析とアブレーションは、私たちの方法と理論モデリングをさらにサポートします。

要約(オリジナル)

Extending the context length of Language Models (LMs) by improving Rotary Position Embedding (RoPE) has become a trend. While existing works mainly address RoPE’s limitations within attention mechanism, this paper provides an analysis across nearly all parts of LMs, uncovering their adverse effects on length generalization for RoPE-based attention. Using Discrete Signal Processing theory, we show that RoPE enables periodic attention by implicitly achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is undermined by the spectral damage caused by: 1) linear layers and activation functions outside of attention; 2) insufficiently trained frequency components brought by time-domain truncation. Building on our observations, we propose Fourier Position Embedding (FoPE), which enhances attention’s frequency-domain properties to improve both its periodic extension and length generalization. FoPE constructs Fourier Series and zero-outs the destructive frequency components, increasing model robustness against the spectrum damage. Experiments across various model scales and benchmarks show that, within varying context windows, FoPE maintains a more stable performance compared to RoPE and ALiBi. Several analyses and ablations bring further support to our method and theoretical modeling.

arxiv情報

著者 Ermo Hua,Che Jiang,Xingtai Lv,Kaiyan Zhang,Ning Ding,Youbang Sun,Biqing Qi,Yuchen Fan,Xuekai Zhu,Bowen Zhou
発行日 2025-05-06 07:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization はコメントを受け付けていません

SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation

要約

現代の音声分離技術は、長い混合オーディオ波形を巧みに処理しますが、騒々しい環境の複雑さによって頻繁に挑戦されます。
これらの制限を克服するために、予備分離後にテキストドメイン内で音声を修正し、再合意するためにオーディオ言語モデル(ALMS)を使用する先駆的なアプローチであるSePalmを紹介します。
Sepalmは、セパレーター、補正装置、シンセサイザー、アライナーの4つのコアコンポーネントで構成されています。
ALMベースのエンドツーエンドエラー補正メカニズムを統合することにより、エラーの蓄積のリスクを軽減し、大規模な言語モデル(LLM)で自動音声認識(ASR)を融合する従来の方法で通常発生する最適化ハードルを回避します。
さらに、ALMの推論とトレーニングプロセスを容易にするために、チェーンオブテアのプロンプトと知識蒸留技術を開発しました。
私たちの実験は、同種が音声分離の精度を高めるだけでなく、新しい音響環境で適応性を著しく強化することを実証しています。

要約(オリジナル)

While contemporary speech separation technologies adeptly process lengthy mixed audio waveforms, they are frequently challenged by the intricacies of real-world environments, including noisy and reverberant settings, which can result in artifacts or distortions in the separated speech. To overcome these limitations, we introduce SepALM, a pioneering approach that employs audio language models (ALMs) to rectify and re-synthesize speech within the text domain following preliminary separation. SepALM comprises four core components: a separator, a corrector, a synthesizer, and an aligner. By integrating an ALM-based end-to-end error correction mechanism, we mitigate the risk of error accumulation and circumvent the optimization hurdles typically encountered in conventional methods that amalgamate automatic speech recognition (ASR) with large language models (LLMs). Additionally, we have developed Chain-of-Thought (CoT) prompting and knowledge distillation techniques to facilitate the reasoning and training processes of the ALM. Our experiments substantiate that SepALM not only elevates the precision of speech separation but also markedly bolsters adaptability in novel acoustic environments.

arxiv情報

著者 Zhaoxi Mu,Xinyu Yang,Gang Wang
発行日 2025-05-06 08:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation はコメントを受け付けていません

Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback

要約

大規模な言語モデル(LLM)は、スケーラブルなメンタルヘルスサポートを提供することに有望を示していますが、カウンセリング能力を評価することは、有効性と安全性の両方を確保するために依然として重要です。
既存の評価は、知識テストに焦点を当てた静的評価、ユーザーエクスペリエンスを中心とする単一の視点、および実用的なフィードバックを欠くオープンループフレームワークによって制限されます。
これらの問題に対処するために、LLMベースのカウンセラーの包括的な評価と最適化のためのインタラクティブなフレームワークである{\ psi} -Arenaを提案します。3つの重要な特徴を特徴としています。
(3)診断フィードバックを使用してLLMカウンセラーを繰り返し改善する閉ループ最適化。
8つの最先端のLLMにわたる実験では、実際のシナリオと評価の観点から、さまざまな現実世界のシナリオと評価の観点から大きなパフォーマンスの変動が示されています。
さらに、反射ベースの最適化により、カウンセリングのパフォーマンスが最大141%改善されます。
Psychoarenaが、メンタルヘルスケアで信頼できる人間に並んだLLMアプリケーションを進めるための基礎的なリソースを提供することを願っています。

要約(オリジナル)

Large language models (LLMs) have shown promise in providing scalable mental health support, while evaluating their counseling capability remains crucial to ensure both efficacy and safety. Existing evaluations are limited by the static assessment that focuses on knowledge tests, the single perspective that centers on user experience, and the open-loop framework that lacks actionable feedback. To address these issues, we propose {\Psi}-Arena, an interactive framework for comprehensive assessment and optimization of LLM-based counselors, featuring three key characteristics: (1) Realistic arena interactions that simulate real-world counseling through multi-stage dialogues with psychologically profiled NPC clients, (2) Tripartite evaluation that integrates assessments from the client, counselor, and supervisor perspectives, and (3) Closed-loop optimization that iteratively improves LLM counselors using diagnostic feedback. Experiments across eight state-of-the-art LLMs show significant performance variations in different real-world scenarios and evaluation perspectives. Moreover, reflection-based optimization results in up to a 141% improvement in counseling performance. We hope PsychoArena provides a foundational resource for advancing reliable and human-aligned LLM applications in mental healthcare.

arxiv情報

著者 Shijing Zhu,Zhuang Chen,Guanqun Bi,Binghang Li,Yaxi Deng,Dazhen Wan,Libiao Peng,Xiyao Xiao,Rongsheng Zhang,Tangjie Lv,Zhipeng Hu,FangFang Li,Minlie Huang
発行日 2025-05-06 08:22:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback はコメントを受け付けていません

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

要約

視聴覚音声認識(AVSR)の最近の進歩により、この分野では前例のない成果が得られ、不利な騒々しい環境でのこのタイプのシステムの堅牢性が向上しました。
ほとんどの場合、このタスクは、2つの独立したエンコーダーで構成されるモデルの設計を通じて対処されており、それぞれが特定のモダリティ専用です。
ただし、最近の作品は統一されたオーディオビジュアルエンコーダーを調査していますが、最適なクロスモーダルアーキテクチャを決定することは依然として継続的な課題です。
さらに、このようなアプローチは、多くの場合、膨大な量のパラメーターと高い計算コストトレーニングプロセスを含むモデルに依存しています。
この論文では、新しい視聴覚フレームワークを紹介することにより、この研究のギャップを埋めることを目指しています。
提案された方法は、私たちの知る限り、パラメーター効率の高いAVSRシステムの設計において、Branchformerなどのエンコーダーアーキテクチャによって提供される柔軟性と解釈可能性を活用する最初の試みを構成します。
より正確には、提案されたフレームワークは、最初にオーディオのみのシステムとビデオのみのシステムを推定し、次にモダリティ固有のモデルによって提供されるレイヤーレベルのブランチスコアに基づいて、テーラードオーディオ視聴統合エンコーダを設計する2つのステップで構成されています。
複数のデータ条件とシナリオをカバーする英語とスペイン語のAVSRベンチマークに関する広範な実験により、提案された方法の有効性が実証されました。
中程度のデータでトレーニングされた場合でも、私たちのモデルは、英語で約2.5 \%の競争力のある単語エラー率(WER)を達成し、スペイン語の既存のアプローチを上回り、平均WERが約9.1 \%の新しいベンチマークを確立します。
これらの結果は、テーラードAVSRシステムが最先端の認識率に達すると同時に、モデルの複雑さW.R.Tを大幅に削減する方法を反映しています。
フィールドでの一般的なアプローチ。
コードと事前に訓練されたモデルは、https://github.com/david-gimeno/tailored-avsrで入手できます。

要約(オリジナル)

Recent advances in Audio-Visual Speech Recognition (AVSR) have led to unprecedented achievements in the field, improving the robustness of this type of system in adverse, noisy environments. In most cases, this task has been addressed through the design of models composed of two independent encoders, each dedicated to a specific modality. However, while recent works have explored unified audio-visual encoders, determining the optimal cross-modal architecture remains an ongoing challenge. Furthermore, such approaches often rely on models comprising vast amounts of parameters and high computational cost training processes. In this paper, we aim to bridge this research gap by introducing a novel audio-visual framework. Our proposed method constitutes, to the best of our knowledge, the first attempt to harness the flexibility and interpretability offered by encoder architectures, such as the Branchformer, in the design of parameter-efficient AVSR systems. To be more precise, the proposed framework consists of two steps: first, estimating audio- and video-only systems, and then designing a tailored audio-visual unified encoder based on the layer-level branch scores provided by the modality-specific models. Extensive experiments on English and Spanish AVSR benchmarks covering multiple data conditions and scenarios demonstrated the effectiveness of our proposed method. Even when trained on a moderate scale of data, our models achieve competitive word error rates (WER) of approximately 2.5\% for English and surpass existing approaches for Spanish, establishing a new benchmark with an average WER of around 9.1\%. These results reflect how our tailored AVSR system is able to reach state-of-the-art recognition rates while significantly reducing the model complexity w.r.t. the prevalent approach in the field. Code and pre-trained models are available at https://github.com/david-gimeno/tailored-avsr.

arxiv情報

著者 David Gimeno-Gómez,Carlos-D. Martínez-Hinarejos
発行日 2025-05-06 08:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Tailored Design of Audio-Visual Speech Recognition Models using Branchformers はコメントを受け付けていません

SEAL: Steerable Reasoning Calibration of Large Language Models for Free

要約

OpenaiのO1シリーズなどの大規模な言語モデル(LLM)は、拡張されたチェーン(COT)推論メカニズムを介した複雑な推論タスクの説得力のある機能を実証しています。
しかし、最近の研究では、COTの推論痕跡における実質的な冗長性が明らかになります。これは、推論の潜在性を高めるだけでなく、不必要な推論パスに注意をそらすことでモデルのパフォーマンスに悪影響を与えます。
この問題に対処するために、LLMの内部推論構造を調査し、それらを実行、反射、および遷移思考の3つの主要な思考タイプに分類します。
さらに、私たちの分析では、過度の反射と遷移の思考が故障の場合と強く相関していることが明らかになり、これらの思考カテゴリは潜在空間で明確な分離を示すことが明らかになりました。
これらに基づいて、シール(操縦可能な推論キャリブレーション)を導入します。これは、COTプロセスをシームレスにキャリブレーションするトレーニングフリーのアプローチであり、有意な効率の向上を実証しながら精度を向上させます。
シールは、潜在空間で推論ステアリングベクトルを抽出するためのオフラインステージで構成され、その後、ステアリングベクトルを使用した表現介入を通じて推論トレースのオンザフライキャリブレーションが続きます。
特に、ステアリングベクターは、さまざまなタスクにわたって強い転送可能性を示しています。
複数のモデル(DeepSeek-R1-DistillおよびQWQ-32B-Preview)およびベンチマーク(Math500、GSM8K、LiveCodebench)にわたる広範な実験は、シールの有効性を検証し、推論トークンを11.8%から50.4%減らしながら、最大11%改善します。
私たちのコードは、https://github.com/vita-group/sealで公開されています。

要約(オリジナル)

Large Language Models (LLMs), such as OpenAI’s o1-series have demonstrated compelling capabilities for complex reasoning tasks via the extended chain-of-thought (CoT) reasoning mechanism. However, recent studies reveal substantial redundancy in the CoT reasoning traces, which not only increases inference latency but also negatively impacts model performance by diverting attention to unnecessary reasoning paths. To address this issue, we investigate the internal reasoning structures of LLMs and categorize them into three primary thought types: execution, reflection, and transition thoughts. Moreover, our analysis reveals that excessive reflection and transition thoughts are strongly correlated with failure cases and these thought categories exhibit clear separation in the latent space. Based on these, we introduce SEAL (Steerable reasoning calibration), a training-free approach that seamlessly calibrates the CoT process, improving accuracy while demonstrating significant efficiency gains. SEAL consists of an offline stage for extracting the reasoning steering vector in the latent space, followed by an on-the-fly calibration of the reasoning trace through representation intervention using the steering vector. Notably, the steering vector exhibits strong transferability across various tasks. Extensive experiments across multiple models (DeepSeek-R1-Distill and QwQ-32B-Preview) and benchmarks (Math500, GSM8K, LiveCodeBench) validate the effectiveness of SEAL, up to a 11% improvement in accuracy while reducing reasoning tokens by 11.8% to 50.4%. Our code is publicly available at https://github.com/VITA-Group/SEAL.

arxiv情報

著者 Runjin Chen,Zhenyu Zhang,Junyuan Hong,Souvik Kundu,Zhangyang Wang
発行日 2025-05-06 08:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SEAL: Steerable Reasoning Calibration of Large Language Models for Free はコメントを受け付けていません

Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation

要約

マンバの理論的無限コンテキストの可能性は、シーケンスがトレーニングの長さをはるかに上回る場合、実際には制限されています。
この作業では、教師モデルからのチェーン(COT)の要約を蒸留することにより、推論(RWR)でリコールする単純な効果的な方法で、マンバの長いコンテストメモリ能力のロックを解除します。
具体的には、RWRは、これらの要約を微調整中にCOTとしてプロンプトとして準備し、マンバに長いコンテキストで積極的に思い出し、推論するように教えます。
Longmemeval and Helmetの実験では、RWRがRWRを上回っており、Mambaの長いコンテキストパフォーマンスは、同様の前脱条件下での同等の変圧器/ハイブリッドベースラインに対するパフォーマンスを向上させ、すべてが建築的な変更なしで短いコンテキスト機能を維持します。

要約(オリジナル)

Mamba’s theoretical infinite-context potential is limited in practice when sequences far exceed training lengths. This work explores unlocking Mamba’s long-context memory ability by a simple-yet-effective method, Recall with Reasoning (RwR), by distilling chain-of-thought (CoT) summarization from a teacher model. Specifically, RwR prepends these summarization as CoT prompts during fine-tuning, teaching Mamba to actively recall and reason over long contexts. Experiments on LONGMEMEVAL and HELMET show RwR boosts Mamba’s long-context performance against comparable Transformer/hybrid baselines under similar pretraining conditions, while preserving short-context capabilities, all without architectural changes.

arxiv情報

著者 Junyu Ma,Tianqing Fang,Zhisong Zhang,Hongming Zhang,Haitao Mi,Dong Yu
発行日 2025-05-06 08:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Recall with Reasoning: Chain-of-Thought Distillation for Mamba’s Long-Context Memory and Extrapolation はコメントを受け付けていません

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

要約

検証可能な報酬(RLVR)による強化学習は、結果ベースの報酬から直接学習することにより、大規模な言語モデルの推論能力を高めることに有望を示しています。
ゼロ設定の下で動作する最近のRLVRは、推論プロセスのラベル付けにおいて監督を避けていますが、トレーニングのための質問と回答の手動でキュレーションされたコレクションに依存しています。
高品質で人間が生成された例の希少性は、人間の監督に依存することの長期的なスケーラビリティについての懸念を引き起こします。これは、言語モデルの前削除の領域ですでに明らかな課題です。
さらに、AIが人間の知能を上回る仮説的な未来において、人間が提供するタスクは、緊密なシステムの学習の可能性が限られている可能性があります。
これらの懸念に対処するために、Absoluteゼロと呼ばれる新しいRLVRパラダイムを提案します。単一のモデルは、外部データに依存せずに、独自の学習の進歩を最大化し、それらを解決することで推論を改善するタスクを提案することを学びます。
このパラダイムの下で、コードエグゼクティブを使用してトレーニングカリキュラムと推論能力を自己進化させるシステムである絶対ゼロ推論(AZR)を紹介します。
AZRは、外部データなしで完全に訓練されているにもかかわらず、コーディングおよび数学的推論タスクで全体的なSOTAパフォーマンスを達成し、数万人のドメイン内でキュレーションされた例に依存する既存のゼロセッティングモデルよりも優れています。
さらに、AZRはさまざまなモデルスケールに効果的に適用できることを実証し、さまざまなモデルクラスと互換性があります。

要約(オリジナル)

Reinforcement learning with verifiable rewards (RLVR) has shown promise in enhancing the reasoning capabilities of large language models by learning directly from outcome-based rewards. Recent RLVR works that operate under the zero setting avoid supervision in labeling the reasoning process, but still depend on manually curated collections of questions and answers for training. The scarcity of high-quality, human-produced examples raises concerns about the long-term scalability of relying on human supervision, a challenge already evident in the domain of language model pretraining. Furthermore, in a hypothetical future where AI surpasses human intelligence, tasks provided by humans may offer limited learning potential for a superintelligent system. To address these concerns, we propose a new RLVR paradigm called Absolute Zero, in which a single model learns to propose tasks that maximize its own learning progress and improves reasoning by solving them, without relying on any external data. Under this paradigm, we introduce the Absolute Zero Reasoner (AZR), a system that self-evolves its training curriculum and reasoning ability by using a code executor to both validate proposed code reasoning tasks and verify answers, serving as an unified source of verifiable reward to guide open-ended yet grounded learning. Despite being trained entirely without external data, AZR achieves overall SOTA performance on coding and mathematical reasoning tasks, outperforming existing zero-setting models that rely on tens of thousands of in-domain human-curated examples. Furthermore, we demonstrate that AZR can be effectively applied across different model scales and is compatible with various model classes.

arxiv情報

著者 Andrew Zhao,Yiran Wu,Yang Yue,Tong Wu,Quentin Xu,Yang Yue,Matthieu Lin,Shenzhi Wang,Qingyun Wu,Zilong Zheng,Gao Huang
発行日 2025-05-06 09:08:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Absolute Zero: Reinforced Self-play Reasoning with Zero Data はコメントを受け付けていません

Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents

要約

効果的なソーシャルインテリジェンスシミュレーションでは、言語エージェントが推論の深さを動的に調整する必要があります。これは、現在のアプローチには特に存在しません。
既存の方法は、この種の推論能力を欠いているか、すべてのシナリオで均一な長い考え方の推論を実施するため、過度のトークンの使用と不適切な社会シミュレーションが生じます。
この論文では、$ \ textbf {a} $ daptive $ \ textbf {m} $ ode $ \ textbf {l} $ hearning($ \ textbf {aml} $)を提案します。
フレームワークのコアイノベーション、$ \ textbf {a} $ daptive $ \ textbf {m} $ ode $ \ textbf {p} $ olicy $ \ textbf {o} $ ptimization($ \ textbf {ampo} $)algorithm、既存の前進を紹介します。
社会的相互作用全体のコンテキスト対応モードの切り替え、および(3)深度適応処理によるトークン効率の高い推論。
ソーシャルインテリジェンスタスクに関する広範な実験では、AMLが最先端の方法よりも15.6%高いタスクパフォ​​ーマンスを達成していることが確認されています。
特に、私たちの方法は、32.8%の短い推論チェーンでGRPOを7.0%上回ることです。
これらの結果は、AMPOで実装されているように、コンテキストに敏感な思考モードの選択により、GRPOの固定されたアプローチよりも人間のような適応推論が可能になることを示しています。

要約(オリジナル)

Effective social intelligence simulation requires language agents to dynamically adjust reasoning depth, a capability notably absent in current approaches. While existing methods either lack this kind of reasoning capability or enforce uniform long chain-of-thought reasoning across all scenarios, resulting in excessive token usage and inappropriate social simulation. In this paper, we propose $\textbf{A}$daptive $\textbf{M}$ode $\textbf{L}$earning ($\textbf{AML}$) that strategically selects from four thinking modes (intuitive reaction $\rightarrow$ deep contemplation) based on real-time context. Our framework’s core innovation, the $\textbf{A}$daptive $\textbf{M}$ode $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{AMPO}$) algorithm, introduces three key advancements over existing methods: (1) Multi-granular thinking mode design, (2) Context-aware mode switching across social interaction, and (3) Token-efficient reasoning via depth-adaptive processing. Extensive experiments on social intelligence tasks confirm that AML achieves 15.6% higher task performance than state-of-the-art methods. Notably, our method outperforms GRPO by 7.0% with 32.8% shorter reasoning chains. These results demonstrate that context-sensitive thinking mode selection, as implemented in AMPO, enables more human-like adaptive reasoning than GRPO’s fixed-depth approach.

arxiv情報

著者 Minzheng Wang,Yongbin Li,Haobo Wang,Xinghua Zhang,Nan Xu,Bingli Wu,Fei Huang,Haiyang Yu,Wenji Mao
発行日 2025-05-06 09:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Think on your Feet: Adaptive Thinking via Reinforcement Learning for Social Agents はコメントを受け付けていません

Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models

要約

音楽言語モデルの出現により、AIシステムの自動音楽生成能力が大幅に向上しましたが、世界の音楽ジャンルと文化の報道も限られています。
音楽生成に関するデータセットと研究論文の研究を提示し、ジャンルのバイアスと過小評価を定量化します。
既存の音楽データセットの合計時間の5.7%のみが西洋以外のジャンルから来ていることがわかります。
次に、このバイアスを緩和する際に、パラメーター効率の高い微調整(PEFT)技術の有効性を調査します。
Hindustani Classical and Turkish Makam Musicという2つの過小評価されている非西洋の音楽の伝統の2つの人気モデルの2つの人気モデルを使用した実験は、約束を強調し、小さなデータセットを介した音楽のクロスジャンルの適応の非自明性を強調しており、より公平なベースラインの音楽モデルが設計されたより公平なベースラインの音楽モデルの必要性を明確にします。

要約(オリジナル)

The advent of Music-Language Models has greatly enhanced the automatic music generation capability of AI systems, but they are also limited in their coverage of the musical genres and cultures of the world. We present a study of the datasets and research papers for music generation and quantify the bias and under-representation of genres. We find that only 5.7% of the total hours of existing music datasets come from non-Western genres, which naturally leads to disparate performance of the models across genres. We then investigate the efficacy of Parameter-Efficient Fine-Tuning (PEFT) techniques in mitigating this bias. Our experiments with two popular models — MusicGen and Mustango, for two underrepresented non-Western music traditions — Hindustani Classical and Turkish Makam music, highlight the promises as well as the non-triviality of cross-genre adaptation of music through small datasets, implying the need for more equitable baseline music-language models that are designed for cross-cultural transfer learning.

arxiv情報

著者 Atharva Mehta,Shivam Chauhan,Amirbek Djanibekov,Atharva Kulkarni,Gus Xia,Monojit Choudhury
発行日 2025-05-06 09:48:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD | Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models はコメントを受け付けていません