Monte Carlo Planning with Large Language Model for Text-Based Game Agents

要約

テキストベースのゲームは、言語ベースの自律エージェントに貴重な環境を提供します。
ただし、モンテカルロツリー検索(MCTS)と強化学習(RL)を組み合わせたものなど、計画と学習のパラダイムは、特に大規模な反復により時間がかかります。
さらに、これらのアルゴリズムは不確実性駆動型の探索を実行しますが、言語の理解と推論能力がありません。
このホワイトペーパーでは、動的なメモリ誘導大型言語モデル(MC-DML)アルゴリズムを使用したモンテカルロ計画を紹介します。
MC-DMLは、ツリー検索アルゴリズムの探索的利点とともに、大規模な言語モデル(LLMS)の言語理解と推論機能を活用しています。
具体的には、試行内および審理メモリメカニズムを使用してLLMを強化し、過去の経験から学習し、計画中のアクション評価を動的に調整できるようにします。
私たちは、ジェリコのベンチマークから一連のテキストベースのゲームで実験を実施しています。
我々の結果は、MC-DMLアルゴリズムが初期計画段階でさまざまなゲームのパフォーマンスを大幅に向上させ、複数の反復を必要とする強力な現代的な方法を上回ることを示しています。
これは、私たちのアルゴリズムの有効性を示しており、複雑な環境でより効率的な言語に基づいた計画への道を開いています。

要約(オリジナル)

Text-based games provide valuable environments for language-based autonomous agents. However, planning-then-learning paradigms, such as those combining Monte Carlo Tree Search (MCTS) and reinforcement learning (RL), are notably time-consuming due to extensive iterations. Additionally, these algorithms perform uncertainty-driven exploration but lack language understanding and reasoning abilities. In this paper, we introduce the Monte Carlo planning with Dynamic Memory-guided Large language model (MC-DML) algorithm. MC-DML leverages the language understanding and reasoning capabilities of Large Language Models (LLMs) alongside the exploratory advantages of tree search algorithms. Specifically, we enhance LLMs with in-trial and cross-trial memory mechanisms, enabling them to learn from past experiences and dynamically adjust action evaluations during planning. We conduct experiments on a series of text-based games from the Jericho benchmark. Our results demonstrate that the MC-DML algorithm significantly enhances performance across various games at the initial planning phase, outperforming strong contemporary methods that require multiple iterations. This demonstrates the effectiveness of our algorithm, paving the way for more efficient language-grounded planning in complex environments.

arxiv情報

著者 Zijing Shi,Meng Fang,Ling Chen
発行日 2025-04-23 16:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Monte Carlo Planning with Large Language Model for Text-Based Game Agents はコメントを受け付けていません

Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification

要約

感情分析のためのほとんどのデータセットには、意見が表明されたコンテキストが欠けており、感情の理解にはしばしば重要であり、主にいくつかの感情カテゴリによって制限されています。
GPT-4のような基礎大規模な言語モデル(LLM)は、予測過剰な感情に苦しみ、リソース集約的すぎます。
LLMベースのデータ合成パイプラインを設計し、よりアクセスしやすく軽量のバートタイプのエンコーダーモデルのトレーニング例を生成するために、大規模なモデルMistral-7Bを活用しています。
私たちは、例のセマンティックな多様性を拡大することに焦点を当て、28の感情クラスを超えるユニークなコンテキストを持つ非反復的なストーリー – 文字中心の発言を生み出すために、世代を物語のコーパスに接地することを提案します。
450 GPU時間で700K推論を実行することで、両方のシナリオをカバーするために、100Kコンテキストのデータセットと300Kコンテキストのない例に貢献します。
事前に訓練されたエンコーダーを微調整するために使用します。これにより、いくつかのEmo Pillarsモデルが生まれます。
EMO Pillarsモデルは、GoeMotions、ISEAR、IEMOCAP、EmoContextなどの特定のタスクに合わせてチューニングし、最初の3つのSOTAパフォーマンスに到達すると、新しいドメインに非常に適応していることを示しています。
また、データセットを検証し、統計分析と人間の評価を実施し、パイプライン内の税務上のラベルのハンドリングの改善の必要性を指摘しながら、発話の多様化(中立クラスでは少ない)とコンテキストのパーソナライズにおける測定の成功を確認します。

要約(オリジナル)

Most datasets for sentiment analysis lack context in which an opinion was expressed, often crucial for emotion understanding, and are mainly limited by a few emotion categories. Foundation large language models (LLMs) like GPT-4 suffer from over-predicting emotions and are too resource-intensive. We design an LLM-based data synthesis pipeline and leverage a large model, Mistral-7b, for the generation of training examples for more accessible, lightweight BERT-type encoder models. We focus on enlarging the semantic diversity of examples and propose grounding the generation into a corpus of narratives to produce non-repetitive story-character-centered utterances with unique contexts over 28 emotion classes. By running 700K inferences in 450 GPU hours, we contribute with the dataset of 100K contextual and also 300K context-less examples to cover both scenarios. We use it for fine-tuning pre-trained encoders, which results in several Emo Pillars models. We show that Emo Pillars models are highly adaptive to new domains when tuned to specific tasks such as GoEmotions, ISEAR, IEMOCAP, and EmoContext, reaching the SOTA performance on the first three. We also validate our dataset, conducting statistical analysis and human evaluation, and confirm the success of our measures in utterance diversification (although less for the neutral class) and context personalization, while pointing out the need for improved handling of out-of-taxonomy labels within the pipeline.

arxiv情報

著者 Alexander Shvets
発行日 2025-04-23 16:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification はコメントを受け付けていません

Planning with Diffusion Models for Target-Oriented Dialogue Systems

要約

ターゲット指向の対話(TOD)は、LLM時代の重要な課題であり、戦略的対話計画が特定のターゲットに向けて会話を向けるために重要です。
ただし、既存の対話計画方法は、段階的な連続的な方法で対話計画を生成し、複合エラーや近視の行動に悩まされる可能性があります。
これらの制限に対処するために、拡散モデルを活用して非シーケンシャルダイアログ計画を可能にする新しい対話計画フレームワークDifftodを紹介します。
difftodは、条件付きガイダンスを備えた軌跡の生成問題として対話計画を定式化し、拡散言語モデルを活用して、対話の軌跡の可能性を推定します。
Dialogue Action Strategiesを最適化するために、Difftodは、さまざまなターゲットタイプの3つのカスタマイズされたガイダンスメカニズムを導入し、テスト時に多様なTODターゲットに対する柔軟なガイダンスを提供します。
3つの多様なTOD環境にわたる広範な実験は、Difftodが非微細なLookahead Explorationを効果的に実行し、非シーケンシャルな対話計画を通じて長い地平線にわたってアクション戦略を最適化し、複雑で多様な対話シナリオにわたって強い柔軟性を実証できることを示しています。
私たちのコードとデータは、https://anonymous.4open.science/r/difftodからアクセスできます。

要約(オリジナル)

Target-Oriented Dialogue (TOD) remains a significant challenge in the LLM era, where strategic dialogue planning is crucial for directing conversations toward specific targets. However, existing dialogue planning methods generate dialogue plans in a step-by-step sequential manner, and may suffer from compounding errors and myopic actions. To address these limitations, we introduce a novel dialogue planning framework, DiffTOD, which leverages diffusion models to enable non-sequential dialogue planning. DiffTOD formulates dialogue planning as a trajectory generation problem with conditional guidance, and leverages a diffusion language model to estimate the likelihood of the dialogue trajectory. To optimize the dialogue action strategies, DiffTOD introduces three tailored guidance mechanisms for different target types, offering flexible guidance towards diverse TOD targets at test time. Extensive experiments across three diverse TOD settings show that DiffTOD can effectively perform non-myopic lookahead exploration and optimize action strategies over a long horizon through non-sequential dialogue planning, and demonstrates strong flexibility across complex and diverse dialogue scenarios. Our code and data are accessible through https://anonymous.4open.science/r/DiffTOD.

arxiv情報

著者 Hanwen Du,Bo Peng,Xia Ning
発行日 2025-04-23 16:27:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Planning with Diffusion Models for Target-Oriented Dialogue Systems はコメントを受け付けていません

Do Large Language Models know who did what to whom?

要約

大規模な言語モデル(LLM)は、言語を理解していないことで一般的に批判されています。
しかし、多くの批判は、人間では言語処理とは異なる認知能力に焦点を当てています。
ここで、私たちは代わりに、言語に密接にリンクしたある種の理解を研究します。
テーマの役割をキャプチャする文の表現におけるLLMSワード予測と表現の中心的なトレーニングの目的は?
2つの実験で、4つのLLMで文の表現を特徴付けました。
人間の類似性の判断とは対照的に、LLMSでは、文の全体的な表現類似性は、構文の類似性を反映していますが、エージェントと患者の割り当てが逆になったかどうかは反転しませんでした。
さらに、隠されたユニットのどのサブセットでもテーマの役割情報が利用可能であるという証拠はほとんど見つかりませんでした。
ただし、いくつかの注意ヘッドは、構文とは無関係に、テーマの役割を堅牢にキャプチャしました。
したがって、LLMはテーマの役割を抽出することができますが、人間と比較して、この情報は表現により弱く影響します。

要約(オリジナル)

Large Language Models (LLMs) are commonly criticized for not understanding language. However, many critiques focus on cognitive abilities that, in humans, are distinct from language processing. Here, we instead study a kind of understanding tightly linked to language: inferring who did what to whom (thematic roles) in a sentence. Does the central training objective of LLMs-word prediction-result in sentence representations that capture thematic roles? In two experiments, we characterized sentence representations in four LLMs. In contrast to human similarity judgments, in LLMs the overall representational similarity of sentence pairs reflected syntactic similarity but not whether their agent and patient assignments were identical vs. reversed. Furthermore, we found little evidence that thematic role information was available in any subset of hidden units. However, some attention heads robustly captured thematic roles, independently of syntax. Therefore, LLMs can extract thematic roles but, relative to humans, this information influences their representations more weakly.

arxiv情報

著者 Joseph M. Denning,Xiaohan,Guo,Bryor Snefjella,Idan A. Blank
発行日 2025-04-23 17:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do Large Language Models know who did what to whom? はコメントを受け付けていません

Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

要約

大規模な言語モデル(LLM)は、複雑なタスクで顕著な能力を示しています。
Openai O1やDeepSeek-R1などの大規模な推論モデル(LRMS)の最近の進歩は、数学や補強施設(SFT)および強化学習(RL)テクニックを活用して、チェーン(COT)の推論を強化することにより、数学やプログラミングなどのシステム-2推論ドメインのパフォーマンスをさらに改善しました。
ただし、COTの推論シーケンスが長いとパフォーマンスが向上しますが、「考え直しの現象」として知られる冗長および冗長な出力のために、重要な計算オーバーヘッドも導入します。
この論文では、LLMSで効率的な推論を達成するための現在の進歩を体系的に調査および調査するための最初の構造化調査を提供します。
全体として、LLMSの固有のメカニズムに依存して、既存の作業をいくつかの重要な方向に分類します。(1)モデルベースの効率的な推論は、より簡潔な推論モデルをより簡潔な推論モデルに最適化するか、効率的な推論モデルを直接トレーニングすることを考慮します。
(2)推論中の推論ステップと長さを動的に削減することを目的とする出力ベースの効率的な推論を推論する。
(3)入力プロンプトベースの効率的な推論は、難易度や長さの制御などの入力プロンプトプロパティに基づいて推論効率を高めることを目指しています。
さらに、推論モデルのトレーニングに効率的なデータの使用を紹介し、小言語モデルの推論機能を調査し、評価方法とベンチマークについて議論します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as OpenAI o1 and DeepSeek-R1, have further improved performance in System-2 reasoning domains like mathematics and programming by harnessing supervised fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences improve performance, they also introduce significant computational overhead due to verbose and redundant outputs, known as the ‘overthinking phenomenon’. In this paper, we provide the first structured survey to systematically investigate and explore the current progress toward achieving efficient reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we categorize existing works into several key directions: (1) model-based efficient reasoning, which considers optimizing full-length reasoning models into more concise reasoning models or directly training efficient reasoning models; (2) reasoning output-based efficient reasoning, which aims to dynamically reduce reasoning steps and length during inference; (3) input prompts-based efficient reasoning, which seeks to enhance reasoning efficiency based on input prompt properties such as difficulty or length control. Additionally, we introduce the use of efficient data for training reasoning models, explore the reasoning capabilities of small language models, and discuss evaluation methods and benchmarking.

arxiv情報

著者 Yang Sui,Yu-Neng Chuang,Guanchu Wang,Jiamu Zhang,Tianyi Zhang,Jiayi Yuan,Hongyi Liu,Andrew Wen,Shaochen Zhong,Hanjie Chen,Xia Hu
発行日 2025-04-23 17:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models はコメントを受け付けていません

IberBench: LLM Evaluation on Iberian Languages

要約

大規模な言語モデル(LLM)は、特に高品質のデータがしばしば制限されている英語以外の言語では、包括的に評価することが困難です。
既存のベンチマークとリーダーボードは主に英語中心であり、他の言語に対処するのはごくわずかです。
これらのベンチマークは、いくつかの重要な分野では不十分です。言語品種の多様性を見落とし、産業用関連性のタスクよりも基本的な自然言語処理(NLP)機能に優先順位を付け、静的です。
これらの側面を念頭に置いて、イベリア半島とイベロアメリカで話されている言語で、基本的および業界関連のNLPタスクの両方のLLMパフォーマンスを評価するために設計された包括的な拡張可能なベンチマークであるIberbenchを提示します。
Iberbenchは、評価キャンペーンと最近のベンチマークから101のデータセットを統合し、感情と感情分析、毒性検出、要約などの22のタスクカテゴリをカバーしています。
ベンチマークは、継続的な更新とコミュニティ主導のモデル、および専門家の委員会によって緩和されたデータセット提出を可能にすることにより、言語の多様性や静的評価のセットアップなど、現在の評価慣行の重要な制限に対処します。
1億から140億のパラメーターの範囲の23のLLMを評価し、その強みと制限に関する経験的洞察を提供します。
私たちの調査結果は、(i)LLMSが基本的なタスクよりも業界関連のタスクで機能することを示しています。
Iberbenchは、データセットの正規化とホスティング、LLMSの増分評価、公開されているリーダーボードなど、評価パイプライン全体のオープンソースの実装を提供しています。

要約(オリジナル)

Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.

arxiv情報

著者 José Ángel González,Ian Borrego Obrador,Álvaro Romo Herrero,Areg Mikael Sarvazyan,Mara Chinea-Ríos,Angelo Basile,Marc Franco-Salvador
発行日 2025-04-23 17:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IberBench: LLM Evaluation on Iberian Languages はコメントを受け付けていません

Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator

要約

Renforce Learning(RL)は、ロボット制御における印象的な能力を実証していますが、サンプルの複雑さ、安全性の懸念、SIMからリアルのギャップのために困難なままです。
オフラインRLは、事前に収集されたデータから学習することにより、リスクの高い実世界の探索の必要性を排除しますが、分布シフトに苦しみ、政策の一般化を制限します。
モデルベースのRL(MBRL)は、合成ロールアウトの予測モデルを活用することによりこれに対処しますが、既存のアプローチには強力な不確実性の推定が欠けていることが多く、オフライン設定で複合エラーにつながります。
オフラインロボットワールドモデル(RWM-O)を紹介します。これは、物理シミュレーターに依存せずにポリシー学習を改善するための認識論的不確実性を明示的に推定するモデルベースのアプローチです。
これらの不確実性の推定値をポリシーの最適化に統合することにより、私たちのアプローチは信頼できない遷移を罰し、モデルのエラーへの過剰適合を減らし、安定性を高めます。
実験結果は、RWM-Oが一般化と安全性を改善し、現実世界のデータから純粋にポリシー学習を可能にし、ロボット工学のためのスケーラブルなデータ効率の良いRLを進めることを示しています。

要約(オリジナル)

Reinforcement Learning (RL) has demonstrated impressive capabilities in robotic control but remains challenging due to high sample complexity, safety concerns, and the sim-to-real gap. While offline RL eliminates the need for risky real-world exploration by learning from pre-collected data, it suffers from distributional shift, limiting policy generalization. Model-Based RL (MBRL) addresses this by leveraging predictive models for synthetic rollouts, yet existing approaches often lack robust uncertainty estimation, leading to compounding errors in offline settings. We introduce Offline Robotic World Model (RWM-O), a model-based approach that explicitly estimates epistemic uncertainty to improve policy learning without reliance on a physics simulator. By integrating these uncertainty estimates into policy optimization, our approach penalizes unreliable transitions, reducing overfitting to model errors and enhancing stability. Experimental results show that RWM-O improves generalization and safety, enabling policy learning purely from real-world data and advancing scalable, data-efficient RL for robotics.

arxiv情報

著者 Chenhao Li,Andreas Krause,Marco Hutter
発行日 2025-04-23 12:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator はコメントを受け付けていません

PoGO: A Scalable Proof of Useful Work via Quantized Gradient Descent and Merkle Proofs

要約

ブロックチェーンコンセンサスのための勾配最適化の証明(POGO)という設計を提示します。ここでは、鉱夫は大規模な機械学習モデルのトレーニングの検証可能な証拠を作成します。
以前の作業に基づいて、Quantized Gradients(4ビット精度)を組み込んでストレージと計算要件を削減しながら、モデルの損失を下げる際に実際の進歩がなされていることを確認する能力を維持します。
さらに、完全な32ビットモデルでマークルプルーフを使用して、大きなパラメーターセットを処理し、最小限のオンチェーンデータでランダムな葉のチェックを有効にします。
これらのアイデアを参照例としてGPT-3(175bパラメーター)を使用して説明し、より小さなが高性能モデル(たとえば、27bパラメーターを備えたGemma〜3)も参照します。
量子化とサンプリングのおかげで、検証がトレーニングよりもかなり安いことを示す経験的コスト分析を提供します。
また、意味のあるトレーニング手順を組み込む際の長いブロック時間(潜在的に時間)の必要性、特殊なGPUハードウェアを使用する際のトレードオフ、およびバイナリdiffが更新を徐々に最適化する方法についても説明します。
最後に、微調整は、データセットとサンプリングの方法を変更するだけでなく、全体的な検証フローを保持するだけで、同様の方法で処理できることに注意してください。
当社のプロトコルにより、検証者は肯定的または否定的な証明を発行できます。
これらは、更新を確認するか、鉱夫を削減するために、最終化時に集約されます。

要約(オリジナル)

We present a design called Proof of Gradient Optimization (PoGO) for blockchain consensus, where miners produce verifiable evidence of training large-scale machine-learning models. Building on previous work, we incorporate quantized gradients (4-bit precision) to reduce storage and computation requirements, while still preserving the ability of verifiers to check that real progress has been made on lowering the model’s loss. Additionally, we employ Merkle proofs over the full 32-bit model to handle large parameter sets and to enable random leaf checks with minimal on-chain data. We illustrate these ideas using GPT-3 (175B parameters) as a reference example and also refer to smaller but high-performance models (e.g., Gemma~3 with 27B parameters). We provide an empirical cost analysis showing that verification is significantly cheaper than training, thanks in part to quantization and sampling. We also discuss the necessity of longer block times (potentially hours) when incorporating meaningful training steps, the trade-offs when using specialized GPU hardware, and how binary diffs may incrementally optimize updates. Finally, we note that fine-tuning can be handled in a similar manner, merely changing the dataset and the manner of sampling but preserving the overall verification flow. Our protocol allows verifiers to issue either positive or negative attestations; these are aggregated at finalization to either confirm the update or slash the miner.

arxiv情報

著者 José I. Orlicki
発行日 2025-04-23 12:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | PoGO: A Scalable Proof of Useful Work via Quantized Gradient Descent and Merkle Proofs はコメントを受け付けていません

Coding for Gaussian Two-Way Channels: Linear and Learning-Based Approaches

要約

ユーザーの協力は、独立したノイズでガウスの双方向チャネル(GTWC)の能力を改善することはできませんが、コミュニケーションの信頼性を向上させることができます。
この作業では、ユーザーのエンコーダーとデコーダーの共同設計を介してエラー確率の合計を最小化することにより、GTWCのコミュニケーションの信頼性を高めることを目指しています。
最初に、ユーザーエンコードプロセスの結合によってユーザーの協力がキャプチャされる一般的なエンコード/デコード機能を策定します。
カップリング効果により、エンコーダ/デコーダー設計は非自明で、この効果をキャプチャするために効果的なデコードが必要であり、電力制約内でエンコーダで効率的な電力管理が必要です。
これらの課題に対処するために、線形コーディングと学習ベースのコーディングという2つの異なる双方向コーディング戦略を提案します。
線形コーディングの場合、最適な線形デコードを提案し、信頼性のバランスをとるユーザー協力に関するエンコードに関する新しい洞察を議論します。
次に、ジョイントエンコーダー/デコーダー設計の効率的なアルゴリズムを提案します。
学習ベースのコーディングについては、新しい再発性ニューラルネットワーク(RNN)ベースのコーディングアーキテクチャを導入します。ここでは、インタラクティブなRNNとエンコード用のパワーコントロールレイヤーを提案し、デコードの注意メカニズムを備えた双方向RNNを組み込みます。
シミュレーションを通じて、双方向のコーディング方法論は、従来のチャネルコーディングスキーム(ユーザーの協力を利用しない)よりも優れたパフォーマンスにおいて大幅に優れていることを示します。
また、線形コーディングが高信号対雑音比(SNR)で優れていることを実証し、RNNベースのコーディングは低SNRで最適です。
さらに、配電分布、双方向コーディングの利点、異なるコーディングレート、およびブロック長のゲインに関して、双方向コーディング戦略を調査します。

要約(オリジナル)

Although user cooperation cannot improve the capacity of Gaussian two-way channels (GTWCs) with independent noises, it can improve communication reliability. In this work, we aim to enhance and balance the communication reliability in GTWCs by minimizing the sum of error probabilities via joint design of encoders and decoders at the users. We first formulate general encoding/decoding functions, where the user cooperation is captured by the coupling of user encoding processes. The coupling effect renders the encoder/decoder design non-trivial, requiring effective decoding to capture this effect, as well as efficient power management at the encoders within power constraints. To address these challenges, we propose two different two-way coding strategies: linear coding and learning-based coding. For linear coding, we propose optimal linear decoding and discuss new insights on encoding regarding user cooperation to balance reliability. We then propose an efficient algorithm for joint encoder/decoder design. For learning-based coding, we introduce a novel recurrent neural network (RNN)-based coding architecture, where we propose interactive RNNs and a power control layer for encoding, and we incorporate bi-directional RNNs with an attention mechanism for decoding. Through simulations, we show that our two-way coding methodologies outperform conventional channel coding schemes (that do not utilize user cooperation) significantly in sum-error performance. We also demonstrate that our linear coding excels at high signal-to-noise ratios (SNRs), while our RNN-based coding performs best at low SNRs. We further investigate our two-way coding strategies in terms of power distribution, two-way coding benefit, different coding rates, and block-length gain.

arxiv情報

著者 Junghoon Kim,Taejoon Kim,Anindya Bijoy Das,Seyyedali Hosseinalipour,David J. Love,Christopher G. Brinton
発行日 2025-04-23 13:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.SY, eess.SY, math.IT | Coding for Gaussian Two-Way Channels: Linear and Learning-Based Approaches はコメントを受け付けていません

Synthetic Lyrics Detection Across Languages and Genres

要約

近年、音楽コンテンツ、特に歌詞を生成するために大規模な言語モデル(LLM)を使用して人気が高まっています。
これらの進歩は、アーティストに貴重なツールを提供し、創造的なプロセスを強化しますが、著作権違反、消費者の満足度、コンテンツスパムについての懸念も高めます。
以前の研究では、さまざまなドメインでのコンテンツの検出が調査されています。
ただし、テキストモダリティ、歌詞、音楽に焦点を当てた作品はありません。
このギャップに対処するために、複数の言語、音楽ジャンル、アーティストからのリアルと合成の歌詞の多様なデータセットをキュレーションしました。
生成パイプラインは、人間と自動化された方法の両方を使用して検証されました。
以前に未開拓のデータ型である歌詞に関する既存の合成テキスト検出アプローチの徹底的な評価を実行しました。
また、監視されていないドメインの適応を通じて、最高のパフォーマンスの機能を歌詞に適応させる方法を調査しました。
音楽と産業の両方の制約に従って、これらのアプローチが言語間でどの程度うまく一般化され、データの可用性でスケーリングし、多言語のコンテンツを処理し、少ないショット設定で新しいジャンルで実行するかを調べました。
私たちの調査結果は、AIが生成された音楽に関する政策決定を通知し、ユーザーの透明性を高めることができる有望な結果を示しています。

要約(オリジナル)

In recent years, the use of large language models (LLMs) to generate music content, particularly lyrics, has gained in popularity. These advances provide valuable tools for artists and enhance their creative processes, but they also raise concerns about copyright violations, consumer satisfaction, and content spamming. Previous research has explored content detection in various domains. However, no work has focused on the text modality, lyrics, in music. To address this gap, we curated a diverse dataset of real and synthetic lyrics from multiple languages, music genres, and artists. The generation pipeline was validated using both humans and automated methods. We performed a thorough evaluation of existing synthetic text detection approaches on lyrics, a previously unexplored data type. We also investigated methods to adapt the best-performing features to lyrics through unsupervised domain adaptation. Following both music and industrial constraints, we examined how well these approaches generalize across languages, scale with data availability, handle multilingual language content, and perform on novel genres in few-shot settings. Our findings show promising results that could inform policy decisions around AI-generated music and enhance transparency for users.

arxiv情報

著者 Yanis Labrak,Markus Frohmann,Gabriel Meseguer-Brocal,Elena V. Epure
発行日 2025-04-23 13:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Synthetic Lyrics Detection Across Languages and Genres はコメントを受け付けていません