-
最近の投稿
- Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback
- UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
- FlySearch: Exploring how vision-language models explore
- On the class of coding optimality of human languages and the origins of Zipf’s law
- Multi Layered Autonomy and AI Ecologies in Robotic Art Installations
-
最近のコメント
表示できるコメントはありません。 cs.AI (39140) cs.CL (29610) cs.CV (44535) cs.HC (2976) cs.LG (44046) cs.RO (23351) cs.SY (3564) eess.IV (5121) eess.SY (3556) stat.ML (5728)
「eess.AS」カテゴリーアーカイブ
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer
要約 このペーパーでは、リップリーディング用の効率的な視覚音声エンコーダーを紹介 … 続きを読む
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
要約 マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオ … 続きを読む
Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech
要約 目的:音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほと … 続きを読む
SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation
要約 現代の音声分離技術は、長い混合オーディオ波形を巧みに処理しますが、騒々しい … 続きを読む
Bemba Speech Translation: Exploring a Low-Resource African Language
要約 本論文では、国際音声言語翻訳会議(IWSLT2025)の低リソース言語トラ … 続きを読む
Automatic Proficiency Assessment in L2 English Learners
要約 英語の第二言語能力(L2)は通常、英語の教師または専門家の評価者によって知 … 続きを読む
fastabx: A library for efficient computation of ABX discriminability
要約 ABX差別タスクを構築するための高性能PythonライブラリであるFast … 続きを読む
LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis
要約 リアルタイムでインテリジェントかつ自然な音声対話は、次世代の人間とコンピュ … 続きを読む
FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment
要約 従来のサウンドデザインワークフローは、フォーリーサウンドデザインのように、 … 続きを読む
How much to Dereverberate? Low-Latency Single-Channel Speech Enhancement in Distant Microphone Scenarios
要約 残響除去は、信号の明瞭度と品質を向上させる音声強調(SE)の重要なサブタス … 続きを読む