-
最近の投稿
- FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models
- The HalluRAG Dataset: Detecting Closed-Domain Hallucinations in RAG Applications Using an LLM’s Internal States
- PropNet: a White-Box and Human-Like Network for Sentence Representation
- Scaling Laws of Synthetic Data for Language Models
- Context-Efficient Retrieval with Factual Decomposition
-
最近のコメント
表示できるコメントはありません。 cs.AI (35652) cs.CL (26956) cs.CR (2722) cs.CV (41490) cs.LG (40582) cs.RO (20973) cs.SY (3178) eess.IV (4889) eess.SY (3172) stat.ML (5322)
「eess.AS」カテゴリーアーカイブ
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes
要約 視覚シーン内の音声言語と非スピーチの両方の音の両方を同時に接地できる統合モ … 続きを読む
United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space
要約 オーディオとビジュアルモダリティは、ビデオの2つの主要な接触チャネルであり … 続きを読む
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation
要約 音楽によって駆動される自然で多様でリズミカルな人間のダンスの動きを自動的に … 続きを読む
emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography
要約 表面筋電図(SEMG)は、個々の脊椎ニューロンと豊かさを検出するのに十分な … 続きを読む
UniSync: A Unified Framework for Audio-Visual Synchronization
要約 スピーチビデオの正確な視聴覚同期は、コンテンツの品質と視聴者の理解に不可欠 … 続きを読む
Evaluating ASR Confidence Scores for Automated Error Detection in User-Assisted Correction Interfaces
要約 自動音声認識(ASR)の進歩にもかかわらず、転写エラーは持続し、手動修正が … 続きを読む
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context
要約 大規模な言語モデル(LLM)は最近、テキストだけでなく、音声やオーディオな … 続きを読む
Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering
要約 最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む