-
最近の投稿
- Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations
- Recursive Decomposition with Dependencies for Generic Divide-and-Conquer Reasoning
- Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering
- A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
- RoboPanoptes: The All-seeing Robot with Whole-body Dexterity
-
最近のコメント
表示できるコメントはありません。 cs.AI (37618) cs.CL (28441) cs.CV (43250) cs.HC (2877) cs.LG (42544) cs.RO (22329) cs.SY (3427) eess.IV (5024) eess.SY (3419) stat.ML (5549)
「eess.AS」カテゴリーアーカイブ
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect
要約 チュニジアのアラビア方言の自動音声認識(ASR)システムの開発は、方言の言 … 続きを読む
Deep learning for music generation. Four approaches and their comparative evaluation
要約 本稿では、音楽生成のための4つの異なる人工知能アルゴリズムを紹介し、生成さ … 続きを読む
AIM: Acoustic Inertial Measurement for Indoor Drone Localization and Tracking
要約 屋内ドローンのローカリゼーションと追跡のためのユニークな技術である音響慣性 … 続きを読む
Chain of Correction for Full-text Speech Recognition with Large Language Models
要約 自動音声認識(ASR)のための大規模な言語モデル(LLMS)とのフルテキス … 続きを読む
Medical Spoken Named Entity Recognition
要約 話された名前の名前のエンティティ認識(NER)は、スピーチから名前のエンテ … 続きを読む
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions
要約 大規模な言語モデル(LLM)の最近の進歩は、さまざまなドメインに革命をもた … 続きを読む
Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment
要約 うつ病やPTSDなどの精神障害の世界的な有病率の増加には、客観的でスケーラ … 続きを読む
Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation
要約 音声品質評価では、通常、平均意見スコア(MOS)やスピーカーの類似性(SI … 続きを読む