-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「eess.AS」カテゴリーアーカイブ
DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data
要約 タイトル:クリーンデーターが不要な機械学習分散型音響センシング(DAS)ノ … 続きを読む
カテゴリー: cs.LG, cs.SD, eess.AS, physics.geo-ph
DAS-N2N: Machine learning Distributed Acoustic Sensing (DAS) signal denoising without clean data はコメントを受け付けていません
A CTC Alignment-based Non-autoregressive Transformer for End-to-end Automatic Speech Recognition
要約 タイトル: End-to-end自動音声認識のためのCTCアラインメントベ … 続きを読む
E2E Spoken Entity Extraction for Virtual Agents
要約 タイトル:バーチャルエージェントのためのE2E音声エンティティ抽出 要約: … 続きを読む
How does ChatGPT rate sound semantics?
要約 タイトル:ChatGPTは音声意味をどのように評価するか? 要約:  … 続きを読む
Prak: An automatic phonetic alignment tool for Czech
要約 タイトル:チェコ語の自動音声音韻アライメントツールである「Prak」 要約 … 続きを読む
A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers
要約 タイトル:航空交通管制官のトレーニングのための仮想シミュレーションパイロッ … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 タイトル:ビジョン・オーディオ・ランゲージ・オムニパーセプションの事前学習 … 続きを読む
Conditional Generation of Audio from Video via Foley Analogies
要約 タイトル:映像からの音声生成におけるFoleyアナロジーによる条件付け生成 … 続きを読む
Efficient Sequence Transduction by Jointly Predicting Tokens and Durations
要約 タイトル:トークンと期間を共同予測することによる効率的なシーケンス変換 要 … 続きを読む
HCAM — Hierarchical Cross Attention Model for Multi-modal Emotion Recognition
要約 タイトル: HCAM – マルチモーダル感情認識のための階層的 … 続きを読む