「eess.AS」カテゴリーアーカイブ

An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication

投稿日: 2025年1月22日作成者: jarxiv

要約ウェイクワード検出は、AI アシスタントがユーザーの声を聞き、効果的に対話 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

投稿日: 2025年1月22日作成者: jarxiv

要約最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

How Redundant Is the Transformer Stack in Speech Representation Models?

投稿日: 2025年1月20日作成者: jarxiv

要約自己教師あり音声表現モデル、特にトランスアーキテクチャを活用したモデルは … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

投稿日: 2025年1月20日作成者: jarxiv

要約 kNN-CTC モデルは、単言語自動音声認識 (ASR) に有効であること … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

投稿日: 2025年1月20日作成者: jarxiv

要約音声言語理解 (SLU) は、音声の分野における構造予測タスクです。最近 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

投稿日: 2025年1月20日作成者: jarxiv

要約オーディオ信号処理における深層強化学習 (DRL) アプローチは近年大幅な … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

投稿日: 2025年1月20日作成者: jarxiv

要約以前のリアルタイム MRI (rtMRI) ベースの音声合成モデルは、ノイ … 続きを読む →

カテゴリー: cs.AI, cs.SD, eess.AS | コメントを受け付けていません

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

投稿日: 2025年1月20日作成者: jarxiv

要約自動音声認識 (ASR) システムは、構音障害のある音声に対してはパフォー … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation

投稿日: 2025年1月20日作成者: jarxiv

要約音声ガイド付きビデオオブジェクトセグメンテーション (A-VOS) と … 続きを読む →

カテゴリー: cs.CV, eess.AS, eess.IV | コメントを受け付けていません

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

投稿日: 2025年1月17日作成者: jarxiv

要約音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情 … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

「eess.AS」カテゴリーアーカイブ

An End-to-End Approach for Korean Wakeword Systems with Speaker Authentication

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

How Redundant Is the Transformer Stack in Speech Representation Models?

Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores

Joint Automatic Speech Recognition And Structure Learning For Better Speech Understanding

Audio-Driven Reinforcement Learning for Head-Orientation in Naturalistic Environments

MRI2Speech: Speech Synthesis from Articulatory Movements Recorded by Real-time MRI

Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR

Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

最近の投稿

最近のコメント

アーカイブ

カテゴリー