-
最近の投稿
- Cybernetic Marionette: Channeling Collective Agency Through a Wearable Robot in a Live Dancer-Robot Duet
- Leveraging LLMs for Mission Planning in Precision Agriculture
- Estimating the Joint Probability of Scenario Parameters with Gaussian Mixture Copula Models
- One For All: LLM-based Heterogeneous Mission Planning in Precision Agriculture
- Provable Sim-to-Real Transfer via Offline Domain Randomization
-
最近のコメント
表示できるコメントはありません。 cs.AI (39605) cs.CL (29980) cs.CV (44945) cs.HC (3015) cs.LG (44541) cs.RO (23689) cs.SY (3609) eess.IV (5149) eess.SY (3601) stat.ML (5787)
「eess.AS」カテゴリーアーカイブ
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 最近のマルチモーダル大規模言語モデル (MLLM) は通常、視覚的モダリテ … 続きを読む
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む
Salmon: A Suite for Acoustic Language Model Evaluation
要約 音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています … 続きを読む
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models
要約 話者属性自動音声認識 (SA-ASR) は、音声を文字に起こしながら、対応 … 続きを読む
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
要約 近年、画像合成やテキスト生成の分野でAIGC(Artificial Int … 続きを読む
Transformers and Large Language Models for Efficient Intrusion Detection Systems: A Comprehensive Survey
要約 Transformers LLM の大幅な進歩により、NLP はテキスト生 … 続きを読む
AdaptVC: High Quality Voice Conversion with Adaptive Learning
要約 音声変換の目標は、元の内容を保持しながら、ソース話者の音声を基準話者の音声 … 続きを読む
Optimizing Speech Multi-View Feature Fusion through Conditional Computation
要約 最近の進歩により、さまざまな音声関連タスクにおける自己教師あり学習 (SS … 続きを読む
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む