-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Temporal Action Localization with Enhanced Instant Discriminability
要約 時間的アクション検出 (TAD) は、トリミングされていないビデオ内のすべ … 続きを読む
Parallel and Limited Data Voice Conversion Using Stochastic Variational Deep Kernel Learning
要約 通常、音声変換はトレーニング データが限られているエンジニアリング上の問題 … 続きを読む
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation
要約 マルチモーダルからテキストへの生成タスク用の事前トレーニング済みトランスフ … 続きを読む
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
要約 画像合成における潜在拡散モデル (LDM) の目覚ましい成功に触発されて、 … 続きを読む
Deep Video Codec Control
要約 非可逆ビデオ圧縮は、ビデオ データを送信および保存するときに一般的に使用さ … 続きを読む
T2IW: Joint Text to Image & Watermark Generation
要約 テキスト条件付き画像生成モデルの最近の開発は、リアルな結果の生成に革命をも … 続きを読む
ArtHDR-Net: Perceptually Realistic and Accurate HDR Content Creation
要約 ハイ ダイナミック レンジ (HDR) コンテンツの作成は、現代のメディア … 続きを読む
ImageBind-LLM: Multi-modality Instruction Tuning
要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む
Generative Steganography Diffusion
要約 生成ステガノグラフィー (GS) は、機密データから直接ステゴ画像を生成す … 続きを読む
Extraction of Visual Information to Predict Crowdfunding Success
要約 研究者は、起業家の活動やダイナミクスについての洞察を得るために、ますますク … 続きを読む