-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition
要約 コード認識は、音楽分析におけるコードの抽象的で記述的な性質のため、音楽情報 … 続きを読む
Steering the LoCoMotif: Using Domain Knowledge in Time Series Motif Discovery
要約 時系列モチーフディスカバリー(TSMD)は、時系列データの繰り返しパターン … 続きを読む
iFormer: Integrating ConvNet and Transformer for Mobile Application
要約 Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいフ … 続きを読む
DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation
要約 この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパ … 続きを読む
GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs
要約 マルチモーダル大手言語モデル(MLLMS)の急速な開発により、テキストや画 … 続きを読む
Do Large Multimodal Models Solve Caption Generation for Scientific Figures? Lessons Learned from SCICAP Challenge 2023
要約 SCICAPデータセットが2021年に開始されて以来、研究コミュニティは学 … 続きを読む
Learning Generalizable Prompt for CLIP with Class Similarity Knowledge
要約 Vision-Language Models(VLMS)では、迅速なチュー … 続きを読む
Characterizing Photorealism and Artifacts in Diffusion Model-Generated Images
要約 拡散モデルで生成された画像は、本物の写真と区別できないように見える場合があ … 続きを読む
Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models
要約 実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要 … 続きを読む
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation
要約 統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な … 続きを読む