-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Reinforcing Multimodal Understanding and Generation with Dual Self-rewards
要約 大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデ … 続きを読む
SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design
要約 手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。 既存の … 続きを読む
Audio-Sync Video Generation with Multi-Stream Temporal Control
要約 オーディオは本質的に一時的であり、視覚的な世界と密接に同期されているため、 … 続きを読む
Dynamic View Synthesis as an Inverse Problem
要約 この作業では、トレーニングなしの設定での逆の問題として、単眼動画からの動的 … 続きを読む
Hidden in plain sight: VLMs overlook their visual representations
要約 言語は、視覚タスクのパフォーマンスを指定および評価するための自然なインター … 続きを読む
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion
要約 自己回帰ビデオ拡散モデルの新しいトレーニングパラダイムである自己強制を紹介 … 続きを読む
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
要約 マルチモーダル大手言語モデル(MLLMS)は、グラフィカルユーザーインター … 続きを読む
Vision Transformers Don’t Need Trained Registers
要約 視覚変圧器における以前に特定された現象の根底にあるメカニズムを調査します。 … 続きを読む
StableMTL: Repurposing Latent Diffusion Models for Multi-Task Learning from Partially Annotated Synthetic Datasets
要約 密な予測のためのマルチタスク学習は、すべてのタスクの広範な注釈の必要性によ … 続きを読む
Distillation Robustifies Unlearning
要約 現在のLLM学習方法は堅牢ではありません。それらは、微調整のいくつかのステ … 続きを読む