-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation
要約 ニューラル ネットワーク アーキテクチャの設計では、多くの重要な決定を行う … 続きを読む
SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation
要約 画像からビデオへの生成方法は、印象的で写真のようにリアルな品質を実現しまし … 続きを読む
LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation
要約 ニューラル フィールドまたは暗黙的ニューラル表現 (INR) は、画像と … 続きを読む
HourVideo: 1-Hour Video-Language Understanding
要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む
Analyzing The Language of Visual Tokens
要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
要約 最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
要約 高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有 … 続きを読む
SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
要約 拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されて … 続きを読む
MEG: Medical Knowledge-Augmented Large Language Models for Question Answering
要約 質問応答は、明示的なコンテキストと、明言されていない関連分野の知識の両方に … 続きを読む
TableGPT2: A Large Multimodal Model with Tabular Data Integration
要約 GPT、Claude、LLaMA、Qwen などのモデルの出現により、AI … 続きを読む