-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
CausalQuest: Collecting Natural Causal Questions for AI Agents
要約 人間には因果関係を探ろうとする生来の本能があります。 好奇心や特定の目標に … 続きを読む
CoSy: Evaluating Textual Explanations of Neurons
要約 ディープ ニューラル ネットワーク (DNN) の複雑な性質を理解する上で … 続きを読む
On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization
要約 フューショット学習は、少数の例を与えられた新しいタスクに取り組むことができ … 続きを読む
Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study
要約 テキストと画像のモダリティを統合するマルチモーダル大規模言語モデル (ML … 続きを読む
Transformers and Slot Encoding for Sample Efficient Physical World Modelling
要約 世界モデリング、つまり世界の進化を予測するために世界を支配する規則の表現を … 続きを読む
Jina CLIP: Your CLIP Model Is Also Your Text Retriever
要約 Contrastive Language-Image Pretrainin … 続きを読む
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback
要約 Text-to-Image (T2I) 手法による高品質の人物画像の生成は … 続きを読む
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model
要約 我々は、高度な制御可能な画像アニメーション手法である MOFA-Video … 続きを読む
KerasCV and KerasNLP: Vision and Language Power-Ups
要約 コンピューター ビジョンおよび自然言語処理ワークフロー用の Keras A … 続きを読む
CV-VAE: A Compatible Video VAE for Latent Generative Video Models
要約 変分オートエンコーダー (VAE) などのネットワークを利用したビデオの時 … 続きを読む