-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年1月
Linear Spaces of Meanings: Compositional Structures in Vision-Language Models
要約 私たちは、事前にトレーニングされたビジョン言語モデル (VLM) からデー … 続きを読む
PALP: Prompt Aligned Personalization of Text-to-Image Models
要約 コンテンツ作成者は多くの場合、従来のテキストから画像へのモデルの機能を超え … 続きを読む
Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via Self-supervised Learning
要約 シーケンス モデリングのアプローチは、ロボットの模倣学習において有望な結果 … 続きを読む
Gaussian Shadow Casting for Neural Characters
要約 ニューラル キャラクター モデルは、ビデオから詳細なジオメトリとテクスチャ … 続きを読む
カテゴリー: cs.CV
Gaussian Shadow Casting for Neural Characters はコメントを受け付けていません
Manipulating Feature Visualizations with Gradient Slingshots
要約 ディープ ニューラル ネットワーク (DNN) は、複雑で多彩な表現を学習 … 続きを読む
Dubbing for Everyone: Data-Efficient Visual Dubbing using Neural Rendering Priors
要約 ビジュアルダビングは、ビデオ内の俳優の唇の動きを生成して、指定されたオーデ … 続きを読む
E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation
要約 柔軟なリアルタイムのオンデバイス画像編集を可能にする非常に有望な方向性の … 続きを読む
Distilling Vision-Language Models on Millions of Videos
要約 視覚言語モデルの最近の進歩は、豊富な画像テキスト データに大きく起因してい … 続きを読む
カテゴリー: cs.CV
Distilling Vision-Language Models on Millions of Videos はコメントを受け付けていません
Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination
要約 個人の感情表現はソーシャル メディアを使用して広範囲に研究されていますが、 … 続きを読む
RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation
要約 私たちは、大規模言語モデル (LLM) のコンテキストで限られた計算量とメ … 続きを読む