-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration
要約 悪天候画像の復元は、悪天候によって引き起こされるかすみ、雨、雪などの望まし … 続きを読む
カテゴリー: cs.CV
TANet: Triplet Attention Network for All-In-One Adverse Weather Image Restoration はコメントを受け付けていません
RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image
要約 高品質の 3D 自動車アセットの生成は、ビデオ ゲーム、自動運転、仮想現実 … 続きを読む
カテゴリー: cs.CV
RGM: Reconstructing High-fidelity 3D Car Assets with Relightable 3D-GS Generative Model from a Single Image はコメントを受け付けていません
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models
要約 既存のマルチモーダル検索ベンチマークは、モデルが外部のテキスト知識を取得し … 続きを読む
Scaling Laws For Diffusion Transformers
要約 拡散トランス (DiT) は、画像やビデオの生成など、コンテンツの再作成に … 続きを読む
カテゴリー: cs.CV
Scaling Laws For Diffusion Transformers はコメントを受け付けていません
DifFRelight: Diffusion-Based Facial Performance Relighting
要約 拡散ベースの画像間の変換を使用した、自由視点の顔のパフォーマンスの再照明の … 続きを読む
SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation
要約 この論文では、ゼロショット オブジェクト ナビゲーションのための新しいフレ … 続きを読む
Poison-splat: Computation Cost Attack on 3D Gaussian Splatting
要約 画期的なパフォーマンスと効率性で知られる 3D ガウス スプラッティング … 続きを読む
HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation
要約 テキストから画像への拡散モデルの最近の進歩により、テキストのプロンプトによ … 続きを読む
カテゴリー: cs.CV
HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation はコメントを受け付けていません
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code
要約 コードは、その精度と精度により、大規模な言語モデルの数学的推論能力を強化す … 続きを読む
Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models
要約 CLIP のような対照的視覚言語モデル (VLM) は、さまざまな下流タス … 続きを読む