-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Scene Understanding Enabled Semantic Communication with Open Channel Coding
要約 通信システムがシンボル送信から意味のある情報を伝えることに移行するにつれて … 続きを読む
Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion 2.*
要約 拡散モデルを使用した画像生成は最近大きく進歩しましたが、その内部の潜在表現 … 続きを読む
カテゴリー: cs.CV
Training-Free Style and Content Transfer by Leveraging U-Net Skip Connections in Stable Diffusion 2.* はコメントを受け付けていません
CheapNVS: Real-Time On-Device Narrow-Baseline Novel View Synthesis
要約 シングルビューの新規ビュー合成 (NVS) は、その不適切な性質により悪名 … 続きを読む
カテゴリー: cs.CV
CheapNVS: Real-Time On-Device Narrow-Baseline Novel View Synthesis はコメントを受け付けていません
Trick-GS: A Balanced Bag of Tricks for Efficient Gaussian Splatting
要約 3D再建のためのガウススプラッティング(GS)は、迅速なトレーニング、推論 … 続きを読む
カテゴリー: cs.CV
Trick-GS: A Balanced Bag of Tricks for Efficient Gaussian Splatting はコメントを受け付けていません
Rethinking Encoder-Decoder Flow Through Shared Structures
要約 密な予測タスクは、エンコーダーアーキテクチャの複雑さを増しているため、デコ … 続きを読む
Leveraging ChatGPT’s Multimodal Vision Capabilities to Rank Satellite Images by Poverty Level: Advancing Tools for Social Science Research
要約 この論文では、村レベルの貧困予測のために衛星画像を分析するための視覚機能を … 続きを読む
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding
要約 人工知能 (AI) は、放射線科医を支援して医療画像の読影と診断の効率と精 … 続きを読む
カテゴリー: cs.CV
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding はコメントを受け付けていません
Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions
要約 最近の研究では、長く詳細な画像キャプションを使用したビジョン言語モデル ( … 続きを読む
An Interpretable X-ray Style Transfer via Trainable Local Laplacian Filter
要約 放射線科医は、診断パフォーマンスをサポートするためにニーズに手動で調整され … 続きを読む
Visual Localization via Semantic Structures in Autonomous Photovoltaic Power Plant Inspection
要約 太陽光発電(PV)発電所のメンテナンスでは、サーマルカメラを搭載した無人航 … 続きを読む