月別アーカイブ: 2025年1月

CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation

投稿日: 2025年1月16日作成者: jarxiv

要約大規模な 3D シーンでのテキスト説明のローカライズは、本質的にあいまいな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

投稿日: 2025年1月16日作成者: jarxiv

要約 3D シーンの生成は近年ますます注目を集めており、大きな進歩を遂げています … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SA-MLP: A Low-Power Multiplication-Free Deep Network for 3D Point Cloud Classification in Resource-Constrained Environments

投稿日: 2025年1月16日作成者: jarxiv

要約点群分類は、自動運転車、ロボット工学、環境モニタリングなどのアプリケーショ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RepVideo: Rethinking Cross-Layer Representation for Video Generation

投稿日: 2025年1月16日作成者: jarxiv

要約ビデオ生成は拡散モデルの導入により目覚ましい進歩を遂げ、生成されるビデオの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A General Framework for Inference-time Scaling and Steering of Diffusion Models

投稿日: 2025年1月16日作成者: jarxiv

要約拡散モデルは、画像やビデオからタンパク質の設計やテキストに至るまで、さまざ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems

投稿日: 2025年1月16日作成者: jarxiv

要約サラウンドビューシステム (SVS) は、先進運転支援システム (ADA … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vision Foundation Models for Computed Tomography

投稿日: 2025年1月16日作成者: jarxiv

要約財団モデル (FM) は、画像診断モダリティ全体で多様で複雑なタスクを実行 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains

投稿日: 2025年1月16日作成者: jarxiv

要約最近のブレ除去ネットワークは、ぼやけた画像から鮮明な画像を効果的に復元しま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation

投稿日: 2025年1月16日作成者: jarxiv

要約外科データの取得と注釈付けは多くの場合、リソースを大量に消費し、倫理的な制 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

投稿日: 2025年1月16日作成者: jarxiv

要約我々は、芸術作品の美しさを評価するためにマルチモーダルLLM（MLLM）の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

月別アーカイブ: 2025年1月

CityLoc: 6 DoF Localization of Text Descriptions in Large-Scale Scenes with Gaussian Representation

CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

SA-MLP: A Low-Power Multiplication-Free Deep Network for 3D Point Cloud Classification in Resource-Constrained Environments

RepVideo: Rethinking Cross-Layer Representation for Video Generation

A General Framework for Inference-time Scaling and Steering of Diffusion Models

Click-Calib: A Robust Extrinsic Calibration Method for Surround-View Systems

Vision Foundation Models for Computed Tomography

DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains

SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

最近の投稿

最近のコメント

アーカイブ

カテゴリー