-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Agentic 3D Scene Generation with Spatially Contextualized VLMs
要約 ビジョン言語モデル(VLM)によって有効になったマルチモーダルコンテンツ生 … 続きを読む
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
要約 大規模な言語モデル(LLMS)の急速な進歩は、単一のフレームワーク内で視覚 … 続きを読む
カテゴリー: cs.CV
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities はコメントを受け付けていません
Improvement Strategies for Few-Shot Learning in OCT Image Classification of Rare Retinal Diseases
要約 このペーパーでは、少数のショット学習を使用して、OCT診断画像を主要かつ希 … 続きを読む
Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models
要約 大規模な自然なシーン画像で対比訓練された視覚エンコーダーの恩恵を受けて、大 … 続きを読む
HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters
要約 近年、オーディオ駆動型の人間のアニメーションの大きな進歩が目撃されています … 続きを読む
カテゴリー: cs.CV
HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters はコメントを受け付けていません
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs
要約 マルチモーダル大手言語モデル(MLLM)は、多様なタスク全体で顕著な能力を … 続きを読む
カテゴリー: cs.CV
STAR-R1: Spatial TrAnsformation Reasoning by Reinforcing Multimodal LLMs はコメントを受け付けていません
Long-Context State-Space Video World Models
要約 ビデオ拡散モデルは最近、アクションを条件とする自己回帰フレーム予測を通じて … 続きを読む
カテゴリー: cs.CV
Long-Context State-Space Video World Models はコメントを受け付けていません
AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition
要約 輝度が高い時間分解能で変化するイベントカメラは、本質的に重要なオブジェクト … 続きを読む
カテゴリー: cs.CV
AW-GATCN: Adaptive Weighted Graph Attention Convolutional Network for Event Camera Data Joint Denoising and Object Recognition はコメントを受け付けていません
EVM-Fusion: An Explainable Vision Mamba Architecture with Neural Algorithmic Fusion
要約 医療画像の分類は臨床的意思決定には重要ですが、正確性、解釈可能性、一般化に … 続きを読む
PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology
要約 Pathology Foundationモデルの出現は、計算組織病理学に革 … 続きを読む
カテゴリー: cs.CV
PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology はコメントを受け付けていません