月別アーカイブ: 2025年2月

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

投稿日: 2025年2月17日作成者: jarxiv

要約 30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection

投稿日: 2025年2月17日作成者: jarxiv

要約外れ方（OOD）検出は、既知のカテゴリと既知のカテゴリを区別することを目的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

投稿日: 2025年2月17日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、さまざまな視覚ベンチマークで優れていますが … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control

投稿日: 2025年2月17日作成者: jarxiv

要約私たちは、単一のパスで顕著な結果を達成するマルチインストラクション画像編集 … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

投稿日: 2025年2月17日作成者: jarxiv

要約日常のオブジェクトのマルチスペクトルミリ波（mmwave）画像の最初のデー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Probing Perceptual Constancy in Large Vision Language Models

投稿日: 2025年2月17日作成者: jarxiv

要約知覚的恒常性とは、距離、角度、照明の変動など、感覚入力の変化にもかかわらず … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study

投稿日: 2025年2月17日作成者: jarxiv

要約歯科用パノラマX線写真（DPR）は、包括的な口頭評価のために臨床診療で広く … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images

投稿日: 2025年2月17日作成者: jarxiv

要約医療画像セグメンテーションのための高度なディープラーニングモデルの展開は、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models

投稿日: 2025年2月17日作成者: jarxiv

要約従来のソーラー予測モデルは、数年のサイト固有の歴史的放射照度データに基づい … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Object Detection and Tracking

投稿日: 2025年2月17日作成者: jarxiv

要約効率的で正確なオブジェクト検出は、コンピュータービジョンシステムの開発にお … 続きを読む →

カテゴリー: cs.CV, cs.CY | コメントを受け付けていません

月別アーカイブ: 2025年2月

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Local-Prompt: Extensible Local Prompts for Few-Shot Out-of-Distribution Detection

VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

PromptArtisan: Multi-instruction Image Editing in Single Pass with Complete Attention Control

MITO: Enabling Non-Line-of-Sight Perception using Millimeter-waves through Real-World Datasets and Simulation Tools

Probing Perceptual Constancy in Large Vision Language Models

Artificial Intelligence to Assess Dental Findings from Panoramic Radiographs — A Multinational Study

QMaxViT-Unet+: A Query-Based MaxViT-Unet with Edge Enhancement for Scribble-Supervised Segmentation of Medical Images

SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models

Object Detection and Tracking

最近の投稿

最近のコメント

アーカイブ

カテゴリー