月別アーカイブ: 2024年4月

High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark

投稿日: 2024年4月2日作成者: jarxiv

要約リモートセンシング画像から湖を抽出することは、湖の形状やデータノイズが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition

投稿日: 2024年4月2日作成者: jarxiv

要約最近のタッチスクリーンデバイスの使用の急増により、フリーハンドスケッチ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

投稿日: 2024年4月2日作成者: jarxiv

要約パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion

投稿日: 2024年4月2日作成者: jarxiv

要約深層学習では、ラベル付きデータを必要とせずにモデルを微調整する方法として、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Multi-Channel Orthogonal Transform-Based Perceptron Layers for Efficient ResNets

投稿日: 2024年4月2日作成者: jarxiv

要約この論文では、畳み込みニューラルネットワーク (CNN) の $3\ti … 続きを読む →

カテゴリー: cs.CV, eess.IV, eess.SP | コメントを受け付けていません

Modular Blind Video Quality Assessment

投稿日: 2024年4月2日作成者: jarxiv

要約ブラインドビデオ品質評価 (BVQA) は、幅広いビデオベースのプラット … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates

投稿日: 2024年4月2日作成者: jarxiv

要約ニューラル放射輝度フィールドは、ニューラルシーン表現とボリュームレンダ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A New Benchmark and Model for Challenging Image Manipulation Detection

投稿日: 2024年4月2日作成者: jarxiv

要約マルチメディアデータの改ざんを検出する機能は、デジタルフォレンジックに … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

投稿日: 2024年4月2日作成者: jarxiv

要約都市環境における自動運転の主なハードルは、困難な道路状況や繊細な人間の行動 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Object Recognition as Next Token Prediction

投稿日: 2024年4月2日作成者: jarxiv

要約次のトークンの予測としてオブジェクト認識をポーズするアプローチを紹介します … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

High-Fidelity Lake Extraction via Two-Stage Prompt Enhancement: Establishing a Novel Baseline and Benchmark

Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition

Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization

C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion

Multi-Channel Orthogonal Transform-Based Perceptron Layers for Efficient ResNets

Modular Blind Video Quality Assessment

Language-driven Object Fusion into Neural Radiance Fields with Pose-Conditioned Dataset Updates

A New Benchmark and Model for Challenging Image Manipulation Detection

DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

Object Recognition as Next Token Prediction

最近の投稿

最近のコメント

アーカイブ

カテゴリー