-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing
要約 生成拡散モデルを利用したテキスト駆動のビデオ編集は、その潜在的な応用により … 続きを読む
カテゴリー: cs.CV
Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing はコメントを受け付けていません
Evaluating Utility of Memory Efficient Medical Image Generation: A Study on Lung Nodule Segmentation
要約 公的に利用可能な医療画像データが不足しているため、効果的な AI モデルの … 続きを読む
One Step Diffusion via Shortcut Models
要約 拡散モデルとフローマッチングモデルは、ノイズをデータに伝達する方法を学習す … 続きを読む
Development of Image Collection Method Using YOLO and Siamese Network
要約 ビッグデータの時代を迎える中、高品質なデータを収集することが非常に重要です … 続きを読む
Adaptive Prompt Learning with SAM for Few-shot Scanning Probe Microscope Image Segmentation
要約 Segment Anything Model (SAM) は、自然シーンの … 続きを読む
カテゴリー: cs.CV
Adaptive Prompt Learning with SAM for Few-shot Scanning Probe Microscope Image Segmentation はコメントを受け付けていません
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion
要約 大規模言語モデル (LLM) と基本ビジョン モデルの革命的な進歩の恩恵を … 続きを読む
カテゴリー: cs.CV
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion はコメントを受け付けていません
Adaptive Convolutional Neural Network for Image Super-resolution
要約 畳み込みニューラル ネットワークは、ディープ ネットワーク アーキテクチャ … 続きを読む
Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models
要約 大規模な画像とテキストのペアでトレーニングされた視覚言語事前トレーニング … 続きを読む
カテゴリー: cs.CV
Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models はコメントを受け付けていません
Self-DenseMobileNet: A Robust Framework for Lung Nodule Classification using Self-ONN and Stacking-based Meta-Classifier
要約 この研究では、胸部 X 線写真 (CXR) における結節と非結節の分類を強 … 続きを読む
Semantic Token Reweighting for Interpretable and Controllable Text Embeddings in CLIP
要約 CLIP などの視覚言語モデル (VLM) 内のテキスト エンコーダーは、 … 続きを読む