-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
AI-Driven Diabetic Retinopathy Screening: Multicentric Validation of AIDRSS in India
要約 目的: 糖尿病性網膜症 (DR) は、特にインドにおいては視力喪失の主な原 … 続きを読む
Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine
要約 近年、マルチモーダル大規模言語モデル (MLLM) が顕著な進歩を遂げ、イ … 続きを読む
MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning
要約 画像キャプションは、コンピューター ビジョンと自然言語処理が交わる重要なタ … 続きを読む
Long Story Short: Story-level Video Understanding from 20K Short Films
要約 視覚言語モデルの最近の開発により、ビデオの理解が大幅に進歩しました。 ただ … 続きを読む
VLM-driven Behavior Tree for Context-aware Task Planning
要約 ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) … 続きを読む
VideoRAG: Retrieval-Augmented Generation over Video Corpus
要約 検索拡張生成 (RAG) は、クエリに関連する外部知識を取得し、それを生成 … 続きを読む
Gender Bias in Text-to-Video Generation Models: A case study of Sora
要約 テキストからビデオへの生成モデルの出現は、テキストのプロンプトから高品質の … 続きを読む
EDNet: Edge-Optimized Small Target Detection in UAV Imagery — Faster Context Attention, Better Feature Fusion, and Hardware Acceleration
要約 低解像度、複雑な背景、ダイナミックなシーンのため、ドローン画像内の小さなタ … 続きを読む
Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger
要約 参照なし画像品質評価 (NR-IQA) は、参照を使用せずに単一の入力画像 … 続きを読む
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
要約 マルチモーダル大規模言語モデル (MLLM) は、一般的なタスクには習熟し … 続きを読む