-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines
要約 検索エンジンでは未知の情報をテキストで検索することができます。 ただし、モ … 続きを読む
Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective
要約 概念の粒度に焦点を当てて、画像テキスト検索 (ITR) 評価パイプラインの … 続きを読む
Multi-modal AI for comprehensive breast cancer prognostication
要約 乳がんの治療選択は、分子サブタイプと臨床的特徴によって決まります。 再発リ … 続きを読む
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?
要約 Large Vision-Language Model (LVLM) は、 … 続きを読む
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior
要約 自己回帰 (AR) 生成モデルの現在のビデオ トークン化方法の制限を克服す … 続きを読む
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup
要約 近年、スケールアップは視覚と言語の分野で大きな成功をもたらしました。 しか … 続きを読む
On Inductive Biases That Enable Generalization of Diffusion Transformers
要約 UNet ベースのデノイザーを使用した拡散モデルの一般化を研究する最近の研 … 続きを読む
カテゴリー: cs.CV
On Inductive Biases That Enable Generalization of Diffusion Transformers はコメントを受け付けていません
Enhancing Action Recognition by Leveraging the Hierarchical Structure of Actions and Textual Context
要約 アクションの逐次実行と、さまざまな抽象化レベルで構成されるその階層構造は、 … 続きを読む
x-RAGE: eXtended Reality — Action & Gesture Events Dataset
要約 メタバースの出現と近年のウェアラブル デバイスへの注目により、ジェスチャ … 続きを読む
NeuroClips: Towards High-fidelity and Smooth fMRI-to-Video Reconstruction
要約 非侵襲脳活動からの静的視覚刺激の再構成 fMRI は、CLIP や安定拡散 … 続きを読む