「cs.CV」カテゴリーアーカイブ

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

投稿日: 2024年9月4日作成者: jarxiv

要約近年のディープラーニング技術の進歩により、マルチモーダルな医療データに基づ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | コメントを受け付けていません

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

投稿日: 2024年9月4日作成者: jarxiv

要約現在のマルチモーダル大規模言語モデル（MLLM）は、文書画像に典型的な高解 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Image-Based Virtual Try-On: A Survey

投稿日: 2024年9月4日作成者: jarxiv

要約画像ベースのバーチャル試着は、自然な服装をした人物の画像と衣服の画像を合成 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning from the Web: Language Drives Weakly-Supervised Incremental Learning for Semantic Segmentation

投稿日: 2024年9月4日作成者: jarxiv

要約現在の弱教師付き逐次学習によるセマンティックセグメンテーション（WILSS … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Correlation-Embedded Transformer Tracking: A Single-Branch Framework

投稿日: 2024年9月4日作成者: jarxiv

要約ロバストで識別可能な外観モデルの開発は、視覚物体追跡における長年の研究課題 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

投稿日: 2024年9月4日作成者: jarxiv

要約本論文では、表現学習の自然な目的は、データの分布、例えばトークンの集合を、 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

投稿日: 2024年9月4日作成者: jarxiv

要約変換器は点群学習タスクに革命をもたらしたが、2次関数的な複雑さが長いシーケ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation

投稿日: 2024年9月4日作成者: jarxiv

要約セグメント何でもモデル（Segment Anything Model: S … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review

投稿日: 2024年9月4日作成者: jarxiv

要約先進国における高齢者の割合が世界的に増加するにつれ、この集団の健康管理、特 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning Exposure Correction in Dynamic Scenes

投稿日: 2024年9月4日作成者: jarxiv

要約露出補正は、不適切な露出に起因する視覚データを補正することを目的としており … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers

DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming

Image-Based Virtual Try-On: A Survey

Learning from the Web: Language Drives Weakly-Supervised Incremental Learning for Semantic Segmentation

Correlation-Embedded Transformer Tracking: A Single-Branch Framework

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation

Deep Learning for Computer Vision based Activity Recognition and Fall Detection of the Elderly: a Systematic Review

Learning Exposure Correction in Dynamic Scenes

最近の投稿

最近のコメント

アーカイブ

カテゴリー