月別アーカイブ: 2024年4月

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics

投稿日: 2024年4月11日作成者: jarxiv

要約最近出現したテキストからモーションへの進歩により、便利でインタラクティブな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Building-road Collaborative Extraction from Remotely Sensed Images via Cross-Interaction

投稿日: 2024年4月11日作成者: jarxiv

要約建物は社会的生産と人間の生活の基本的な担い手です。道路はソーシャルネッ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Data-Efficient Multimodal Fusion on a Single GPU

投稿日: 2024年4月11日作成者: jarxiv

要約マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Diffusion-based inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion

投稿日: 2024年4月11日作成者: jarxiv

要約フラクショナルブラウン軌道 (fBm) は、ランダム性と強力なスケールフリ … 続きを読む →

カテゴリー: 68T07, cs.CV, I.2.0 | コメントを受け付けていません

ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling

投稿日: 2024年4月11日作成者: jarxiv

要約毎日、世界中で数え切れないほどの手術が手術室 (OR) の個別の環境で行わ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VMamba: Visual State Space Model

投稿日: 2024年4月11日作成者: jarxiv

要約畳み込みニューラルネットワーク (CNN) とビジョントランスフォーマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Evidential-enhanced Tri-Branch Consistency Learning Method for Semi-supervised Medical Image Segmentation

投稿日: 2024年4月11日作成者: jarxiv

要約半教師ありセグメンテーションは、大規模な医用画像分析に有望なアプローチを提 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Identification of Fine-grained Systematic Errors via Controlled Scene Generation

投稿日: 2024年4月11日作成者: jarxiv

要約多くの安全性が重要なアプリケーション、特に自動運転では、信頼性の高い物体検 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model

投稿日: 2024年4月11日作成者: jarxiv

要約コンピュータビジョンの分野では、可視光画像は暗い環境ではコントラストが低 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

投稿日: 2024年4月11日作成者: jarxiv

要約文脈の中で感情を認識するには、周囲のシーンからの文脈上の手がかりを考慮して … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

月別アーカイブ: 2024年4月

BOTH2Hands: Inferring 3D Hands from Both Text Prompts and Body Dynamics

Building-road Collaborative Extraction from Remotely Sensed Images via Cross-Interaction

Data-Efficient Multimodal Fusion on a Single GPU

Diffusion-based inpainting of incomplete Euclidean distance matrices of trajectories generated by a fractional Brownian motion

ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling

VMamba: Visual State Space Model

An Evidential-enhanced Tri-Branch Consistency Learning Method for Semi-supervised Medical Image Segmentation

Identification of Fine-grained Systematic Errors via Controlled Scene Generation

Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model

VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning

最近の投稿

最近のコメント

アーカイブ

カテゴリー