月別アーカイブ: 2025年2月

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

投稿日: 2025年2月4日作成者: jarxiv

要約遠隔カメラや無人航空機（UAV）を使用したコンピュータ・ビジョン・ベースの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

投稿日: 2025年2月4日作成者: jarxiv

要約最近、視覚的自己回帰($mathsf{VAR}$)モデルは、画像生成分野に … 続きを読む →

カテゴリー: cs.AI, cs.CC, cs.CV, cs.LG | コメントを受け付けていません

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

投稿日: 2025年2月4日作成者: jarxiv

要約テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な特徴 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Remote Blood Oxygen Estimation From Videos Using Neural Networks

投稿日: 2025年2月4日作成者: jarxiv

要約血中酸素飽和度（SpO$_2$）は呼吸機能の重要な指標であり、COVID- … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization

投稿日: 2025年2月4日作成者: jarxiv

要約このタスクの目的は、追加的な更新に基づいて、画像の前提条件とテキストの仮説 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition

投稿日: 2025年2月4日作成者: jarxiv

要約近年、映像理解における重要な役割のため、行動認識が注目され、広く応用されて … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Prompt-Aware Controllable Shadow Removal

投稿日: 2025年2月4日作成者: jarxiv

要約シャドウ除去は、シャドウ領域の画像コンテンツを復元することを目的としている … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

投稿日: 2025年2月4日作成者: jarxiv

要約視覚-言語-行動（VLA）モデルの最近の進歩は、汎化能力を向上させるために … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

投稿日: 2025年2月4日作成者: jarxiv

要約事前に学習された強力な視覚言語モデル（VLMs）バックエンドを活用した大規 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

OpenAI ChatGPT interprets Radiological Images: GPT-4 as a Medical Doctor for a Fast Check-Up

投稿日: 2025年2月4日作成者: jarxiv

要約 OpenAIは2022年11月に発表したChatGPTの成功を受けて、20 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年2月

A hierarchical semantic segmentation framework for computer vision-based bridge damage detection

On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

RichSpace: Enriching Text-to-Video Prompt Space via Text Embedding Interpolation

Remote Blood Oxygen Estimation From Videos Using Neural Networks

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization

HFGCN:Hypergraph Fusion Graph Convolutional Networks for Skeleton-Based Action Recognition

Prompt-Aware Controllable Shadow Removal

UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers

OpenAI ChatGPT interprets Radiological Images: GPT-4 as a Medical Doctor for a Fast Check-Up

最近の投稿

最近のコメント

アーカイブ

カテゴリー