投稿者「jarxiv」のアーカイブ

Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation

投稿日: 2025年5月28日作成者: jarxiv

要約変圧器ベースの3Dヒトポーズ推定方法は、シーケンス長に関する二次複雑さのた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios

投稿日: 2025年5月28日作成者: jarxiv

要約検出、予測、または分類タスクのコンピュータービジョン（CV）モデルは、リア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism

投稿日: 2025年5月28日作成者: jarxiv

要約葉の画像からの植物疾患の検出の強化は、標識データが不足していることと複雑な … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

efunc: An Efficient Function Representation without Neural Networks

投稿日: 2025年5月28日作成者: jarxiv

要約関数フィッティング/近似は、コンピューターグラフィックスおよびその他のエン … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

投稿日: 2025年5月28日作成者: jarxiv

要約 Video Virtual Try-On（VVT）は、連続したビデオフレー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

投稿日: 2025年5月28日作成者: jarxiv

要約論理的推論は、人間の知性の基本的な側面であり、マルチモーダル大手言語モデル … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

投稿日: 2025年5月28日作成者: jarxiv

要約スーパー解像度（SR）の拡散モデルは、高品質の視覚的結果を生成しますが、高 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

投稿日: 2025年5月28日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）は、静的画像から光学文字認識（OC … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HoliTom: Holistic Token Merging for Fast Video Large Language Models

投稿日: 2025年5月28日作成者: jarxiv

要約ビデオ大規模な言語モデル（ビデオLLM）はビデオ理解に優れていますが、冗長 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Structure from Collision

投稿日: 2025年5月28日作成者: jarxiv

要約ニューラル放射輝度フィールド（NERF）や3Dガウススプラッティング（3D … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation

SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios

Efficient Leaf Disease Classification and Segmentation using Midpoint Normalization Technique and Attention Mechanism

efunc: An Efficient Function Representation without Neural Networks

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs

One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios

HoliTom: Holistic Token Merging for Fast Video Large Language Models

Structure from Collision

最近の投稿

最近のコメント

アーカイブ

カテゴリー