月別アーカイブ: 2024年2月

GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation

要約 文書内のオブジェクト検出は、階層構造とさまざまな要素間の関係を理解すること … 続きを読む

カテゴリー: cs.CV, cs.LG | GraphKD: Exploring Knowledge Distillation Towards Document Object Detection with Structured Graph Creation はコメントを受け付けていません

VideoPrism: A Foundational Visual Encoder for Video Understanding

要約 単一のフリーズされたモデルで多様なビデオ理解タスクに取り組む汎用ビデオ エ … 続きを読む

カテゴリー: cs.AI, cs.CV | VideoPrism: A Foundational Visual Encoder for Video Understanding はコメントを受け付けていません

How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

要約 マルチモーダル大規模言語モデル (MLLM) の目覚ましい進歩によっても、 … 続きを読む

カテゴリー: cs.CL, cs.CV | How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts はコメントを受け付けていません

Acquiring Weak Annotations for Tumor Localization in Temporal and Volumetric Data

要約 AI アルゴリズムをトレーニングするための大規模で十分に注釈が付けられたデ … 続きを読む

カテゴリー: cs.AI, cs.CV | Acquiring Weak Annotations for Tumor Localization in Temporal and Volumetric Data はコメントを受け付けていません

A Touch, Vision, and Language Dataset for Multimodal Alignment

要約 接触は人間にとって重要な感覚様式ですが、マルチモーダルな生成言語モデルには … 続きを読む

カテゴリー: cs.CV, cs.RO | A Touch, Vision, and Language Dataset for Multimodal Alignment はコメントを受け付けていません

AnoMalNet: Outlier Detection based Malaria Cell Image Classification Method Leveraging Deep Autoencoder

要約 クラスの不均衡は、医療画像からの疾患分類の分野で広く見られる問題です。 適 … 続きを読む

カテゴリー: cs.CV, eess.IV | AnoMalNet: Outlier Detection based Malaria Cell Image Classification Method Leveraging Deep Autoencoder はコメントを受け付けていません

VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

要約 大規模な運転デモンストレーションから人間らしい運転方針を学ぶことは有望です … 続きを読む

カテゴリー: cs.CV, cs.RO | VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning はコメントを受け付けていません

Video ReCap: Recursive Captioning of Hour-Long Videos

要約 ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低 … 続きを読む

カテゴリー: cs.CV | Video ReCap: Recursive Captioning of Hour-Long Videos はコメントを受け付けていません

FlashTex: Fast Relightable Mesh Texturing with LightControlNet

要約 3D メッシュのテクスチャを手動で作成するのは、熟練したビジュアル コンテ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | FlashTex: Fast Relightable Mesh Texturing with LightControlNet はコメントを受け付けていません

Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields

要約 この論文では、監視として 2D 画像のみを使用して、分解された低ランク テ … 続きを読む

カテゴリー: cs.CV | Improving Robustness for Joint Optimization of Camera Poses and Decomposed Low-Rank Tensorial Radiance Fields はコメントを受け付けていません