cs.CV」カテゴリーアーカイブ

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

要約 拡散モデルは、現実的なデータ統合、予測エンドツーエンド計画、および閉ループ … 続きを読む

カテゴリー: cs.CV | X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability はコメントを受け付けていません

AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability

要約 慣性模範(IO)のみを使用した慣性臭気(IO)(IMUS)は、無人航空機( … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AirIO: Learning Inertial Odometry with Enhanced IMU Feature Observability はコメントを受け付けていません

MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models

要約 複数のビデオフレーム機能を圧縮する前に、大規模なマルチモーダルモデルにフィ … 続きを読む

カテゴリー: cs.CV | MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models はコメントを受け付けていません

Integrated Pipeline for Monocular 3D Reconstruction and Finite Element Simulation in Industrial Applications

要約 機器の展開の難しさや、精度とリアルタイムのパフォーマンスのバランスをとるこ … 続きを読む

カテゴリー: cs.CV | Integrated Pipeline for Monocular 3D Reconstruction and Finite Element Simulation in Industrial Applications はコメントを受け付けていません

Flexible-length Text Infilling for Discrete Diffusion Models

要約 離散拡散モデルは、自己回帰モデルと比較して、双方向コンテキストの使用、並列 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Flexible-length Text Infilling for Discrete Diffusion Models はコメントを受け付けていません

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

要約 現在の最先端の非参照画像品質評価(NR-IQA)メソッドは、通常、すべての … 続きを読む

カテゴリー: cs.CV | Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity はコメントを受け付けていません

Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors

要約 ニューラルネットワークは、特にがんの検出と分類において、医療診断の標準的な … 続きを読む

カテゴリー: cs.CV | Evaluation of Vision Transformers for Multimodal Image Classification: A Case Study on Brain, Lung, and Kidney Tumors はコメントを受け付けていません

Omni-AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented for Efficient Long Video Understanding

要約 マルチモーダル大手言語モデル(MLLM)は、固定されたコンテキストウィンド … 続きを読む

カテゴリー: cs.CV | Omni-AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented for Efficient Long Video Understanding はコメントを受け付けていません

Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching

要約 事前に訓練された2D拡散モデルを3D資産に蒸留することで、テキストから3D … 続きを読む

カテゴリー: cs.CV | Dive3D: Diverse Distillation-based Text-to-3D Generation via Score Implicit Matching はコメントを受け付けていません

Adaptive Sensitivity Analysis for Robust Augmentation against Natural Corruptions in Image Segmentation

要約 画像セグメンテーションモデルで堅牢性を達成することは、ピクセルレベルの分類 … 続きを読む

カテゴリー: cs.CV | Adaptive Sensitivity Analysis for Robust Augmentation against Natural Corruptions in Image Segmentation はコメントを受け付けていません