cs.LG」カテゴリーアーカイブ

LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References

要約 通常、二時点画像の比較に依存する変更検出は、単一の画像しか利用できない場合 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | LaVIDE: A Language-Vision Discriminator for Detecting Changes in Satellite Image with Map References はコメントを受け付けていません

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos はコメントを受け付けていません

PerLA: Perceptive 3D Language Assistant

要約 大規模言語モデル (LLM) で 3D 物理世界を理解できるようにすること … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | PerLA: Perceptive 3D Language Assistant はコメントを受け付けていません

MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks

要約 最近、人間の動作分析は、ノイズ除去拡散モデルや大規模言語モデルなどの刺激的 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks はコメントを受け付けていません

A Survey on Multimodal Large Language Models

要約 最近、GPT-4V に代表されるマルチモーダル大規模言語モデル (MLLM … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | A Survey on Multimodal Large Language Models はコメントを受け付けていません

Feedback-driven object detection and iterative model improvement

要約 自動物体検出は、さまざまなアプリケーションにわたってますます価値が高まって … 続きを読む

カテゴリー: cs.CV, cs.LG | Feedback-driven object detection and iterative model improvement はコメントを受け付けていません

A Visual-inertial Localization Algorithm using Opportunistic Visual Beacons and Dead-Reckoning for GNSS-Denied Large-scale Applications

要約 スマートシティの発展に伴い、大規模な都市環境における継続的な歩行者ナビゲー … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.SP | A Visual-inertial Localization Algorithm using Opportunistic Visual Beacons and Dead-Reckoning for GNSS-Denied Large-scale Applications はコメントを受け付けていません

Towards Class-wise Robustness Analysis

要約 多くの下流タスクの解決には非常に成功していますが、ディープ ニューラル ネ … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Class-wise Robustness Analysis はコメントを受け付けていません

SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection

要約 この研究では、マルチビュー画像セマンティクスとレーダーおよびカメラ ポイン … 続きを読む

カテゴリー: cs.CV, cs.LG | SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection はコメントを受け付けていません

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

要約 異常セグメンテーションは、予期せぬイベントを認識する必要がある安全性が重要 … 続きを読む

カテゴリー: cs.CV, cs.LG | FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation はコメントを受け付けていません