cs.CV」カテゴリーアーカイブ

CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting

要約 群集密度予測タスクは、観察された過去の群集密度マップから、群集密度マップが … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting はコメントを受け付けていません

Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee

要約 人間とロボットのコミュニケーションの進歩は、人間の信号をリアルタイムで正確 … 続きを読む

カテゴリー: cs.CV, cs.RO | Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee はコメントを受け付けていません

Mitigating the Impact of Noisy Edges on Graph-Based Algorithms via Adversarial Robustness Evaluation

要約 既存のグラフ構築方法では特定のデータセットに対して完全なグラフを生成できな … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | Mitigating the Impact of Noisy Edges on Graph-Based Algorithms via Adversarial Robustness Evaluation はコメントを受け付けていません

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion

要約 NOVIC は、自己回帰変換器を使用して分類ラベルを言語として生成的に出力 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion はコメントを受け付けていません

A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs

要約 マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせる … 続きを読む

カテゴリー: cs.CL, cs.CV | A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs はコメントを受け付けていません

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

要約 視覚言語生成報酬モデル (VL-GenRM) は、マルチモーダル AI シ … 続きを読む

カテゴリー: cs.CL, cs.CV | VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models はコメントを受け付けていません

FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval

要約 あるモダリティからクエリが与えられると、少数ショットクロスモーダル検索 ( … 続きを読む

カテゴリー: cs.CL, cs.CV | FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval はコメントを受け付けていません

Object-centric proto-symbolic behavioural reasoning from pixels

要約 自律型インテリジェント エージェントは、感覚入力や運動コマンドの低レベル空 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.NE, I.2.0 | Object-centric proto-symbolic behavioural reasoning from pixels はコメントを受け付けていません

Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction

要約 長いビデオを処理できるビジョン モデルをトレーニングする場合、ビデオの効率 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction はコメントを受け付けていません

A Survey on Multimodal Large Language Models

要約 最近、GPT-4V に代表されるマルチモーダル大規模言語モデル (MLLM … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | A Survey on Multimodal Large Language Models はコメントを受け付けていません