「cs.CV」カテゴリーアーカイブ

CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting

投稿日: 2024年11月27日作成者: jarxiv

要約群集密度予測タスクは、観察された過去の群集密度マップから、群集密度マップが … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee

投稿日: 2024年11月27日作成者: jarxiv

要約人間とロボットのコミュニケーションの進歩は、人間の信号をリアルタイムで正確 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Mitigating the Impact of Noisy Edges on Graph-Based Algorithms via Adversarial Robustness Evaluation

投稿日: 2024年11月27日作成者: jarxiv

要約既存のグラフ構築方法では特定のデータセットに対して完全なグラフを生成できな … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion

投稿日: 2024年11月27日作成者: jarxiv

要約 NOVIC は、自己回帰変換器を使用して分類ラベルを言語として生成的に出力 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs

投稿日: 2024年11月27日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の動作を人間の好みに合わせる … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

投稿日: 2024年11月27日作成者: jarxiv

要約視覚言語生成報酬モデル (VL-GenRM) は、マルチモーダル AI シ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval

投稿日: 2024年11月27日作成者: jarxiv

要約あるモダリティからクエリが与えられると、少数ショットクロスモーダル検索 ( … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Object-centric proto-symbolic behavioural reasoning from pixels

投稿日: 2024年11月27日作成者: jarxiv

要約自律型インテリジェントエージェントは、感覚入力や運動コマンドの低レベル空 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.NE, I.2.0 | コメントを受け付けていません

Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction

投稿日: 2024年11月27日作成者: jarxiv

要約長いビデオを処理できるビジョンモデルをトレーニングする場合、ビデオの効率 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

A Survey on Multimodal Large Language Models

投稿日: 2024年11月27日作成者: jarxiv

要約最近、GPT-4V に代表されるマルチモーダル大規模言語モデル (MLLM … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

CrowdMAC: Masked Crowd Density Completion for Robust Crowd Density Forecasting

Real-Time Multimodal Signal Processing for HRI in RoboCup: Understanding a Human Referee

Mitigating the Impact of Noisy Edges on Graph-Based Algorithms via Adversarial Robustness Evaluation

Unconstrained Open Vocabulary Image Classification: Zero-Shot Transfer from Text to Image via CLIP Inversion

A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs

VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval

Object-centric proto-symbolic behavioural reasoning from pixels

Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction

A Survey on Multimodal Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー