「cs.CV」カテゴリーアーカイブ

Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification

投稿日: 2025年6月4日作成者: jarxiv

要約近年、畳み込みニューラルネットワーク（CNN）の性能が大幅に向上している。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

ORV: 4D Occupancy-centric Robot Video Generation

投稿日: 2025年6月4日作成者: jarxiv

要約遠隔操作による実世界のロボットシミュレーションデータの取得は、時間と労力が … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis

投稿日: 2025年6月4日作成者: jarxiv

要約手術シミュレーションは、初心者の外科医を訓練し、学習曲線を加速させ、術中の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

投稿日: 2025年6月4日作成者: jarxiv

要約マルチモーダル大規模言語モデル(MLLM)の最新の進歩により、自律走行のた … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba

投稿日: 2025年6月4日作成者: jarxiv

要約人間と人間のインタラクション生成は、人間を社会的存在として理解する上で重要 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness

投稿日: 2025年6月4日作成者: jarxiv

要約物体認識のために訓練された畳み込みニューラルネットワーク（CNN）は、高い … 続きを読む →

カテゴリー: cs.CV, q-bio.NC | コメントを受け付けていません

DPO Learning with LLMs-Judge Signal for Computer Use Agents

投稿日: 2025年6月4日作成者: jarxiv

要約コンピュータ・ユース・エージェント（CUA）は、グラフィカル・ユーザー・イ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

投稿日: 2025年6月4日作成者: jarxiv

要約対照的言語-画像事前学習は、各モダリティ用の異なるエンコーダを介して、テキ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

投稿日: 2025年6月4日作成者: jarxiv

要約マルチモーダル大規模言語モデル（MLLM）は、テキストと画像の両方を介した … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

EgoVLM: Policy Optimization for Egocentric Video Understanding

投稿日: 2025年6月4日作成者: jarxiv

要約ウェアラブルカメラや自律型エージェントなど、新たな具現化AIアプリケーショ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Visual-TCAV: Concept-based Attribution and Saliency Maps for Post-hoc Explainability in Image Classification

ORV: 4D Occupancy-centric Robot Video Generation

SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation

InterMamba: Efficient Human-Human Interaction Generation with Adaptive Spatio-Temporal Mamba

Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness

DPO Learning with LLMs-Judge Signal for Computer Use Agents

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

EgoVLM: Policy Optimization for Egocentric Video Understanding

最近の投稿

最近のコメント

アーカイブ

カテゴリー