cs.CV」カテゴリーアーカイブ

EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior

要約 EEG に基づく視覚認識の再構築は、現在の研究の注目の的となっています。 … 続きを読む

カテゴリー: cs.AI, cs.CV | EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior はコメントを受け付けていません

AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? はコメントを受け付けていません

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

要約 文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction はコメントを受け付けていません

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

要約 テキストから画像への拡散モデルは、非常に大規模な教師なしまたは弱く教師付き … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aligning Text-to-Image Diffusion Models with Reward Backpropagation はコメントを受け付けていません

WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction

要約 3D セマンティック占有予測は自動運転に不可欠な部分であり、シーンの幾何学 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction はコメントを受け付けていません

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar

要約 3D 占有ベースの認識パイプラインは、詳細なシーンの説明をキャプチャし、さ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar はコメントを受け付けていません

Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera

要約 この論文では、「Guided Harmony」音楽ゲーム内にロボット カメ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera はコメントを受け付けていません

BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment

要約 自動運転と移動ロボット工学の分野では、Bird’s Eye V … 続きを読む

カテゴリー: cs.CV, cs.RO | BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment はコメントを受け付けていません

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

要約 トランスフォーマーや CLIP などのビジョン言語モデル (VLM) の出 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning はコメントを受け付けていません

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

要約 ビジョン言語モデル (VLM) は、その優れたマルチモーダル機能にもかかわ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks はコメントを受け付けていません