「cs.CV」カテゴリーアーカイブ

EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior

投稿日: 2024年10月30日作成者: jarxiv

要約 EEG に基づく視覚認識の再構築は、現在の研究の注目の的となっています。 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

投稿日: 2024年10月30日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

投稿日: 2024年10月30日作成者: jarxiv

要約文書解析は、契約書、学術論文、請求書などの非構造化文書および半構造化文書を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

投稿日: 2024年10月30日作成者: jarxiv

要約テキストから画像への拡散モデルは、非常に大規模な教師なしまたは弱く教師付き … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction

投稿日: 2024年10月29日作成者: jarxiv

要約 3D セマンティック占有予測は自動運転に不可欠な部分であり、シーンの幾何学 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar

投稿日: 2024年10月29日作成者: jarxiv

要約 3D 占有ベースの認識パイプラインは、詳細なシーンの説明をキャプチャし、さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera

投稿日: 2024年10月29日作成者: jarxiv

要約この論文では、「Guided Harmony」音楽ゲーム内にロボットカメ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.HC, cs.RO | コメントを受け付けていません

BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment

投稿日: 2024年10月29日作成者: jarxiv

要約自動運転と移動ロボット工学の分野では、Bird’s Eye V … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

投稿日: 2024年10月29日作成者: jarxiv

要約トランスフォーマーや CLIP などのビジョン言語モデル (VLM) の出 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

投稿日: 2024年10月29日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、その優れたマルチモーダル機能にもかかわ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

EEG-Driven 3D Object Reconstruction with Color Consistency and Diffusion Prior

AutoBench-V: Can Large Vision-Language Models Benchmark Themselves?

Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction

Aligning Text-to-Image Diffusion Models with Reward Backpropagation

WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar

Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera

BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment

CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

最近の投稿

最近のコメント

アーカイブ

カテゴリー