月別アーカイブ: 2024年6月

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

要約 視覚的な認識、理解、生成を単一のフレームワーク内で統合する、エンドツーエン … 続きを読む

カテゴリー: cs.CV | VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks はコメントを受け付けていません

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

要約 マルチモーダル言語言語モデル (MLLM) は、「ワールド モデル」、つま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos はコメントを受け付けていません

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

要約 画像とテキストが交互に配置されたデータは、自然な文書形式に配置された複数の … 続きを読む

カテゴリー: cs.AI, cs.CV | OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text はコメントを受け付けていません

PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations

要約 CARLA のようなシミュレートされた環境での自動運転 (AD) システム … 続きを読む

カテゴリー: cs.CV, cs.RO | PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations はコメントを受け付けていません

AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images

要約 病理組織画像における核の正確なセグメンテーションは、がんの診断にとって非常 … 続きを読む

カテゴリー: cs.AI, cs.CV | AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images はコメントを受け付けていません

Diffusion Soup: Model Merging for Text-to-Image Diffusion Models

要約 シャーディングされたデータでトレーニングされた拡散モデルの重みを平均する、 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | Diffusion Soup: Model Merging for Text-to-Image Diffusion Models はコメントを受け付けていません

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

要約 私たちは、高レベルのロジック仕様を活用してビデオ データの豊富な空間的およ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.LO | LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision はコメントを受け付けていません

Coherent Optical Modems for Full-Wavefield Lidar

要約 デジタル時代の到来により、コヒーレント光モデム、つまり複数の偏光状態で光の … 続きを読む

カテゴリー: cs.CV, physics.optics | Coherent Optical Modems for Full-Wavefield Lidar はコメントを受け付けていません

Transformation-Dependent Adversarial Attacks

要約 我々は、変換依存型の敵対的攻撃を導入します。これは、単一の追加的な摂動が、 … 続きを読む

カテゴリー: cs.CV, cs.LG | Transformation-Dependent Adversarial Attacks はコメントを受け付けていません

PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement

要約 水中画像強調 (UIE) は海洋の研究や探検にとって重要ですが、複雑な色の … 続きを読む

カテゴリー: cs.CV | PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement はコメントを受け付けていません