月別アーカイブ: 2024年6月

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

投稿日: 2024年6月13日作成者: jarxiv

要約視覚的な認識、理解、生成を単一のフレームワーク内で統合する、エンドツーエン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

投稿日: 2024年6月13日作成者: jarxiv

要約マルチモーダル言語言語モデル (MLLM) は、「ワールドモデル」、つま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

投稿日: 2024年6月13日作成者: jarxiv

要約画像とテキストが交互に配置されたデータは、自然な文書形式に配置された複数の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations

投稿日: 2024年6月13日作成者: jarxiv

要約 CARLA のようなシミュレートされた環境での自動運転 (AD) システム … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images

投稿日: 2024年6月13日作成者: jarxiv

要約病理組織画像における核の正確なセグメンテーションは、がんの診断にとって非常 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Diffusion Soup: Model Merging for Text-to-Image Diffusion Models

投稿日: 2024年6月13日作成者: jarxiv

要約シャーディングされたデータでトレーニングされた拡散モデルの重みを平均する、 … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | コメントを受け付けていません

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

投稿日: 2024年6月13日作成者: jarxiv

要約私たちは、高レベルのロジック仕様を活用してビデオデータの豊富な空間的およ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.LO | コメントを受け付けていません

Coherent Optical Modems for Full-Wavefield Lidar

投稿日: 2024年6月13日作成者: jarxiv

要約デジタル時代の到来により、コヒーレント光モデム、つまり複数の偏光状態で光の … 続きを読む →

カテゴリー: cs.CV, physics.optics | コメントを受け付けていません

Transformation-Dependent Adversarial Attacks

投稿日: 2024年6月13日作成者: jarxiv

要約我々は、変換依存型の敵対的攻撃を導入します。これは、単一の追加的な摂動が、 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement

投稿日: 2024年6月13日作成者: jarxiv

要約水中画像強調 (UIE) は海洋の研究や探検にとって重要ですが、複雑な色の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年6月

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations

AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images

Diffusion Soup: Model Merging for Text-to-Image Diffusion Models

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision

Coherent Optical Modems for Full-Wavefield Lidar

Transformation-Dependent Adversarial Attacks

PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement

最近の投稿

最近のコメント

アーカイブ

カテゴリー