-
最近のコメント
表示できるコメントはありません。 cs.AI (28467) cs.CL (21517) cs.CR (2224) cs.CV (35089) cs.LG (33223) cs.RO (16421) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4459)
月別アーカイブ: 2024年6月
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks
要約 視覚的な認識、理解、生成を単一のフレームワーク内で統合する、エンドツーエン … 続きを読む
カテゴリー: cs.CV
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks はコメントを受け付けていません
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
要約 マルチモーダル言語言語モデル (MLLM) は、「ワールド モデル」、つま … 続きを読む
OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text
要約 画像とテキストが交互に配置されたデータは、自然な文書形式に配置された複数の … 続きを読む
PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations
要約 CARLA のようなシミュレートされた環境での自動運転 (AD) システム … 続きを読む
AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images
要約 病理組織画像における核の正確なセグメンテーションは、がんの診断にとって非常 … 続きを読む
Diffusion Soup: Model Merging for Text-to-Image Diffusion Models
要約 シャーディングされたデータでトレーニングされた拡散モデルの重みを平均する、 … 続きを読む
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision
要約 私たちは、高レベルのロジック仕様を活用してビデオ データの豊富な空間的およ … 続きを読む
Coherent Optical Modems for Full-Wavefield Lidar
要約 デジタル時代の到来により、コヒーレント光モデム、つまり複数の偏光状態で光の … 続きを読む
カテゴリー: cs.CV, physics.optics
Coherent Optical Modems for Full-Wavefield Lidar はコメントを受け付けていません
Transformation-Dependent Adversarial Attacks
要約 我々は、変換依存型の敵対的攻撃を導入します。これは、単一の追加的な摂動が、 … 続きを読む
PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement
要約 水中画像強調 (UIE) は海洋の研究や探検にとって重要ですが、複雑な色の … 続きを読む
カテゴリー: cs.CV
PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement はコメントを受け付けていません