「cs.CV」カテゴリーアーカイブ

Robust image classification with multi-modal large language models

投稿日: 2024年12月16日作成者: jarxiv

要約ディープニューラルネットワークは、敵対的な例、つまり、モデルが高い信頼 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Apollo: An Exploration of Video Understanding in Large Multimodal Models

投稿日: 2024年12月16日作成者: jarxiv

要約ビデオ認識機能は大規模マルチモーダルモデル (LMM) に急速に統合され … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

OP-LoRA: The Blessing of Dimensionality

投稿日: 2024年12月16日作成者: jarxiv

要約低ランクのアダプターを使用すると、少数のパラメーターのみで大規模なモデルを … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

A Grounded Typology of Word Classes

投稿日: 2024年12月16日作成者: jarxiv

要約私たちは言語類型論における意味に対する根拠に基づいたアプローチを提案します … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

投稿日: 2024年12月16日作成者: jarxiv

要約ビジョンベースの自動運転は、その満足のいく性能と低コストにより、大きな可能 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

投稿日: 2024年12月16日作成者: jarxiv

要約対照学習によってトレーニングされた視覚言語モデル (VLM) は、自然画像 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

投稿日: 2024年12月16日作成者: jarxiv

要約 3D 乗員予測は、周囲の状況を包括的に認識できるため、自動運転にとって重要 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Olympus: A Universal Task Router for Computer Vision Tasks

投稿日: 2024年12月16日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

投稿日: 2024年12月16日作成者: jarxiv

要約大規模マルチモーダルモデル (LMM) は、大規模な言語モデルを組み込む … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Hidden Biases of End-to-End Driving Datasets

投稿日: 2024年12月16日作成者: jarxiv

要約エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Robust image classification with multi-modal large language models

Apollo: An Exploration of Video Understanding in Large Multimodal Models

OP-LoRA: The Blessing of Dimensionality

A Grounded Typology of Word Classes

GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

GaussianWorld: Gaussian World Model for Streaming 3D Occupancy Prediction

Olympus: A Universal Task Router for Computer Vision Tasks

DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

Hidden Biases of End-to-End Driving Datasets

最近の投稿

最近のコメント

アーカイブ

カテゴリー