月別アーカイブ: 2024年3月

TOGS: Gaussian Splatting with Temporal Opacity Offset for Real-Time 4D DSA Rendering

投稿日: 2024年3月29日作成者: jarxiv

要約 4 次元デジタルサブトラクションアンギオグラフィー (4D DSA) … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

投稿日: 2024年3月29日作成者: jarxiv

要約大規模言語モデル (LLM) の最近の進歩により、マルチモーダル LLM … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs

投稿日: 2024年3月29日作成者: jarxiv

要約この論文では、Densely Connected Convolutiona … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.NE | コメントを受け付けていません

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

投稿日: 2024年3月29日作成者: jarxiv

要約 3D 高密度キャプションは、自然言語を通じて 3D シーンの包括的な理解を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Classifying Objects in 3D Point Clouds Using Recurrent Neural Network: A GRU LSTM Hybrid Approach

投稿日: 2024年3月29日作成者: jarxiv

要約 3D 点群内のオブジェクトの正確な分類は、自律ナビゲーションや拡張現実/仮 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Frame by Familiar Frame: Understanding Replication in Video Diffusion Models

投稿日: 2024年3月29日作成者: jarxiv

要約画像生成普及モデルの勢いに基づいて、ビデオベースの普及モデルへの関心が高ま … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Situation Awareness for Driver-Centric Driving Style Adaptation

投稿日: 2024年3月29日作成者: jarxiv

要約乗客の受け入れと信頼を高めるには、自動運転車の運転スタイルが重要であるとい … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.SY, eess.SY | コメントを受け付けていません

LocCa: Visual Pretraining with Location-aware Captioners

投稿日: 2024年3月29日作成者: jarxiv

要約画像キャプションは、対照的な事前トレーニングと同様の効果的な事前トレーニン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

投稿日: 2024年3月29日作成者: jarxiv

要約ゼロショット参照表現の理解は、提供されたテキストプロンプトに対応する画像 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

投稿日: 2024年3月29日作成者: jarxiv

要約 Text-to-image (T2I) 生成モデルは、写真のようにリアルな … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年3月

TOGS: Gaussian Splatting with Temporal Opacity Offset for Real-Time 4D DSA Rendering

Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective

DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs

TOD3Cap: Towards 3D Dense Captioning in Outdoor Scenes

Classifying Objects in 3D Point Clouds Using Recurrent Neural Network: A GRU LSTM Hybrid Approach

Frame by Familiar Frame: Understanding Replication in Video Diffusion Models

Situation Awareness for Driver-Centric Driving Style Adaptation

LocCa: Visual Pretraining with Location-aware Captioners

Zero-shot Referring Expression Comprehension via Structural Similarity Between Images and Captions

Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー