投稿者「jarxiv」のアーカイブ

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training

要約 対照的な損失で訓練されたビジョン言語モデル(VLM)は、さまざまなビジョン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training はコメントを受け付けていません

Vision as LoRA

要約 LLMをMLLMに変換するための新しいパラダイムであるLora(Vora) … 続きを読む

カテゴリー: cs.CL, cs.CV | Vision as LoRA はコメントを受け付けていません

Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data

要約 さまざまな時期やスペクトルバンドで衛星ベースのイメージングシステムによって … 続きを読む

カテゴリー: cs.AI, cs.CV | Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data はコメントを受け付けていません

Benchmarking Machine Learning Methods for Distributed Acoustic Sensing

要約 分散音響センシング(DAS)テクノロジーは、光ファイバーに沿った微小摂動の … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Benchmarking Machine Learning Methods for Distributed Acoustic Sensing はコメントを受け付けていません

GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection

要約 LIDARベースの3Dオープンボキャブラリー検出(3D OVD)のタスクで … 続きを読む

カテゴリー: cs.CV | GLRD: Global-Local Collaborative Reason and Debate with PSL for 3D Open-Vocabulary Detection はコメントを受け付けていません

Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound

要約 2D乳房超音波(BUS)と3D自動乳房超音波(ABUS)の両方における結節 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Flip Learning: Weakly Supervised Erase to Segment Nodules in Breast Ultrasound はコメントを受け付けていません

Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations

要約 クリップなどのビジョン言語対照学習フレームワークは、自然言語の監督から学習 … 続きを読む

カテゴリー: 68T07, 68T45, cs.CV, cs.LG, I.2.10 | Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations はコメントを受け付けていません

Data Augmentation in Earth Observation: A Diffusion Model Approach

要約 高品質の地球観測(EO)画像は、正確な分析とセクター全体で情報に基づいた意 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SE, I.2.m | Data Augmentation in Earth Observation: A Diffusion Model Approach はコメントを受け付けていません

MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約 ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数の … 続きを読む

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

Networking Systems for Video Anomaly Detection: A Tutorial and Survey

要約 オンラインビデオアプリケーションの急増と相まって、スマートシティでの監視カ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY | Networking Systems for Video Anomaly Detection: A Tutorial and Survey はコメントを受け付けていません