cs.LG」カテゴリーアーカイブ

PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

要約 ディープラーニング技術により、コンピュータービジョンテクノロジーの大幅な改 … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches はコメントを受け付けていません

Post-hoc Probabilistic Vision-Language Models

要約 クリップやSiglipなどのビジョン言語モデル(VLM)は、分類、検索、お … 続きを読む

カテゴリー: cs.CV, cs.LG | Post-hoc Probabilistic Vision-Language Models はコメントを受け付けていません

Efficient Estimation of Regularized Tyler’s M-Estimator Using Approximate LOOCV

要約 正則化係数$ \ alpha \ in(0,1)$を正規化する係数$ \ … 続きを読む

カテゴリー: cs.CE, cs.CV, cs.LG, eess.SP, I.2.0, stat.ML | Efficient Estimation of Regularized Tyler’s M-Estimator Using Approximate LOOCV はコメントを受け付けていません

Deep Augmentation: Dropout as Augmentation for Self-Supervised Learning

要約 ドロップアウトの機械学習における普及にもかかわらず、データ増強の形態として … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Deep Augmentation: Dropout as Augmentation for Self-Supervised Learning はコメントを受け付けていません

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

要約 超音波は、グローバルなヘルスケアにとって重要なイメージングモダリティですが … 続きを読む

カテゴリー: cs.CV, cs.LG | U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding はコメントを受け付けていません

Bi-Manual Joint Camera Calibration and Scene Representation

要約 ロボット操作、特に両操作では、複数のロボットマニピュレーターに複数のカメラ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Bi-Manual Joint Camera Calibration and Scene Representation はコメントを受け付けていません

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

要約 高品質のクリップモデルのトレーニングには、通常、膨大なデータセットが必要で … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | Using Knowledge Graphs to harvest datasets for efficient CLIP model training はコメントを受け付けていません

Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck

要約 このペーパーでは、最先端の大規模な言語モデル(LLM)が私たちの視覚的世界 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Vision LLMs Are Bad at Hierarchical Visual Understanding, and LLMs Are the Bottleneck はコメントを受け付けていません

Reading Recognition in the Wild

要約 常にオンのスマートメガネでエゴセントリックコンテキストAIを有効にするには … 続きを読む

カテゴリー: cs.CV, cs.LG | Reading Recognition in the Wild はコメントを受け付けていません

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

要約 検証可能な報酬(RLVR)による強化学習は、最近、トレーニング後の大手言語 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning はコメントを受け付けていません