68T45」カテゴリーアーカイブ

Hodge Laplacians and Hodge Diffusion Maps

要約 Hodge Diffusion Mapsは、高次元データセットからトポロジ … 続きを読む

カテゴリー: 68P05, 68T10, 68T45, 68W25, cs.LG | Hodge Laplacians and Hodge Diffusion Maps はコメントを受け付けていません

SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding

要約 ビデオベースの大規模な言語モデル(ビデオ-LLM)は、マルチモーダルLLM … 続きを読む

カテゴリー: 68T45, cs.AI, cs.CV, I.4.8 | SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding はコメントを受け付けていません

BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution

要約 超解像(SR)技術は、特に高解像度画像が不可欠でありながらハードウェアの制 … 続きを読む

カテゴリー: 68T45, cs.AI, cs.CV, I.2.10 | BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution はコメントを受け付けていません

Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data

要約 背景:この研究では、自動化された急性結核(TB)スクリーニングのためのSi … 続きを読む

カテゴリー: 68T07, 68T45, 68U10, 92C50, 92C55, cs.AI, cs.CV, cs.LG, eess.IV | Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data はコメントを受け付けていません

Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models

要約 自律運転における共変量シフト問題に対処するために、潜在空間生成世界モデルの … 続きを読む

カテゴリー: (Primary), 68T45, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY, I.2.10 | Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models はコメントを受け付けていません

Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following

要約 次の具体化された命令(EIF)は、インタラクティブな環境でオブジェクトをナ … 続きを読む

カテゴリー: (Primary), 68T45, 68T50, cs.AI, cs.CL, cs.CV, cs.RO | Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following はコメントを受け付けていません

Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations

要約 クリップなどのビジョン言語対照学習フレームワークは、自然言語の監督から学習 … 続きを読む

カテゴリー: 68T07, 68T45, cs.CV, cs.LG, I.2.10 | Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations はコメントを受け付けていません

Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model

要約 マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデ … 続きを読む

カテゴリー: 68T, 68T10, 68T45, cs.CL, cs.IR, cs.MM, cs.SD, eess.AS | Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model はコメントを受け付けていません

ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation

要約 トランス、特にビジョントランス(VITS)は、大規模な画像分類で最先端のパ … 続きを読む

カテゴリー: 68T45, cs.AI, cs.CV, cs.LG, I.2.10 | ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation はコメントを受け付けていません

Fast 3D point clouds retrieval for Large-scale 3D Place Recognition

要約 3Dポイントクラウドでの検索は、3Dポイントの参照内で最も類似したポイント … 続きを読む

カテゴリー: 68T10, 68T45, cs.CV, cs.IR, I.2.10 | Fast 3D point clouds retrieval for Large-scale 3D Place Recognition はコメントを受け付けていません