cs.CV」カテゴリーアーカイブ

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

要約 モデルのマージは、機械学習コミュニティにおける効率的なエンパワーメント手法 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities はコメントを受け付けていません

Enhanced Scale-aware Depth Estimation for Monocular Endoscopic Scenes with Geometric Modeling

要約 スケールを意識した単眼の深度推定は、コンピュータ支援の内視鏡ナビゲーション … 続きを読む

カテゴリー: cs.CV, cs.RO | Enhanced Scale-aware Depth Estimation for Monocular Endoscopic Scenes with Geometric Modeling はコメントを受け付けていません

On the Hidden Mystery of OCR in Large Multimodal Models

要約 大規模モデルは、最近、自然言語処理とマルチモーダル視覚言語学習において主要 … 続きを読む

カテゴリー: cs.CL, cs.CV | On the Hidden Mystery of OCR in Large Multimodal Models はコメントを受け付けていません

A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties

要約 このペーパーでは、強力な解釈可能なセグメンテーション モデルを作成するため … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties はコメントを受け付けていません

Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion

要約 Visual Question Answering (VQA) は、システ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion はコメントを受け付けていません

ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2

要約 マルチモーダル大規模言語モデル (MLLM) は、その多機能性で大きな注目 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 はコメントを受け付けていません

GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution

要約 これまでの研究では、トランスフォーマーベースの単一画像超解像度 (SISR … 続きを読む

カテゴリー: cs.CV, eess.IV | GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution はコメントを受け付けていません

OMR: Occlusion-Aware Memory-Based Refinement for Video Lane Detection

要約 この論文ではビデオレーン検出のための新しいアルゴリズムを提案した。 まず、 … 続きを読む

カテゴリー: cs.CV | OMR: Occlusion-Aware Memory-Based Refinement for Video Lane Detection はコメントを受け付けていません

Attention-Guided Perturbation for Unsupervised Image Anomaly Detection

要約 再構築ベースの手法により、最新の教師なし異常検出が大幅に進歩しました。 た … 続きを読む

カテゴリー: cs.CV | Attention-Guided Perturbation for Unsupervised Image Anomaly Detection はコメントを受け付けていません

Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality

要約 人間の対話において、ジェスチャは、会話のリズムをマークしたり、重要な要素を … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.SD, eess.AS | Integrating Representational Gestures into Automatically Generated Embodied Explanations and its Effects on Understanding and Interaction Quality はコメントを受け付けていません