cs.AI」カテゴリーアーカイブ

Exploring Perceptual Limitation of Multimodal Large Language Models

要約 マルチモーダル大規模言語モデル (MLLM) は最近、視覚的な質問に答える … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Exploring Perceptual Limitation of Multimodal Large Language Models はコメントを受け付けていません

StyleLipSync: Style-based Personalized Lip-sync Video Generation

要約 この論文では、任意のオーディオからアイデンティティに依存しないリップシンク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | StyleLipSync: Style-based Personalized Lip-sync Video Generation はコメントを受け付けていません

TriAug: Out-of-Distribution Detection for Robust Classification of Imbalanced Breast Lesion in Ultrasound

要約 乳房病変の組織学的サブタイプなど、さまざまな病気の発生率は大きく異なります … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | TriAug: Out-of-Distribution Detection for Robust Classification of Imbalanced Breast Lesion in Ultrasound はコメントを受け付けていません

SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks

要約 セマンティック セグメンテーションにおける最先端の手法の効率を向上させるに … 続きを読む

カテゴリー: cs.AI, cs.CV | SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks はコメントを受け付けていません

Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models

要約 ラージ ビジョン言語モデル (LVLM) の最近の進歩により、人間の言語に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models はコメントを受け付けていません

AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer

要約 LiDAR とカメラのデータを組み合わせることで、自動運転システムにおける … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | AYDIV: Adaptable Yielding 3D Object Detection via Integrated Contextual Vision Transformer はコメントを受け付けていません

PBADet: A One-Stage Anchor-Free Approach for Part-Body Association

要約 人間の部分 (手、顔など) を検出し、それらを個人と正しく関連付けることは … 続きを読む

カテゴリー: cs.AI, cs.CV | PBADet: A One-Stage Anchor-Free Approach for Part-Body Association はコメントを受け付けていません

Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models

要約 視覚条件付き言語モデル (VLM) は、視覚的な対話、シーンの理解、ロボッ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models はコメントを受け付けていません

Detection of Spider Mites on Labrador Beans through Machine Learning Approaches Using Custom Datasets

要約 食糧生産の需要が高まる中、作物を守るためには植物の病気を早期に検出すること … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Detection of Spider Mites on Labrador Beans through Machine Learning Approaches Using Custom Datasets はコメントを受け付けていません

Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss

要約 我々は、連続的な意思決定タスクにおける少数ショットのポリシー学習効率を向上 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss はコメントを受け付けていません