cs.CV」カテゴリーアーカイブ

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis

要約 拡散モデルの最近の進歩により、微妙な表現と鮮やかなヘッドの動きを備えたトー … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis はコメントを受け付けていません

Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination Methods

要約 インスタンスの識別に基づいた自己教師の学習アルゴリズム(SSL)は、いくつ … 続きを読む

カテゴリー: cs.CV, cs.LG | Semantic Positive Pairs for Enhancing Visual Representation Learning of Instance Discrimination Methods はコメントを受け付けていません

ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery

要約 ClassWise-CRFと呼ばれる結果レベルのカテゴリ固有の融合アーキテ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | ClassWise-CRF: Category-Specific Fusion for Enhanced Semantic Segmentation of Remote Sensing Imagery はコメントを受け付けていません

WARP-LCA: Efficient Convolutional Sparse Coding with Locally Competitive Algorithm

要約 局所的に競争力のあるアルゴリズム(LCA)は、幅広いユースケースでまばらな … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | WARP-LCA: Efficient Convolutional Sparse Coding with Locally Competitive Algorithm はコメントを受け付けていません

AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems

要約 一般化されたロボット操作のためのスケーラブルなロボットデータが実際の課題に … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | AgiBot World Colosseo: A Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems はコメントを受け付けていません

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

要約 グラフィカルユーザーインターフェイス(GUI)エージェントは、Vision … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis はコメントを受け付けていません

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding

要約 マルチモーダル大手言語モデル(MLLMS)の急速な発展により、これらのモデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding はコメントを受け付けていません

Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding

要約 ロボット把握は、ロボットが環境と対話するための基本的な能力です。 現在の方 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.HC, cs.RO | Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding はコメントを受け付けていません

Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models

要約 大規模なビジョン言語モデル(LVLM)は、多くの場合、オブジェクトの幻覚に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models はコメントを受け付けていません

Fine-tuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition

要約 多くの機械学習タスクでは、大きな一般的なデータセットと小さな専門データセッ … 続きを読む

カテゴリー: cs.CV | Fine-tuning Is a Surprisingly Effective Domain Adaptation Baseline in Handwriting Recognition はコメントを受け付けていません