cs.CV」カテゴリーアーカイブ

CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers

要約 変圧器は、自然言語処理とコンピュータービジョンの顕著なブレークスルーを駆動 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers はコメントを受け付けていません

LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input

要約 ペットを失うことはペットの飼い主にとって非常に苦痛を伴う可能性があり、失わ … 続きを読む

カテゴリー: cs.AI, cs.CV | LostPaw: Finding Lost Pets using a Contrastive Learning-based Transformer with Visual Input はコメントを受け付けていません

Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring

要約 舗装表面の状態の効果的かつ迅速な評価は、メンテナンスに優先順位を付け、輸送 … 続きを読む

カテゴリー: cs.AI, cs.CV | Zero-Shot Image-Based Large Language Model Approach to Road Pavement Monitoring はコメントを受け付けていません

ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models

要約 最近の研究では、ブラックボックスプロンプトチューニング(BBPT)と呼ばれ … 続きを読む

カテゴリー: cs.CV, cs.LG | ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models はコメントを受け付けていません

Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition

要約 マルチモーダルのコンテキスト学習(MICL)を活用するマルチモーダルモデル … 続きを読む

カテゴリー: cs.CV | Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition はコメントを受け付けていません

Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

要約 畳み込みニューラルネットワーク(CNNS)は、レイヤーに沿って進行する入力 … 続きを読む

カテゴリー: cs.CV, cs.LG | Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi はコメントを受け付けていません

CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading

要約 この作業では、拡散モデルを使用してテキストからテキストの合成を調査し、物理 … 続きを読む

カテゴリー: cs.CV | CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading はコメントを受け付けていません

EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation

要約 ゼロショット、トレーニングフリー、画像ベースのテキストツービデオツージェネ … 続きを読む

カテゴリー: cs.AI, cs.CV | EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation はコメントを受け付けていません

MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking

要約 移動オブジェクトセグメンテーションは、動的な視覚環境を理解する上で重要な役 … 続きを読む

カテゴリー: cs.CV | MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking はコメントを受け付けていません

GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes

要約 乱雑な環境で堅牢な把握が継続して、ロボット工学のオープンな課題のままです。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes はコメントを受け付けていません