投稿者「jarxiv」のアーカイブ

ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models

要約 最近の研究では、ブラックボックスプロンプトチューニング(BBPT)と呼ばれ … 続きを読む

カテゴリー: cs.CV, cs.LG | ZIP: An Efficient Zeroth-order Prompt Tuning for Black-box Vision-Language Models はコメントを受け付けていません

Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition

要約 マルチモーダルのコンテキスト学習(MICL)を活用するマルチモーダルモデル … 続きを読む

カテゴリー: cs.CV | Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition はコメントを受け付けていません

Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi

要約 畳み込みニューラルネットワーク(CNNS)は、レイヤーに沿って進行する入力 … 続きを読む

カテゴリー: cs.CV, cs.LG | Unified CNNs and transformers underlying learning mechanism reveals multi-head attention modus vivendi はコメントを受け付けていません

CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading

要約 この作業では、拡散モデルを使用してテキストからテキストの合成を調査し、物理 … 続きを読む

カテゴリー: cs.CV | CasTex: Cascaded Text-to-Texture Synthesis via Explicit Texture Maps and Physically-Based Shading はコメントを受け付けていません

EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation

要約 ゼロショット、トレーニングフリー、画像ベースのテキストツービデオツージェネ … 続きを読む

カテゴリー: cs.AI, cs.CV | EIDT-V: Exploiting Intersections in Diffusion Trajectories for Model-Agnostic, Zero-Shot, Training-Free Text-to-Video Generation はコメントを受け付けていません

MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking

要約 移動オブジェクトセグメンテーションは、動的な視覚環境を理解する上で重要な役 … 続きを読む

カテゴリー: cs.CV | MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking はコメントを受け付けていません

GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes

要約 乱雑な環境で堅牢な把握が継続して、ロボット工学のオープンな課題のままです。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | GraspClutter6D: A Large-scale Real-world Dataset for Robust Perception and Grasping in Cluttered Scenes はコメントを受け付けていません

Joint Retrieval of Cloud properties using Attention-based Deep Learning Models

要約 正確なクラウドプロパティの検索は、雲の動作と気候への影響を理解するために不 … 続きを読む

カテゴリー: cs.CV | Joint Retrieval of Cloud properties using Attention-based Deep Learning Models はコメントを受け付けていません

SEAL: Semantic Aware Image Watermarking

要約 生成モデルは急速に進化して現実的な出力を生成しています。 しかし、それらの … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | SEAL: Semantic Aware Image Watermarking はコメントを受け付けていません

Compound and Parallel Modes of Tropical Convolutional Neural Networks

要約 畳み込みニューラルネットワークはますます深く複雑になり、計算コストが高くな … 続きを読む

カテゴリー: cs.AI, cs.CV, I.2.6 | Compound and Parallel Modes of Tropical Convolutional Neural Networks はコメントを受け付けていません