月別アーカイブ: 2024年4月

SemGrasp: Semantic Grasp Generation via Language Aligned Discretization

投稿日: 2024年4月5日作成者: jarxiv

要約人間の自然な把持を生成するためには、物体の形状だけでなく、意味情報も考慮す … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

InsectMamba: Insect Pest Classification with State Space Model

投稿日: 2024年4月5日作成者: jarxiv

要約害虫の分類は農業技術において重要な課題であり、食糧安全保障と環境の持続可能 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting

投稿日: 2024年4月5日作成者: jarxiv

要約 3D Gaussian Splatting (3DGS)は高速かつ高品質な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

On the Efficiency of Convolutional Neural Networks

投稿日: 2024年4月5日作成者: jarxiv

要約 2012年のAlexNetの画期的な性能以来、畳み込みニューラルネットワー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

投稿日: 2024年4月5日作成者: jarxiv

要約胸部X線写真の視覚言語事前訓練は、主に対になったX線写真と放射線診断報告書 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LCM-Lookahead for Encoder-based Text-to-Image Personalization

投稿日: 2024年4月5日作成者: jarxiv

要約最近の拡散モデルの進歩により、わずか1～数ステップのノイズ除去で高品質な画 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Robust Concept Erasure Using Task Vectors

投稿日: 2024年4月5日作成者: jarxiv

要約テキストから画像への変換モデルの急速な発展に伴い、望ましくない画像生成を防 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Reference-Based 3D-Aware Image Editing with Triplane

投稿日: 2024年4月5日作成者: jarxiv

要約 Generative Adversarial Networks（GAN）は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments

投稿日: 2024年4月5日作成者: jarxiv

要約 2本指グリッパーを用いた把持不可能な物体のロボット操作は、把持可能な特徴が … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

WorDepth: Variational Language Prior for Monocular Depth Estimation

投稿日: 2024年4月5日作成者: jarxiv

要約 1枚の画像からの3次元（3D）再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

月別アーカイブ: 2024年4月

SemGrasp: Semantic Grasp Generation via Language Aligned Discretization

InsectMamba: Insect Pest Classification with State Space Model

Per-Gaussian Embedding-Based Deformation for Deformable 3D Gaussian Splatting

On the Efficiency of Convolutional Neural Networks

DeViDe: Faceted medical knowledge for improved medical vision-language pre-training

LCM-Lookahead for Encoder-based Text-to-Image Personalization

Robust Concept Erasure Using Task Vectors

Reference-Based 3D-Aware Image Editing with Triplane

PreAfford: Universal Affordance-Based Pre-Grasping for Diverse Objects and Environments

WorDepth: Variational Language Prior for Monocular Depth Estimation

最近の投稿

最近のコメント

アーカイブ

カテゴリー