月別アーカイブ: 2024年2月

AutoGCN — Towards Generic Human Activity Recognition with Neural Architecture Search

要約 本稿では、グラフ畳み込みネットワーク(GCN)を用いた人間行動認識(HAR … 続きを読む

カテゴリー: cs.CV | AutoGCN — Towards Generic Human Activity Recognition with Neural Architecture Search はコメントを受け付けていません

A general framework for rotation invariant point cloud analysis

要約 我々は、ディープラーニングに基づく点群解析のための、入力の回転に不変な一般 … 続きを読む

カテゴリー: cs.CV | A general framework for rotation invariant point cloud analysis はコメントを受け付けていません

Simulator-Free Visual Domain Randomization via Video Games

要約 ドメインランダマイゼーションは、類似した内容を示す視覚的に異なるドメイン間 … 続きを読む

カテゴリー: cs.AI, cs.CV | Simulator-Free Visual Domain Randomization via Video Games はコメントを受け付けていません

InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image

要約 3Dを意識したポートレート編集におけるNeural Radiance Fi … 続きを読む

カテゴリー: cs.CV | InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image はコメントを受け付けていません

Skip $\textbackslash n$: A simple method to reduce hallucination in Large Vision-Language Models

要約 近年の大規模視覚言語モデル(LVLM)の進歩により、人間の言語による視覚情 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Skip $\textbackslash n$: A simple method to reduce hallucination in Large Vision-Language Models はコメントを受け付けていません

Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes

要約 画像の特性と、人間がその画像を描写するときの振る舞いには複雑な関係がある。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes はコメントを受け付けていません

Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud Understanding

要約 Transformersは自然言語処理やコンピュータビジョンでは目覚ましい … 続きを読む

カテゴリー: cs.CV | Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud Understanding はコメントを受け付けていません

FindingEmo: An Image Dataset for Emotion Recognition in the Wild

要約 FindingEmoは、2万5千枚の画像に対するアノテーションを含む、感情 … 続きを読む

カテゴリー: cs.AI, cs.CV | FindingEmo: An Image Dataset for Emotion Recognition in the Wild はコメントを受け付けていません

LIR: Efficient Degradation Removal for Lightweight Image Restoration

要約 近年、CNNと変換器に基づく画像復元が大きく進歩している。しかし、画像復元 … 続きを読む

カテゴリー: cs.CV | LIR: Efficient Degradation Removal for Lightweight Image Restoration はコメントを受け付けていません

Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with Multi-Modal Priors

要約 拡散モデルは様々な画像生成タスクに広く導入されており、画像とテキストモダリ … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.LG | Cheating Suffix: Targeted Attack to Text-To-Image Diffusion Models with Multi-Modal Priors はコメントを受け付けていません