月別アーカイブ: 2023年5月

CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth

要約 この研究では、軽量で密結合された深層ネットワークと視覚慣性オドメトリ (V … 続きを読む

カテゴリー: cs.CV | CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth はコメントを受け付けていません

Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with Images as Pivots

要約 拡散モデルは、テキストから画像への合成において目覚ましい進歩を遂げました。 … 続きを読む

カテゴリー: cs.CL, cs.CV | Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with Images as Pivots はコメントを受け付けていません

Object-centric and memory-guided normality reconstruction for video anomaly detection

要約 このペーパーでは、ビデオ監視におけるビデオ異常検出の問題について説明します … 続きを読む

カテゴリー: cs.CV | Object-centric and memory-guided normality reconstruction for video anomaly detection はコメントを受け付けていません

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?

要約 文化遺産分野におけるディープラーニングとコンピュータービジョンの使用は、音 … 続きを読む

カテゴリー: cs.CL, cs.CV | Is GPT-3 all you need for Visual Question Answering in Cultural Heritage? はコメントを受け付けていません

Brain Captioning: Decoding human brain activity into images and text

要約 人間の脳は毎日、膨大な量の視覚情報を処理し、複雑な神経機構に依存してこれら … 続きを読む

カテゴリー: cs.AI, cs.CV | Brain Captioning: Decoding human brain activity into images and text はコメントを受け付けていません

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

要約 音声は人間が外界と通信するためのシンプルかつ効果的な方法ですが、より現実的 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.SD, eess.AS | VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning はコメントを受け付けていません

StereoVAE: A lightweight stereo matching system through embedded GPUs

要約 組み込み GPU を使用したステレオ マッチングのための軽量システムを紹介 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo matching system through embedded GPUs はコメントを受け付けていません

A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations

要約 Text-to-Image (T2I) 生成モデルの最近の進歩により、一貫 … 続きを読む

カテゴリー: cs.CV | A Unified Prompt-Guided In-Context Inpainting Framework for Reference-based Image Manipulations はコメントを受け付けていません

What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics

要約 この研究では、オーディオ信号をスペクトログラムとして表すことにより、オーデ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics はコメントを受け付けていません

Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields

要約 テキスト駆動の 3D シーン生成は、3D シーンの需要が大きいビデオ ゲー … 続きを読む

カテゴリー: cs.CV, cs.GR | Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields はコメントを受け付けていません