月別アーカイブ: 2024年4月

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

投稿日: 2024年4月17日作成者: jarxiv

要約 VASA は、単一の静止画像とスピーチオーディオクリップを与えられて、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

投稿日: 2024年4月17日作成者: jarxiv

要約高密度同時ローカライゼーションおよびマッピング (SLAM) は、ロボット … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

StyleCity: Large-Scale 3D Urban Scenes Stylization with Vision-and-Text Reference via Progressive Optimization

投稿日: 2024年4月17日作成者: jarxiv

要約さまざまなスタイルを使用して大規模な仮想都市シーンを作成することは本質的に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generating Human Interaction Motions in Scenes with Text Control

投稿日: 2024年4月17日作成者: jarxiv

要約我々は、ノイズ除去拡散モデルに基づいてテキスト制御されたシーン認識モーショ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Efficient Conditional Diffusion Model with Probability Flow Sampling for Image Super-resolution

投稿日: 2024年4月17日作成者: jarxiv

要約画像の超解像度は、1 つの低解像度画像に対して複数の有効な高解像度画像が存 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

MathWriting: A Dataset For Handwritten Mathematical Expression Recognition

投稿日: 2024年4月17日作成者: jarxiv

要約これまでで最大のオンライン手書き数式データセットである MathWriti … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.LG | コメントを受け付けていません

ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic Segmentation

投稿日: 2024年4月17日作成者: jarxiv

要約点群セマンティックセグメンテーションの研究を進めるために特別に設計された … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs

投稿日: 2024年4月17日作成者: jarxiv

要約最新のスマートフォンのカメラ品質は、キャプチャされた生の画像を強化する画像 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification

投稿日: 2024年4月17日作成者: jarxiv

要約車両再識別 (Re-ID) は、過去 10 年間に広く研究されてきました。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition

投稿日: 2024年4月17日作成者: jarxiv

要約視覚的場所認識 (VPR) は、膨大な計算コストと高い認識パフォーマンスの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年4月

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

StyleCity: Large-Scale 3D Urban Scenes Stylization with Vision-and-Text Reference via Progressive Optimization

Generating Human Interaction Motions in Scenes with Text Control

Efficient Conditional Diffusion Model with Probability Flow Sampling for Image Super-resolution

MathWriting: A Dataset For Handwritten Mathematical Expression Recognition

ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic Segmentation

Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs

VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification

Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition

最近の投稿

最近のコメント

アーカイブ

カテゴリー