「cs.CV」カテゴリーアーカイブ

EchoApex: A General-Purpose Vision Foundation Model for Echocardiography

投稿日: 2024年10月18日作成者: jarxiv

要約心エコー検査の定量的評価は、心臓の状態を正確に評価し、病気の進行を監視し、 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Order-aware Interactive Segmentation

投稿日: 2024年10月18日作成者: jarxiv

要約インタラクティブセグメンテーションは、最小限のユーザー操作でターゲット … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Movie Gen: A Cast of Media Foundation Models

投稿日: 2024年10月18日作成者: jarxiv

要約さまざまなアスペクト比と同期されたオーディオを備えた高品質の 1080p … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

投稿日: 2024年10月18日作成者: jarxiv

要約トーキングヘッドの生成は、1 つのポートレートとスピーチオーディオク … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

投稿日: 2024年10月18日作成者: jarxiv

要約私たちは、視覚言語モデルを強化するための視覚理解能力の向上に焦点を当ててい … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Corrective Machine Unlearning

投稿日: 2024年10月18日作成者: jarxiv

要約機械学習モデルは、インターネットから取得した大規模なトレーニングデータセ … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG | コメントを受け付けていません

Eyelid Fold Consistency in Facial Modeling

投稿日: 2024年10月18日作成者: jarxiv

要約まぶたの形状は、人間の顔のモデリングにおけるアイデンティティと類似性に不可 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Representing Model Weights with Language using Tree Experts

投稿日: 2024年10月18日作成者: jarxiv

要約公開モデルの利用可能性が高まるにつれ、他のネットワークを入力として使用する … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation

投稿日: 2024年10月18日作成者: jarxiv

要約音声駆動型のジェスチャ生成は、入力音声信号と同期したジェスチャシーケンス … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

投稿日: 2024年10月18日作成者: jarxiv

要約このペーパーでは、大規模モーションモデル (LMM) を構築してベンチマ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

EchoApex: A General-Purpose Vision Foundation Model for Echocardiography

Order-aware Interactive Segmentation

Movie Gen: A Cast of Media Foundation Models

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

Corrective Machine Unlearning

Eyelid Fold Consistency in Facial Modeling

Representing Model Weights with Language using Tree Experts

Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation

MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations

最近の投稿

最近のコメント

アーカイブ

カテゴリー