月別アーカイブ: 2024年1月

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

投稿日: 2024年1月19日作成者: jarxiv

要約インターリーブされた画像とテキストのデータの生成モデルの開発には、研究と実 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

投稿日: 2024年1月19日作成者: jarxiv

要約頭部アバターの再構成は、仮想現実、オンライン会議、ゲーム、映画業界のアプリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions

投稿日: 2024年1月19日作成者: jarxiv

要約ニューラルネットワークが信号の連続表現としてトレーニングされる暗黙的ニュ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Edit One for All: Interactive Batch Image Editing

投稿日: 2024年1月19日作成者: jarxiv

要約近年、画像編集の進歩はめざましいものがあります。人間による制御が強化され … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data

投稿日: 2024年1月19日作成者: jarxiv

要約基盤モデルは、タスク固有のデータを微調整することで、目的のタスクに適応でき … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Supervised Fine-tuning in turn Improves Visual Foundation Models

投稿日: 2024年1月19日作成者: jarxiv

要約近年、CLIP のような画像テキストトレーニングが視覚基礎モデルの事前ト … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

The Manga Whisperer: Automatically Generating Transcriptions for Comics

投稿日: 2024年1月19日作成者: jarxiv

要約過去数十年の間に、一般にマンガと呼ばれる日本のコミックは、文化と言語の境界 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

投稿日: 2024年1月19日作成者: jarxiv

要約新しいタスクである言語駆動型ビデオ修復を導入します。これは自然言語命令を使 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation

投稿日: 2024年1月19日作成者: jarxiv

要約インタラクティブなセグメンテーションでは、モデルとユーザーが協力して、3D … 続きを読む →

カテゴリー: cs.CV, cs.HC | コメントを受け付けていません

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

投稿日: 2024年1月19日作成者: jarxiv

要約パノプティックネットワークとインスタンスセグメンテーションネットワー … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年1月

MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer

GPAvatar: Generalizable and Precise Head Avatar from Image(s)

Explaining the Implicit Neural Canvas: Connecting Pixels to Neurons by Tracing their Contributions

Edit One for All: Interactive Batch Image Editing

AutoFT: Robust Fine-Tuning by Optimizing Hyperparameters on OOD Data

Supervised Fine-tuning in turn Improves Visual Foundation Models

The Manga Whisperer: Automatically Generating Transcriptions for Comics

Towards Language-Driven Video Inpainting via Multimodal Large Language Models

AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation

A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

最近の投稿

最近のコメント

アーカイブ

カテゴリー