投稿者「jarxiv」のアーカイブ

Lightweight Models for Emotional Analysis in Video

投稿日: 2025年3月14日作成者: jarxiv

要約この研究では、MobileNETV4とマルチスケール3D MLPミキサーベ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Tiled Diffusion

投稿日: 2025年3月14日作成者: jarxiv

要約画像タイル – 一貫した視野を作成するための異なる画像のシーム … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning Interpretable Logic Rules from Deep Vision Models

投稿日: 2025年3月14日作成者: jarxiv

要約 VisionLogicと呼ばれる一般的なフレームワークを提案して、画像分類 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MASQUE: A Text-Guided Diffusion-Based Framework for Localized and Customized Adversarial Makeup

投稿日: 2025年3月14日作成者: jarxiv

要約政府および商業サービスに顔認識がますます採用されるにつれて、その誤用の可能 … 続きを読む →

カテゴリー: cs.CR, cs.CV | コメントを受け付けていません

Autoregressive Image Generation with Randomized Parallel Decoding

投稿日: 2025年3月14日作成者: jarxiv

要約ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルであるARP … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection

投稿日: 2025年3月14日作成者: jarxiv

要約 LIDARベースの3Dオブジェクト検出は、ライダーポイントの固有のスパース … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

投稿日: 2025年3月14日作成者: jarxiv

要約ビジョン言語モデルは、多くの知覚に焦点を当てたタスクで大きな進歩を遂げてい … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Unlock the Power of Unlabeled Data in Language Driving Model

投稿日: 2025年3月14日作成者: jarxiv

要約自律運転の最近のビジョンベースの大手言語モデル〜（Visionllms）は … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Complexity Experts are Task-Discriminative Learners for Any Image Restoration

投稿日: 2025年3月14日作成者: jarxiv

要約オールインワン画像修復モデルの最近の進歩により、統一されたフレームワークを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Long Context Tuning for Video Generation

投稿日: 2025年3月14日作成者: jarxiv

要約ビデオ生成における最近の進歩は、スケーラブルな拡散トランスを備えた現実的で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Lightweight Models for Emotional Analysis in Video

Tiled Diffusion

Learning Interpretable Logic Rules from Deep Vision Models

MASQUE: A Text-Guided Diffusion-Based Framework for Localized and Customized Adversarial Makeup

Autoregressive Image Generation with Randomized Parallel Decoding

Semantic-Supervised Spatial-Temporal Fusion for LiDAR-based 3D Object Detection

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

Unlock the Power of Unlabeled Data in Language Driving Model

Complexity Experts are Task-Discriminative Learners for Any Image Restoration

Long Context Tuning for Video Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー