月別アーカイブ: 2024年5月

CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

投稿日: 2024年5月14日作成者: jarxiv

要約テキストから画像への生成モデルは、高解像度のリアルな画像の生成に優れた、著 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

IMAFD: An Interpretable Multi-stage Approach to Flood Detection from time series Multispectral Data

投稿日: 2024年5月14日作成者: jarxiv

要約このペーパーでは、フラッド検出の分野における 2 つの重大な課題、つまり大 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution

投稿日: 2024年5月14日作成者: jarxiv

要約画像超解像度のためのディープニューラルネットワークは、補間などの従来の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

投稿日: 2024年5月14日作成者: jarxiv

要約ビジョン言語モデル (VLM) の単なる微調整を超えて、学習可能なプロンプ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improving Multimodal Learning with Multi-Loss Gradient Modulation

投稿日: 2024年5月14日作成者: jarxiv

要約オーディオやビデオなどの複数のモダリティから学習すると、補完的な情報を活用 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Authentic Hand Avatar from a Phone Scan via Universal Hand Model

投稿日: 2024年5月14日作成者: jarxiv

要約 AR/VR での没入型体験には、手の形状やテクスチャなど、あらゆる識別可能 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition

投稿日: 2024年5月14日作成者: jarxiv

要約場所認識は、自律システムが独立した意思決定と安全な運用を実現できるようにす … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

投稿日: 2024年5月14日作成者: jarxiv

要約事前トレーニングされた基礎モデルを使用したゼロショット異常セグメンテーショ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SignAvatar: Sign Language 3D Motion Reconstruction and Generation

投稿日: 2024年5月14日作成者: jarxiv

要約現実世界の 3D 手話データの欠如、手話動作の複雑なニュアンス、および手話 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The Platonic Representation Hypothesis

投稿日: 2024年5月14日作成者: jarxiv

要約私たちは、AI モデル、特にディープネットワークの表現が収束しつつあると主 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE | コメントを受け付けていません

月別アーカイブ: 2024年5月

CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

IMAFD: An Interpretable Multi-stage Approach to Flood Detection from time series Multispectral Data

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution

Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

Improving Multimodal Learning with Multi-Loss Gradient Modulation

Authentic Hand Avatar from a Phone Scan via Universal Hand Model

OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition

Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

SignAvatar: Sign Language 3D Motion Reconstruction and Generation

The Platonic Representation Hypothesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー