月別アーカイブ: 2024年5月

CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models

要約 テキストから画像への生成モデルは、高解像度のリアルな画像の生成に優れた、著 … 続きを読む

カテゴリー: cs.CV | CTRLorALTer: Conditional LoRAdapter for Efficient 0-Shot Control & Altering of T2I Models はコメントを受け付けていません

IMAFD: An Interpretable Multi-stage Approach to Flood Detection from time series Multispectral Data

要約 このペーパーでは、フラッド検出の分野における 2 つの重大な課題、つまり大 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | IMAFD: An Interpretable Multi-stage Approach to Flood Detection from time series Multispectral Data はコメントを受け付けていません

Exploring the Low-Pass Filtering Behavior in Image Super-Resolution

要約 画像超解像度のためのディープ ニューラル ネットワークは、補間などの従来の … 続きを読む

カテゴリー: cs.CV | Exploring the Low-Pass Filtering Behavior in Image Super-Resolution はコメントを受け付けていません

Can Better Text Semantics in Prompt Tuning Improve VLM Generalization?

要約 ビジョン言語モデル (VLM) の単なる微調整を超えて、学習可能なプロンプ … 続きを読む

カテゴリー: cs.CV | Can Better Text Semantics in Prompt Tuning Improve VLM Generalization? はコメントを受け付けていません

Improving Multimodal Learning with Multi-Loss Gradient Modulation

要約 オーディオやビデオなどの複数のモダリティから学習すると、補完的な情報を活用 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Improving Multimodal Learning with Multi-Loss Gradient Modulation はコメントを受け付けていません

Authentic Hand Avatar from a Phone Scan via Universal Hand Model

要約 AR/VR での没入型体験には、手の形状やテクスチャなど、あらゆる識別可能 … 続きを読む

カテゴリー: cs.CV | Authentic Hand Avatar from a Phone Scan via Universal Hand Model はコメントを受け付けていません

OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition

要約 場所認識は、自律システムが独立した意思決定と安全な運用を実現できるようにす … 続きを読む

カテゴリー: cs.AI, cs.CV | OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition はコメントを受け付けていません

Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation

要約 事前トレーニングされた基礎モデルを使用したゼロショット異常セグメンテーショ … 続きを読む

カテゴリー: cs.AI, cs.CV | Investigating the Semantic Robustness of CLIP-based Zero-Shot Anomaly Segmentation はコメントを受け付けていません

SignAvatar: Sign Language 3D Motion Reconstruction and Generation

要約 現実世界の 3D 手話データの欠如、手話動作の複雑なニュアンス、および手話 … 続きを読む

カテゴリー: cs.CV | SignAvatar: Sign Language 3D Motion Reconstruction and Generation はコメントを受け付けていません

The Platonic Representation Hypothesis

要約 私たちは、AI モデル、特にディープネットワークの表現が収束しつつあると主 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE | The Platonic Representation Hypothesis はコメントを受け付けていません