月別アーカイブ: 2024年5月

A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns

投稿日: 2024年5月24日作成者: jarxiv

要約クロスドメイン調整とは、あるドメインから別のドメインに概念をマッピングする … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference

投稿日: 2024年5月24日作成者: jarxiv

要約パラメータ効率の良い微調整 (PEFT) は、事前トレーニングされたビジョ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

High Fidelity Scene Text Synthesis

投稿日: 2024年5月24日作成者: jarxiv

要約シーンテキストの合成には、指定されたテキストを任意の画像上にレンダリング … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models

投稿日: 2024年5月24日作成者: jarxiv

要約世界規模の地理位置特定は、地球上の任意の場所で撮影された写真の座標レベルで … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Learning Multi-dimensional Human Preference for Text-to-Image Generation

投稿日: 2024年5月24日作成者: jarxiv

要約テキストから画像へのモデルの現在の指標は通常、人間の実際の好みを不適切に表 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance

投稿日: 2024年5月24日作成者: jarxiv

要約リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

投稿日: 2024年5月24日作成者: jarxiv

要約最近の 3D 生成の進歩は目覚ましく、DreamFusion などの大規模 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models

投稿日: 2024年5月24日作成者: jarxiv

要約最新の検索システムは、古いモデルと新しいモデルの間の埋め込みに互換性がない … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising

投稿日: 2024年5月24日作成者: jarxiv

要約ノイズ除去は、イメージング内のメカニズムや環境要因に起因するノイズのため、 … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

StyleX: A Trainable Metric for X-ray Style Distances

投稿日: 2024年5月24日作成者: jarxiv

要約 X 線技術の進歩により、放射線科医の好みに合わせて調整する必要がある多様な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年5月

A Nurse is Blue and Elephant is Rugby: Cross Domain Alignment in Large Language Models Reveal Human-like Patterns

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference

High Fidelity Scene Text Synthesis

G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models

Learning Multi-dimensional Human Preference for Text-to-Image Generation

OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance

IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models

SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising

StyleX: A Trainable Metric for X-ray Style Distances

最近の投稿

最近のコメント

アーカイブ

カテゴリー