投稿者「jarxiv」のアーカイブ

Exploring Diffusion Transformer Designs via Grafting

要約 モデルアーキテクチャの設計には、オペレーター(注意、畳み込みなど)や構成( … 続きを読む

カテゴリー: cs.AI, cs.LG | Exploring Diffusion Transformer Designs via Grafting はコメントを受け付けていません

Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis

要約 Pathology Foundationモデル(PFM)は、スライド画像全 … 続きを読む

カテゴリー: cs.CV | Single GPU Task Adaptation of Pathology Foundation Models for Whole Slide Image Analysis はコメントを受け付けていません

MokA: Multimodal Low-Rank Adaptation for MLLMs

要約 この論文では、現在の最新のマルチモーダル微調整方法が主要な制限によって妨げ … 続きを読む

カテゴリー: cs.CV | MokA: Multimodal Low-Rank Adaptation for MLLMs はコメントを受け付けていません

Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation

要約 非表示(NLOS)条件における信頼できるミリ波(MMWAVE)コミュニケー … 続きを読む

カテゴリー: cs.CV | Vision-Based Autonomous MM-Wave Reflector Using ArUco-Driven Angle-of-Arrival Estimation はコメントを受け付けていません

Quantifying Cross-Modality Memorization in Vision-Language Models

要約 トレーニング中にニューラルネットワークがどのように、どのように覚えているか … 続きを読む

カテゴリー: cs.CV, cs.LG | Quantifying Cross-Modality Memorization in Vision-Language Models はコメントを受け付けていません

Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding

要約 具体化された3D接地は、自我中心の視点から人間の指示に記載されているターゲ … 続きを読む

カテゴリー: cs.CV | Grounding Beyond Detection: Enhancing Contextual Understanding in Embodied 3D Grounding はコメントを受け付けていません

DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models

要約 マルチモーダル大手言語モデル(MLLM)は、視覚データとテキストデータの統 … 続きを読む

カテゴリー: cs.CL, cs.CV | DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models はコメントを受け付けていません

OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View

要約 スパースビューからセマンティックアウェア3Dシーンを再構築することは、仮想 … 続きを読む

カテゴリー: cs.CV | OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View はコメントを受け付けていません

Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning

要約 最近、ビデオ拡散トランスのブレークスルーは、多様な運動世代に顕著な能力を示 … 続きを読む

カテゴリー: cs.CV | Follow-Your-Motion: Video Motion Transfer via Efficient Spatial-Temporal Decoupled Finetuning はコメントを受け付けていません

Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation

要約 マルチモーダルファンデーションモデルは強力な一般化を実証していますが、衣服 … 続きを読む

カテゴリー: cs.CV | Towards Vision-Language-Garment Models For Web Knowledge Garment Understanding and Generation はコメントを受け付けていません