cs.MM」カテゴリーアーカイブ

ImageBind-LLM: Multi-modality Instruction Tuning

要約 ImageBind-LLM は、ImageBind を介した大規模言語モデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | ImageBind-LLM: Multi-modality Instruction Tuning はコメントを受け付けていません

Generative Steganography Diffusion

要約 生成ステガノグラフィー (GS) は、機密データから直接ステゴ画像を生成す … 続きを読む

カテゴリー: cs.AI, cs.MM | Generative Steganography Diffusion はコメントを受け付けていません

Extraction of Visual Information to Predict Crowdfunding Success

要約 研究者は、起業家の活動やダイナミクスについての洞察を得るために、ますますク … 続きを読む

カテゴリー: cs.CV, cs.MM, stat.AP | Extraction of Visual Information to Predict Crowdfunding Success はコメントを受け付けていません

FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests

要約 現在、多くの人が新しい宿泊施設の選択肢を頻繁に探さなければなりません。 適 … 続きを読む

カテゴリー: cs.CV, cs.MM | FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests はコメントを受け付けていません

Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era

要約 この論文では、新型コロナウイルス感染症 (COVID-19) の影響を受け … 続きを読む

カテゴリー: cs.AI, cs.CY, cs.MM, F.2.2, I.2.7 | Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era はコメントを受け付けていません

Prototype-based Dataset Comparison

要約 データセットの要約は、データセット検査に対する有益なアプローチです。 ただ … 続きを読む

カテゴリー: cs.CV, cs.MM | Prototype-based Dataset Comparison はコメントを受け付けていません

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約 膨大な画像とテキストのペアデータを利用した事前学習済み視覚言語基盤モデルは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model はコメントを受け付けていません

Towards Contrastive Learning in Music Video Domain

要約 対照学習は、画像キャプション検索やオーディオビジュアル表現学習など、様々な … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Towards Contrastive Learning in Music Video Domain はコメントを受け付けていません

VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation

要約 本論文では、参照ガイド付き潜在拡散を用いて、高フレーム忠実度と強い時間的一 … 続きを読む

カテゴリー: cs.CV, cs.MM | VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation はコメントを受け付けていません

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

要約 我々は、点群データを2次元画像、言語、音声、動画像と整合させる3次元マルチ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following はコメントを受け付けていません