cs.MM」カテゴリーアーカイブ

FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests

要約 現在、多くの人が新しい宿泊施設の選択肢を頻繁に探さなければなりません。 適 … 続きを読む

カテゴリー: cs.CV, cs.MM | FArMARe: a Furniture-Aware Multi-task methodology for Recommending Apartments based on the user interests はコメントを受け付けていません

Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era

要約 この論文では、新型コロナウイルス感染症 (COVID-19) の影響を受け … 続きを読む

カテゴリー: cs.AI, cs.CY, cs.MM, F.2.2, I.2.7 | Exploring the Intersection of Complex Aesthetics and Generative AI for Promoting Cultural Creativity in Rural China after the Post-Pandemic Era はコメントを受け付けていません

Prototype-based Dataset Comparison

要約 データセットの要約は、データセット検査に対する有益なアプローチです。 ただ … 続きを読む

カテゴリー: cs.CV, cs.MM | Prototype-based Dataset Comparison はコメントを受け付けていません

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約 膨大な画像とテキストのペアデータを利用した事前学習済み視覚言語基盤モデルは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model はコメントを受け付けていません

Towards Contrastive Learning in Music Video Domain

要約 対照学習は、画像キャプション検索やオーディオビジュアル表現学習など、様々な … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | Towards Contrastive Learning in Music Video Domain はコメントを受け付けていません

VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation

要約 本論文では、参照ガイド付き潜在拡散を用いて、高フレーム忠実度と強い時間的一 … 続きを読む

カテゴリー: cs.CV, cs.MM | VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation はコメントを受け付けていません

Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following

要約 我々は、点群データを2次元画像、言語、音声、動画像と整合させる3次元マルチ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following はコメントを受け付けていません

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media

要約 Reddit ディスカッションなどのオンライン ソーシャル ネットワークに … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SI | Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media はコメントを受け付けていません

Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance

要約 スケッチベースの地形生成は、コンピューター ゲーム、アニメーション、仮想現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance はコメントを受け付けていません

Priority-Centric Human Motion Generation in Discrete Latent Space

要約 テキストからモーションへの生成は、人間の能力と物理法則に準拠しながら、入力 … 続きを読む

カテゴリー: cs.CV, cs.MM | Priority-Centric Human Motion Generation in Discrete Latent Space はコメントを受け付けていません