「cs.MM」カテゴリーアーカイブ

M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce

投稿日: 2023年8月23日作成者: jarxiv

要約マルチモーダル製品要約 (MMPS) は、長いテキストの製品情報と製品画像 … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

投稿日: 2023年8月23日作成者: jarxiv

要約テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

H4VDM: H.264 Video Device Matching

投稿日: 2023年8月23日作成者: jarxiv

要約 2 つの特定のビデオシーケンスが同じデバイス (携帯電話やデジタルカメ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

An Evaluation of Three Distance Measurement Technologies for Flying Light Specks

投稿日: 2023年8月22日作成者: jarxiv

要約この研究では、距離を測定するための 3 つの異なるタイプの飛行時間センサー … 続きを読む →

カテゴリー: cs.GR, cs.MM, cs.RO | コメントを受け付けていません

Dronevision: An Experimental 3D Testbed for Flying Light Specks

投稿日: 2023年8月22日作成者: jarxiv

要約現在のドローン用のロボット研究室は、大きな部屋の中に設置されています。時 … 続きを読む →

カテゴリー: cs.GR, cs.MM, cs.RO | コメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

投稿日: 2023年8月22日作成者: jarxiv

要約最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization

投稿日: 2023年8月22日作成者: jarxiv

要約制約付きイメージスプライシングの検出と位置特定 (CISDL) は、マル … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Audio-Visual Glance Network for Efficient Video Recognition

投稿日: 2023年8月21日作成者: jarxiv

要約ディープラーニングはビデオ理解タスクにおいて大幅な進歩を遂げましたが、クリ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

投稿日: 2023年8月21日作成者: jarxiv

要約リレーショナル言語イメージ事前トレーニング (RLIP) は、ビジョン表現 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

A Shift In Artistic Practices through Artificial Intelligence

投稿日: 2023年8月21日作成者: jarxiv

要約人工知能モデルによって生成されたコンテンツの爆発的な増加により、芸術、音楽 … 続きを読む →

カテゴリー: cs.AI, cs.CY, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

H4VDM: H.264 Video Device Matching

An Evaluation of Three Distance Measurement Technologies for Flying Light Specks

Dronevision: An Experimental 3D Testbed for Flying Light Specks

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization

Audio-Visual Glance Network for Efficient Video Recognition

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

A Shift In Artistic Practices through Artificial Intelligence

最近の投稿

最近のコメント

アーカイブ

カテゴリー