cs.MM」カテゴリーアーカイブ

M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce

要約 マルチモーダル製品要約 (MMPS) は、長いテキストの製品情報と製品画像 … 続きを読む

カテゴリー: cs.CL, cs.MM | M3PS: End-to-End Multi-Grained Multi-Modal Attribute-Aware Product Summarization in E-commerce はコメントを受け付けていません

Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning

要約 テキストから音楽への生成 (T2M-Gen) は、自然言語キャプションを備 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning はコメントを受け付けていません

H4VDM: H.264 Video Device Matching

要約 2 つの特定のビデオ シーケンスが同じデバイス (携帯電話やデジタル カメ … 続きを読む

カテゴリー: cs.CV, cs.MM | H4VDM: H.264 Video Device Matching はコメントを受け付けていません

An Evaluation of Three Distance Measurement Technologies for Flying Light Specks

要約 この研究では、距離を測定するための 3 つの異なるタイプの飛行時間センサー … 続きを読む

カテゴリー: cs.GR, cs.MM, cs.RO | An Evaluation of Three Distance Measurement Technologies for Flying Light Specks はコメントを受け付けていません

Dronevision: An Experimental 3D Testbed for Flying Light Specks

要約 現在のドローン用のロボット研究室は、大きな部屋の中に設置されています。 時 … 続きを読む

カテゴリー: cs.GR, cs.MM, cs.RO | Dronevision: An Experimental 3D Testbed for Flying Light Specks はコメントを受け付けていません

TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition

要約 最近、生理学的信号に基づく感情認識が集中的に研究されている分野として浮上し … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | TACOformer:Token-channel compounded Cross Attention for Multimodal Emotion Recognition はコメントを受け付けていません

Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization

要約 制約付きイメージ スプライシングの検出と位置特定 (CISDL) は、マル … 続きを読む

カテゴリー: cs.CV, cs.MM | Multi-scale Target-Aware Framework for Constrained Image Splicing Detection and Localization はコメントを受け付けていません

Audio-Visual Glance Network for Efficient Video Recognition

要約 ディープラーニングはビデオ理解タスクにおいて大幅な進歩を遂げましたが、クリ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Audio-Visual Glance Network for Efficient Video Recognition はコメントを受け付けていません

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

要約 リレーショナル言語イメージ事前トレーニング (RLIP) は、ビジョン表現 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | RLIPv2: Fast Scaling of Relational Language-Image Pre-training はコメントを受け付けていません

A Shift In Artistic Practices through Artificial Intelligence

要約 人工知能モデルによって生成されたコンテンツの爆発的な増加により、芸術、音楽 … 続きを読む

カテゴリー: cs.AI, cs.CY, cs.MM | A Shift In Artistic Practices through Artificial Intelligence はコメントを受け付けていません