cs.MM」カテゴリーアーカイブ

Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models

要約 ほとんどのWebおよびデジタルトレースデータには、プライバシーの懸念による … 続きを読む

カテゴリー: cs.CL, cs.DL, cs.MM | Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models はコメントを受け付けていません

Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study

要約 自動化されたヘイトスピーチ検出への関心が高まっているにもかかわらず、既存の … 続きを読む

カテゴリー: cs.CL, cs.CY, cs.MM | Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study はコメントを受け付けていません

TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis

要約 マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用する … 続きを読む

カテゴリー: cs.CL, cs.MM | TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis はコメントを受け付けていません

Does CLIP perceive art the same way we do?

要約 クリップは、関節の埋め込みを介して画像やテキストを接続できる強力なマルチモ … 続きを読む

カテゴリー: (Primary), 68T45, 68U10, cs.CV, cs.MM, I.2.10 | Does CLIP perceive art the same way we do? はコメントを受け付けていません

Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform

要約 自動音楽転写(AMT)は、音楽のオーディオ録音を分析し、再生されているメモ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform はコメントを受け付けていません

Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

要約 オーディオSDSを紹介します。オーディオSDは、テキストコンディショニング … 続きを読む

カテゴリー: 68T07, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, H.5.1 | Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond はコメントを受け付けていません

Question-Answering Dense Video Events

要約 このペーパーでは、密集したビデオイベントに関する質問を提示します。これは、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Question-Answering Dense Video Events はコメントを受け付けていません

‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments

要約 視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにと … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | ‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments はコメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

要約 この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling はコメントを受け付けていません

EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning

要約 マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning はコメントを受け付けていません