投稿者「jarxiv」のアーカイブ

Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering

要約 ミームはユーモアや文化的な解説に広く使用されていますが、憎悪なコンテンツを … 続きを読む

カテゴリー: cs.AI, cs.CV | Detecting and Understanding Hateful Contents in Memes Through Captioning and Visual Question-Answering はコメントを受け付けていません

V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations

要約 大規模なビジョン言語モデル(LVLMS)は、さまざまなビジョン言語タスクに … 続きを読む

カテゴリー: cs.AI, cs.CV | V$^2$R-Bench: Holistically Evaluating LVLM Robustness to Fundamental Visual Variations はコメントを受け付けていません

Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images

要約 Segment Anyny Anything Model(SAM)は、ポイ … 続きを読む

カテゴリー: cs.CV | Prompt-Tuning SAM: From Generalist to Specialist with only 2048 Parameters and 16 Training Images はコメントを受け付けていません

Gaussian Splatting is an Effective Data Generator for 3D Object Detection

要約 自律運転における3Dオブジェクト検出のデータ増強を調査します。 私たちは、 … 続きを読む

カテゴリー: cs.CV | Gaussian Splatting is an Effective Data Generator for 3D Object Detection はコメントを受け付けていません

MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約 ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数の … 続きを読む

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

AudioX: Diffusion Transformer for Anything-to-Audio Generation

要約 オーディオと音楽の生成は、多くのアプリケーションで重要なタスクとして浮上し … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | AudioX: Diffusion Transformer for Anything-to-Audio Generation はコメントを受け付けていません

Frequency-Compensated Network for Daily Arctic Sea Ice Concentration Prediction

要約 北極圏の海氷濃度(原文)を正確に予測することは、世界の生態系の健康と航海の … 続きを読む

カテゴリー: cs.CV, eess.IV | Frequency-Compensated Network for Daily Arctic Sea Ice Concentration Prediction はコメントを受け付けていません

Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery

要約 出血や熱損傷などの術中の有害事象(IAE)は、検出されない場合、重度の術後 … 続きを読む

カテゴリー: cs.CV | Feature Mixing Approach for Detecting Intraoperative Adverse Events in Laparoscopic Roux-en-Y Gastric Bypass Surgery はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約 HyperComplex画像処理は、代数および幾何学的原理を含む統一された … 続きを読む

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism

要約 画像の説明の生成は、視覚コンテンツのアクセシビリティとAIの理解に不可欠で … 続きを読む

カテゴリー: cs.CV | Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism はコメントを受け付けていません