月別アーカイブ: 2025年5月

Variational Visual Question Answering

要約 視覚的な質問応答(VQA)のマルチモーダルモデルでは顕著な進歩にもかかわら … 続きを読む

カテゴリー: cs.AI, cs.CV | Variational Visual Question Answering はコメントを受け付けていません

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

要約 深い思考モデルの最近の進歩により、数学的およびコーディングタスクに関する顕 … 続きを読む

カテゴリー: cs.CL, cs.CV | Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks はコメントを受け付けていません

LightLab: Controlling Light Sources in Images with Diffusion Models

要約 画像内の光源に対するきめの細かいパラメトリック制御のためのシンプルでありな … 続きを読む

カテゴリー: cs.CV, cs.GR | LightLab: Controlling Light Sources in Images with Diffusion Models はコメントを受け付けていません

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

要約 オーディオビジュアルビデオの解析(AVVP)は、両方のユニモーダルイベント … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing はコメントを受け付けていません

Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations

要約 du/dt = f(u、x、t、p)の形式のパラメトリック微分方程式は、科 … 続きを読む

カテゴリー: cs.CE, cs.LG | Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations はコメントを受け付けていません

Hakim: Farsi Text Embedding Model

要約 テキストの埋め込みにおける最近の進歩により、多くの言語で自然言語の理解が大 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Hakim: Farsi Text Embedding Model はコメントを受け付けていません

SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance

要約 豊富な公共安全文書と緊急プロトコルにもかかわらず、ほとんどの個人は、危機中 … 続きを読む

カテゴリー: cs.AI | SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance はコメントを受け付けていません

Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections

要約 コンピュータービジョンの深い学習における急速な進歩により、RGBカメラベー … 続きを読む

カテゴリー: cs.CV | Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections はコメントを受け付けていません

MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification

要約 全体のスライド病理学の画像分類は、ギガピクセルの画像サイズと限られた注釈ラ … 続きを読む

カテゴリー: cs.CV, cs.LG | MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification はコメントを受け付けていません

The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning

要約 この研究では、迅速で正確で非侵襲的な食品品質評価のためのコンピュータービジ … 続きを読む

カテゴリー: cs.CV | The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning はコメントを受け付けていません