月別アーカイブ: 2025年5月

Variational Visual Question Answering

投稿日: 2025年5月15日作成者: jarxiv

要約視覚的な質問応答（VQA）のマルチモーダルモデルでは顕著な進歩にもかかわら … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

投稿日: 2025年5月15日作成者: jarxiv

要約深い思考モデルの最近の進歩により、数学的およびコーディングタスクに関する顕 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

LightLab: Controlling Light Sources in Images with Diffusion Models

投稿日: 2025年5月15日作成者: jarxiv

要約画像内の光源に対するきめの細かいパラメトリック制御のためのシンプルでありな … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

投稿日: 2025年5月15日作成者: jarxiv

要約オーディオビジュアルビデオの解析（AVVP）は、両方のユニモーダルイベント … 続きを読む →

カテゴリー: cs.CV, cs.SD, eess.AS | コメントを受け付けていません

Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations

投稿日: 2025年5月15日作成者: jarxiv

要約 du/dt = f（u、x、t、p）の形式のパラメトリック微分方程式は、科 … 続きを読む →

カテゴリー: cs.CE, cs.LG | コメントを受け付けていません

Hakim: Farsi Text Embedding Model

投稿日: 2025年5月15日作成者: jarxiv

要約テキストの埋め込みにおける最近の進歩により、多くの言語で自然言語の理解が大 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance

投稿日: 2025年5月15日作成者: jarxiv

要約豊富な公共安全文書と緊急プロトコルにもかかわらず、ほとんどの個人は、危機中 … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections

投稿日: 2025年5月15日作成者: jarxiv

要約コンピュータービジョンの深い学習における急速な進歩により、RGBカメラベー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification

投稿日: 2025年5月15日作成者: jarxiv

要約全体のスライド病理学の画像分類は、ギガピクセルの画像サイズと限られた注釈ラ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning

投稿日: 2025年5月15日作成者: jarxiv

要約この研究では、迅速で正確で非侵襲的な食品品質評価のためのコンピュータービジ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

Variational Visual Question Answering

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

LightLab: Controlling Light Sources in Images with Diffusion Models

UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing

Sensitivity-Constrained Fourier Neural Operators for Forward and Inverse Problems in Parametric Differential Equations

Hakim: Farsi Text Embedding Model

SafeMate: A Modular RAG-Based Agent for Context-Aware Emergency Guidance

Thermal Detection of People with Mobility Restrictions for Barrier Reduction at Traffic Lights Controlled Intersections

MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification

The RaspGrade Dataset: Towards Automatic Raspberry Ripeness Grading with Deep Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー