cs.AI」カテゴリーアーカイブ

Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

要約 大規模言語モデル (LLM) は、テキストと画像を理解し、人間のようなテキ … 続きを読む

カテゴリー: cs.AI, cs.CV | Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving はコメントを受け付けていません

TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document

要約 文書質問応答 (DocVQA) やシーン テキスト分析など、テキスト中心の … 続きを読む

カテゴリー: cs.AI, cs.CV | TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document はコメントを受け付けていません

T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers

要約 画像分類タスク用の Vision Transformers やその他の深層 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers はコメントを受け付けていません

Hyperspectral unmixing for Raman spectroscopy via physics-constrained autoencoders

要約 ラマン分光法は、非破壊かつラベルフリーの方法でサンプルの化学組成を特徴付け … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Hyperspectral unmixing for Raman spectroscopy via physics-constrained autoencoders はコメントを受け付けていません

Reducing self-supervised learning complexity improves weakly-supervised classification performance in computational pathology

要約 深層学習モデルは、日常的に利用可能な組織学データから臨床的に実用的な洞察を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Reducing self-supervised learning complexity improves weakly-supervised classification performance in computational pathology はコメントを受け付けていません

A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images

要約 現在、医療画像ドメインの翻訳業務は、研究者や臨床医からの高い需要を示してい … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | A Domain Translation Framework with an Adversarial Denoising Diffusion Model to Generate Synthetic Datasets of Echocardiography Images はコメントを受け付けていません

Pix2Gif: Motion-Guided Diffusion for GIF Generation

要約 私たちは、画像から GIF (ビデオ) への生成のためのモーションガイド付 … 続きを読む

カテゴリー: cs.AI, cs.CV | Pix2Gif: Motion-Guided Diffusion for GIF Generation はコメントを受け付けていません

Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level

要約 近隣注目は、各トークンの注目範囲をその最も近い隣接トークンに制限することで … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level はコメントを受け付けていません

AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors

要約 フェイシャル アクション ユニット (AU) は、感情コンピューティングの … 続きを読む

カテゴリー: cs.AI, cs.CV | AUFormer: Vision Transformers are Parameter-Efficient Facial Action Unit Detectors はコメントを受け付けていません

ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes

要約 最近のビジョンベースのモデルの大規模なマルチモーダル トレーニングとその汎 … 続きを読む

カテゴリー: cs.AI, cs.CV | ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes はコメントを受け付けていません