「cs.AI」カテゴリーアーカイブ

Multi-Head Explainer: A General Framework to Improve Explainability in CNNs and Transformers

投稿日: 2025年1月5日作成者: jarxiv

要約本研究では、畳み込みニューラルネットワーク(CNN)とTransforme … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding

投稿日: 2025年1月5日作成者: jarxiv

要約 3Dビジュアルグラウンディング（3DVG）は、自然言語テキストによって参照 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

ScarNet: A Novel Foundation Model for Automated Myocardial Scar Quantification from LGE in Cardiac MRI

投稿日: 2025年1月5日作成者: jarxiv

要約背景後期ガドリニウム増強（LGE）画像は心筋線維化と瘢痕を評価するためのゴ … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Training Medical Large Vision-Language Models with Abnormal-Aware Feedback

投稿日: 2025年1月5日作成者: jarxiv

要約既存の医療用大型視覚言語モデル（Medical Large Vision- … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

On Unifying Video Generation and Camera Pose Estimation

投稿日: 2025年1月5日作成者: jarxiv

要約画像生成における3D機能の出現に触発され、ビデオ生成も同様に3D認識を示す … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Multi-Modal Video Feature Extraction for Popularity Prediction

投稿日: 2025年1月5日作成者: jarxiv

要約この研究は、動画そのものとそれに関連する特徴を用いて、短い動画の人気を予測 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Object-level Visual Prompts for Compositional Image Generation

投稿日: 2025年1月5日作成者: jarxiv

要約我々は、テキストから画像への拡散モデルの中で、オブジェクトレベルの視覚的プ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals

投稿日: 2025年1月3日作成者: jarxiv

要約表面筋電図 (sEMG) は、手の動きのパターンの認識、病気の診断、プロテ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO, eess.SP | コメントを受け付けていません

Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking

投稿日: 2025年1月3日作成者: jarxiv

要約この論文では、強化学習をモンテカルロ木探索に統合して、自動駐車タスクのため … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

SynH2R: Synthesizing Hand-Object Motions for Learning Human-to-Robot Handovers

投稿日: 2025年1月3日作成者: jarxiv

要約視覚ベースの人間からロボットへのハンドオーバーは、人間とロボットのインタラ … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Multi-Head Explainer: A General Framework to Improve Explainability in CNNs and Transformers

ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding

ScarNet: A Novel Foundation Model for Automated Myocardial Scar Quantification from LGE in Cardiac MRI

Training Medical Large Vision-Language Models with Abnormal-Aware Feedback

On Unifying Video Generation and Camera Pose Estimation

Multi-Modal Video Feature Extraction for Popularity Prediction

Object-level Visual Prompts for Compositional Image Generation

An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals

Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking

SynH2R: Synthesizing Hand-Object Motions for Learning Human-to-Robot Handovers

最近の投稿

最近のコメント

アーカイブ

カテゴリー