「cs.AI」カテゴリーアーカイブ

CountPath: Automating Fragment Counting in Digital Pathology

投稿日: 2025年3月14日作成者: jarxiv

要約医療画像の品質管理は、デジタル病理の重要な要素であり、診断画像が必要な基準 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | コメントを受け付けていません

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

投稿日: 2025年3月14日作成者: jarxiv

要約 3Dマルチモーダル大手言語モデル（MLLM）は最近、実質的な進歩を遂げまし … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Lightweight Models for Emotional Analysis in Video

投稿日: 2025年3月14日作成者: jarxiv

要約この研究では、MobileNETV4とマルチスケール3D MLPミキサーベ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

投稿日: 2025年3月14日作成者: jarxiv

要約ビジョン言語モデルは、多くの知覚に焦点を当てたタスクで大きな進歩を遂げてい … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

投稿日: 2025年3月14日作成者: jarxiv

要約オブジェクト幻覚（OH）は、大規模な視覚言語モデル（LVLMS）における主 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

投稿日: 2025年3月14日作成者: jarxiv

要約感情的な模倣強度（EMI）推定は、人間の社会的行動を理解し、人間とコンピュ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Transformers without Normalization

投稿日: 2025年3月14日作成者: jarxiv

要約正規化層は、現代のニューラルネットワークで遍在しており、長い間不可欠である … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

投稿日: 2025年3月14日作成者: jarxiv

要約ボディを3D服を着た人間のポイントクラウドに取り付けることは、一般的であり … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

投稿日: 2025年3月14日作成者: jarxiv

要約単一の画像からのアニメーション可能な3Dヒト再構築は、ジオメトリ、外観、お … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

投稿日: 2025年3月14日作成者: jarxiv

要約ヒューマノイドロボット、4倍、動物など、多様で型破りな形態学を介して身体的 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

CountPath: Automating Fragment Counting in Digital Pathology

PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models

Lightweight Models for Emotional Analysis in Video

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

Transformers without Normalization

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー