月別アーカイブ: 2024年9月

A Survey on Benchmarks of Multimodal Large Language Models

投稿日: 2024年9月9日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、視覚的な質問応答、視覚的 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere

投稿日: 2024年9月9日作成者: jarxiv

要約頭と手のポーズだけから全身の自己中心的なポーズを推定することは、ヘッドセッ … 続きを読む →

カテゴリー: 68T07, 68T45, 68U01, cs.AI, cs.CV, cs.GR, cs.HC, I.2 | コメントを受け付けていません

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

投稿日: 2024年9月9日作成者: jarxiv

要約単眼画像からリアルな 3D 人体モデルを再構築することは、クリエイティブ産 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Introducing Gating and Context into Temporal Action Detection

投稿日: 2024年9月9日作成者: jarxiv

要約時間的アクション検出 (TAD) は、トリミングされていないビデオ内のアク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning to Learn Transferable Generative Attack for Person Re-Identification

投稿日: 2024年9月9日作成者: jarxiv

要約深層学習ベースの個人再識別 (re-id) モデルは監視システムで広く採用 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Video alignment using unsupervised learning of local and global features

投稿日: 2024年9月9日作成者: jarxiv

要約この論文では、ビデオの位置合わせ、つまり類似のアクションを含む 1 対のビ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

投稿日: 2024年9月9日作成者: jarxiv

要約タスク指向のオブジェクト検出は、特定のタスクを実行するのに適したオブジェク … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

投稿日: 2024年9月9日作成者: jarxiv

要約数学的推論は、AI モデル、特に言語信号と視覚信号の両方を必要とする幾何学 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection

投稿日: 2024年9月9日作成者: jarxiv

要約効果的な mpox 検出ツールの欠如により、mpox ウイルスは世界中で広 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniDet3D: Multi-dataset Indoor 3D Object Detection

投稿日: 2024年9月9日作成者: jarxiv

要約ロボティクスや拡張現実におけるスマートソリューションに対する顧客の需要の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2024年9月

A Survey on Benchmarks of Multimodal Large Language Models

EgoPoser: Robust Real-Time Egocentric Pose Estimation from Sparse and Intermittent Observations Everywhere

GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Introducing Gating and Context into Temporal Action Detection

Learning to Learn Transferable Generative Attack for Person Re-Identification

Video alignment using unsupervised learning of local and global features

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver

MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection

UniDet3D: Multi-dataset Indoor 3D Object Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー