月別アーカイブ: 2024年3月

HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition

投稿日: 2024年3月21日作成者: jarxiv

要約テキスト認識、特に中国語のような複雑な文字の場合、その複雑な文字構造と膨大 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Practical End-to-End Optical Music Recognition for Pianoform Music

投稿日: 2024年3月21日作成者: jarxiv

要約光学式音楽認識 (OMR) における最近の進歩の大部分は、深層学習手法、特 … 続きを読む →

カテゴリー: cs.CV, I.4.9 | コメントを受け付けていません

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

投稿日: 2024年3月21日作成者: jarxiv

要約ビデオ合成における目覚ましい成果にもかかわらず、相互作用する複数のオブジェ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Towards Principled Representation Learning from Videos for Reinforcement Learning

投稿日: 2024年3月21日作成者: jarxiv

要約ゲームエージェントやソフトウェアテストなどのタスクに豊富に利用できるビデオ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models

投稿日: 2024年3月21日作成者: jarxiv

要約この論文では、視覚ネットワークにおける隠れたニューロンの役割を記述する新し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

投稿日: 2024年3月21日作成者: jarxiv

要約現実世界のマルチモーダルな問題は、単一の機械学習モデルで解決されることはほ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Magic-Me: Identity-Specific Video Customized Diffusion

投稿日: 2024年3月21日作成者: jarxiv

要約指定された ID (ID) を使用してコンテンツを作成することは、生成モデ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Certified Human Trajectory Prediction

投稿日: 2024年3月21日作成者: jarxiv

要約軌道予測は自動運転車において重要な役割を果たします。軌道予測モデルの堅牢 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DepthFM: Fast Monocular Depth Estimation with Flow Matching

投稿日: 2024年3月21日作成者: jarxiv

要約単眼の深度推定は、多数の下流視覚タスクおよびアプリケーションにとって重要で … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

投稿日: 2024年3月21日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、画像とテキストのカテゴリ名を組み合わせ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年3月

HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition

Practical End-to-End Optical Music Recognition for Pianoform Music

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

Towards Principled Representation Learning from Videos for Reinforcement Learning

Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models

m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

Magic-Me: Identity-Specific Video Customized Diffusion

Certified Human Trajectory Prediction

DepthFM: Fast Monocular Depth Estimation with Flow Matching

Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

最近の投稿

最近のコメント

アーカイブ

カテゴリー