月別アーカイブ: 2024年3月

HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition

要約 テキスト認識、特に中国語のような複雑な文字の場合、その複雑な文字構造と膨大 … 続きを読む

カテゴリー: cs.CV | HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition はコメントを受け付けていません

Practical End-to-End Optical Music Recognition for Pianoform Music

要約 光学式音楽認識 (OMR) における最近の進歩の大部分は、深層学習手法、特 … 続きを読む

カテゴリー: cs.CV, I.4.9 | Practical End-to-End Optical Music Recognition for Pianoform Music はコメントを受け付けていません

TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models

要約 ビデオ合成における目覚ましい成果にもかかわらず、相互作用する複数のオブジェ … 続きを読む

カテゴリー: cs.AI, cs.CV | TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models はコメントを受け付けていません

Towards Principled Representation Learning from Videos for Reinforcement Learning

要約 ゲームエージェントやソフトウェアテストなどのタスクに豊富に利用できるビデオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Principled Representation Learning from Videos for Reinforcement Learning はコメントを受け付けていません

Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models

要約 この論文では、視覚ネットワークにおける隠れたニューロンの役割を記述する新し … 続きを読む

カテゴリー: cs.CV, cs.LG | Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models はコメントを受け付けていません

m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks

要約 現実世界のマルチモーダルな問題は、単一の機械学習モデルで解決されることはほ … 続きを読む

カテゴリー: cs.CL, cs.CV | m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks はコメントを受け付けていません

Magic-Me: Identity-Specific Video Customized Diffusion

要約 指定された ID (ID) を使用してコンテンツを作成することは、生成モデ … 続きを読む

カテゴリー: cs.AI, cs.CV | Magic-Me: Identity-Specific Video Customized Diffusion はコメントを受け付けていません

Certified Human Trajectory Prediction

要約 軌道予測は自動運転車において重要な役割を果たします。 軌道予測モデルの堅牢 … 続きを読む

カテゴリー: cs.CV, cs.RO | Certified Human Trajectory Prediction はコメントを受け付けていません

DepthFM: Fast Monocular Depth Estimation with Flow Matching

要約 単眼の深度推定は、多数の下流視覚タスクおよびアプリケーションにとって重要で … 続きを読む

カテゴリー: cs.CV | DepthFM: Fast Monocular Depth Estimation with Flow Matching はコメントを受け付けていません

Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

要約 ビジョン言語モデル (VLM) は、画像とテキストのカテゴリ名を組み合わせ … 続きを読む

カテゴリー: cs.CV, cs.LG | Bridge the Modality and Capacity Gaps in Vision-Language Model Selection はコメントを受け付けていません