-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年3月
HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition
要約 テキスト認識、特に中国語のような複雑な文字の場合、その複雑な文字構造と膨大 … 続きを読む
カテゴリー: cs.CV
HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition はコメントを受け付けていません
Practical End-to-End Optical Music Recognition for Pianoform Music
要約 光学式音楽認識 (OMR) における最近の進歩の大部分は、深層学習手法、特 … 続きを読む
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models
要約 ビデオ合成における目覚ましい成果にもかかわらず、相互作用する複数のオブジェ … 続きを読む
Towards Principled Representation Learning from Videos for Reinforcement Learning
要約 ゲームエージェントやソフトウェアテストなどのタスクに豊富に利用できるビデオ … 続きを読む
Describe-and-Dissect: Interpreting Neurons in Vision Networks with Language Models
要約 この論文では、視覚ネットワークにおける隠れたニューロンの役割を記述する新し … 続きを読む
m&m’s: A Benchmark to Evaluate Tool-Use for multi-step multi-modal Tasks
要約 現実世界のマルチモーダルな問題は、単一の機械学習モデルで解決されることはほ … 続きを読む
Magic-Me: Identity-Specific Video Customized Diffusion
要約 指定された ID (ID) を使用してコンテンツを作成することは、生成モデ … 続きを読む
Certified Human Trajectory Prediction
要約 軌道予測は自動運転車において重要な役割を果たします。 軌道予測モデルの堅牢 … 続きを読む
DepthFM: Fast Monocular Depth Estimation with Flow Matching
要約 単眼の深度推定は、多数の下流視覚タスクおよびアプリケーションにとって重要で … 続きを読む
カテゴリー: cs.CV
DepthFM: Fast Monocular Depth Estimation with Flow Matching はコメントを受け付けていません
Bridge the Modality and Capacity Gaps in Vision-Language Model Selection
要約 ビジョン言語モデル (VLM) は、画像とテキストのカテゴリ名を組み合わせ … 続きを読む