月別アーカイブ: 2024年1月

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

投稿日: 2024年1月22日作成者: jarxiv

要約この研究では、ロバストな単眼奥行き推定のための非常に実用的なソリューション … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Imitation Learning Inputting Image Feature to Each Layer of Neural Network

投稿日: 2024年1月22日作成者: jarxiv

要約模倣学習により、ロボットはトレーニングデータから人間の行動を学習し、再現 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Hierarchical Masked 3D Diffusion Model for Video Outpainting

投稿日: 2024年1月22日作成者: jarxiv

要約ビデオアウトペイントは、ビデオフレームの端にある欠落領域を適切に補完す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift

投稿日: 2024年1月22日作成者: jarxiv

要約マルチモーダル画像テキストモデルは、過去数年間で目覚ましいパフォーマンスを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Divide and not forget: Ensemble of selectively trained experts in Continual Learning

投稿日: 2024年1月22日作成者: jarxiv

要約クラス増分学習は、すでに知っていることを忘れずにモデルの適用範囲を広げるの … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Better Explain Transformers by Illuminating Important Information

投稿日: 2024年1月22日作成者: jarxiv

要約 Transformer ベースのモデルは、さまざまな自然言語処理 (NLP … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Cross-Modality Perturbation Synergy Attack for Person Re-identification

投稿日: 2024年1月22日作成者: jarxiv

要約近年、RGB 画像に基づくシングルモーダル個人再識別 (ReID) システ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition

投稿日: 2024年1月22日作成者: jarxiv

要約シーンテキスト認識 (STR) は、自然のシーンの画像内のテキストを認識 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation

投稿日: 2024年1月22日作成者: jarxiv

要約最近の大規模な事前トレーニング済み拡散モデルは、詳細なテキストの説明から高 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Port-Hamiltonian Neural ODE Networks on Lie Groups For Robot Dynamics Learning and Control

投稿日: 2024年1月19日作成者: jarxiv

要約ロボットのダイナミクスの正確なモデルは、安全で安定した制御と新しい動作条件 … 続きを読む →

カテゴリー: cs.RO, cs.SY, eess.SY | コメントを受け付けていません

月別アーカイブ: 2024年1月

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Imitation Learning Inputting Image Feature to Each Layer of Neural Network

Hierarchical Masked 3D Diffusion Model for Video Outpainting

Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift

Divide and not forget: Ensemble of selectively trained experts in Continual Learning

Better Explain Transformers by Illuminating Important Information

Cross-Modality Perturbation Synergy Attack for Person Re-identification

VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition

Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation

Port-Hamiltonian Neural ODE Networks on Lie Groups For Robot Dynamics Learning and Control

最近の投稿

最近のコメント

アーカイブ

カテゴリー