-
最近の投稿
- Dual Agent Learning Based Aerial Trajectory Tracking
- iKalibr-RGBD: Partially-Specialized Target-Free Visual-Inertial Spatiotemporal Calibration For RGBDs via Continuous-Time Velocity Estimation
- Grasp as You Say: Language-guided Dexterous Grasp Generation
- Distributed Formation Shape Control of Identity-less Robot Swarms
- RIs-Calib: An Open-Source Spatiotemporal Calibrator for Multiple 3D Radars and IMUs Based on Continuous-Time Estimation
-
最近のコメント
表示できるコメントはありません。 cs.AI (28947) cs.CL (21879) cs.CR (2255) cs.CV (35502) cs.LG (33753) cs.RO (16770) cs.SY (2575) eess.IV (4330) eess.SY (2569) stat.ML (4527)
月別アーカイブ: 2024年6月
ReLUs Are Sufficient for Learning Implicit Neural Representations
要約 Rectified Linear Unit (ReLU) を活性化関数とし … 続きを読む
SatSplatYOLO: 3D Gaussian Splatting-based Virtual Object Detection Ensembles for Satellite Feature Recognition
要約 軌道上整備(OOS)、宇宙船の検査、アクティブデブリ除去(ADR)。 この … 続きを読む
カテゴリー: cs.CV
SatSplatYOLO: 3D Gaussian Splatting-based Virtual Object Detection Ensembles for Satellite Feature Recognition はコメントを受け付けていません
Enhancing predictive imaging biomarker discovery through treatment effect analysis
要約 個々の治療効果を予測する予測バイオマーカーを特定することは、個別化医療にと … 続きを読む
Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks
要約 高解像度のリモート センシング画像に不可欠なアプリケーションである変化検出 … 続きを読む
カテゴリー: cs.CV
Dsfer-Net: A Deep Supervision and Feature Retrieval Network for Bitemporal Change Detection Using Modern Hopfield Networks はコメントを受け付けていません
Enhancing 2D Representation Learning with a 3D Prior
要約 視覚データの堅牢かつ効果的な表現を学習することは、コンピューター ビジョン … 続きを読む
カテゴリー: cs.CV
Enhancing 2D Representation Learning with a 3D Prior はコメントを受け付けていません
TopViewRS: Vision-Language Models as Top-View Spatial Reasoners
要約 トップビューの視点は、人間がさまざまなタイプの地図を読み、推論する典型的な … 続きを読む
Parrot: Multilingual Visual Instruction Tuning
要約 GPT-4V のようなマルチモーダル大規模言語モデル (MLLM) の急速 … 続きを読む
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation
要約 拡散トランス (DiT) は、テキストの指示に基づいてリアルな画像やビデオ … 続きを読む
カテゴリー: cs.CV
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation はコメントを受け付けていません
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting
要約 ゼロショット ビデオ拡散モデルの最近の進歩により、テキスト駆動のビデオ編集 … 続きを読む
カテゴリー: cs.CV
Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting はコメントを受け付けていません
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
要約 コンテキスト内長が長いモデルをトレーニングすることは、GPU メモリと計算 … 続きを読む
カテゴリー: cs.CV
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning はコメントを受け付けていません