-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Automated Processing of eXplainable Artificial Intelligence Outputs in Deep Learning Models for Fault Diagnostics of Large Infrastructures
要約 Deep Learning(DL)モデル画像を処理して、大規模なインフラス … 続きを読む
Temporal Regularization Makes Your Video Generator Stronger
要約 一時的な品質は、フレーム全体で一貫した動きと現実的なダイナミクスを保証する … 続きを読む
Visual Position Prompt for MLLM based Visual Grounding
要約 マルチモーダルの大手言語モデル(MLLM)は、さまざまな画像関連のタスクに … 続きを読む
Di$\mathtt{[M]}$O: Distilling Masked Diffusion Models into One-step Generator
要約 マスクされた拡散モデル(MDMS)は、強力な生成モデリング手法として浮上し … 続きを読む
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
要約 エゴセントリックビデオ言語の事前トレーニングには、ビデオ表現の学習が大幅に … 続きを読む
SlideChat: A Large Vision-Language Assistant for Whole-Slide Pathology Image Understanding
要約 計算病理学においてマルチモーダルラージランゲージモデル(MLLMS)が行っ … 続きを読む
TULIP: Towards Unified Language-Image Pretraining
要約 ClipやSiglipなどの画像テキストコントラストモデルの最近の成功にも … 続きを読む
State Space Model Meets Transformer: A New Paradigm for 3D Object Detection
要約 マルチレイヤートランスデコーダーを使用してオブジェクトクエリを繰り返し改良 … 続きを読む
MoonCast: High-Quality Zero-Shot Podcast Generation
要約 テキスト間合成の最近の進歩は、個々のスピーカーの高品質の短い発言を生み出す … 続きを読む
RFUAV: A Benchmark Dataset for Unmanned Aerial Vehicle Detection and Identification
要約 このホワイトペーパーでは、RFUAVを無線周波ベース(RFベース)無人航空 … 続きを読む