-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
Multimodal Contextualized Semantic Parsing from Speech
要約 マルチモーダル入力を以前のコンテキストと統合することで人工エージェントのコ … 続きを読む
VCR: Visual Caption Restoration
要約 私たちは、画像内のピクセルレベルのヒントを使用して、部分的に隠れたテキスト … 続きを読む
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む
Active Neural 3D Reconstruction with Colorized Surface Voxel-based View Selection
要約 3D シーンの再構成におけるアクティブ ビューの選択は、再構成には有益なビ … 続きを読む
Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation
要約 生成視覚言語モデル (VLM) の最近の進歩は、放射線医学における AI … 続きを読む
NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative
要約 既存のビデオキャプションベンチマークとモデルには、因果関係を介してリンクさ … 続きを読む
An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything
要約 財団モデルは現在、生物学、天文学、ロボット工学などのさまざまな分野のコンピ … 続きを読む
カテゴリー: cs.CV
An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything はコメントを受け付けていません
BloomVQA: Assessing Hierarchical Multi-modal Comprehension
要約 我々は、理解タスクに関する大規模な視覚言語モデルの包括的な評価を容易にする … 続きを読む
Improving Alignment and Robustness with Circuit Breakers
要約 AI システムは有害な動作を行う可能性があり、敵対的な攻撃に対して非常に脆 … 続きを読む
Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer
要約 拡散モデルを使用したモーション合成の顕著な結果を考えると、自然な疑問が生じ … 続きを読む