-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion
要約 テキストによる説明から画像を作成するのと同じくらい簡単に、望ましい動作の … 続きを読む
カテゴリー: cs.AI
Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion はコメントを受け付けていません
Mammographic Breast Positioning Assessment via Deep Learning
要約 乳がんは依然として世界中の女性のがん関連死亡の主な原因であり、早期発見のた … 続きを読む
FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries
要約 インテリジェンスは集積回路 (IC) 製造を進歩させる鍵です。 大規模マル … 続きを読む
GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM
要約 Generative Pre-trained Transformer 4- … 続きを読む
DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
要約 Text-to-Image (T2I) の生成は、過去数年間で大幅に増加し … 続きを読む
Leveraging Multimodal CycleGAN for the Generation of Anatomically Accurate Synthetic CT Scans from MRIs
要約 多くの臨床現場では、患者の解剖学的構造を徹底的に理解し、適切な治療戦略を計 … 続きを読む
Benchmarking Vision Language Models for Cultural Understanding
要約 基礎モデルと視覚言語の事前トレーニングには、特に高度な視覚言語モデル (V … 続きを読む
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
要約 視覚言語モデルの最近の進歩により、視覚的命令の調整を通じて幅広いタスクが顕 … 続きを読む
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
要約 従来の参照セグメンテーション タスクは主に静かな視覚シーンに焦点を当ててお … 続きを読む
VGBench: Evaluating Large Language Models on Vector Graphics Understanding and Generation
要約 視覚モデルの領域では、主な表現モードはピクセルを使用して視覚世界をラスタラ … 続きを読む