-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2024年6月
Composing Object Relations and Attributes for Image-Text Matching
要約 画像とテキストのマッチングのための視覚的意味埋め込み問題を研究します。 既 … 続きを読む
カテゴリー: cs.CV
Composing Object Relations and Attributes for Image-Text Matching はコメントを受け付けていません
On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning
要約 言語および視覚アシスタントの最近の進歩は素晴らしい機能を示していますが、透 … 続きを読む
Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation
要約 フォトリアルな屋内シーンの Blender ベースのプロシージャル ジェネ … 続きを読む
カテゴリー: cs.CV
Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation はコメントを受け付けていません
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models
要約 デコーダ専用トランスフォーマに基づく大規模言語モデル (LLM) は、CL … 続きを読む
カテゴリー: cs.CV
Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models はコメントを受け付けていません
Unveiling Encoder-Free Vision-Language Models
要約 既存のビジョン言語モデル (VLM) は、主にビジョン エンコーダに依存し … 続きを読む
MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs
要約 マルチモーダルな人間の入力と通信するための自然で意味のある応答を生成するこ … 続きを読む
RetinaGS: Scalable Training for Dense Scene Rendering with Billion-Scale 3D Gaussians
要約 この研究では、大規模で高解像度のデータセット上で高パラメータ 3D ガウス … 続きを読む
OoDIS: Anomaly Instance Segmentation Benchmark
要約 自動運転車が安全に走行するには、周囲の環境を正確に理解する必要があります。 … 続きを読む
カテゴリー: cs.CV
OoDIS: Anomaly Instance Segmentation Benchmark はコメントを受け付けていません
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99%
要約 VQGAN に代表される画像量子化の領域では、このプロセスにより、事前定義 … 続きを読む
カテゴリー: cs.CV
Scaling the Codebook Size of VQGAN to 100,000 with a Utilization Rate of 99% はコメントを受け付けていません