-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models
要約 テキストからイメージ(T2I)モデルは、インパクトのある現実のアプリケーシ … 続きを読む
カテゴリー: cs.CV
Is What You Ask For What You Get? Investigating Concept Associations in Text-to-Image Models はコメントを受け付けていません
Uncertainty for SVBRDF Acquisition using Frequency Analysis
要約 このペーパーは、マルチビューキャプチャのSVBRDF取得の不確実性を定量化 … 続きを読む
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning
要約 2021年初頭にリリースされたOpenAIのクリップは、マルチモーダルファ … 続きを読む
カテゴリー: cs.CV
OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning はコメントを受け付けていません
FastMap: Revisiting Dense and Scalable Structure from Motion
要約 速度とシンプルさに焦点を当てたモーションメソッドからの新しいグローバル構造 … 続きを読む
カテゴリー: cs.CV
FastMap: Revisiting Dense and Scalable Structure from Motion はコメントを受け付けていません
Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait
要約 制約のない環境における全身の人認識の問題に対処します。 この問題は、高度お … 続きを読む
カテゴリー: cs.CV
Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait はコメントを受け付けていません
Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation
要約 ビジョンは、特に視覚サーボを使用して、操作での使用でよく知られています。 … 続きを読む
On Path to Multimodal Generalist: General-Level and General-Bench
要約 Multimodal Large Languageモデル(MLLM)は、L … 続きを読む
カテゴリー: cs.CV
On Path to Multimodal Generalist: General-Level and General-Bench はコメントを受け付けていません
PrimitiveAnything: Human-Crafted 3D Primitive Assembly Generation with Auto-Regressive Transformer
要約 複雑な3D形状を単純な幾何学的要素に分解し、人間の視覚認知において重要な役 … 続きを読む
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
要約 マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオ … 続きを読む
Vision-Language Models Create Cross-Modal Task Representations
要約 自己回帰ビジョン言語モデル(VLM)は、単一のモデル内で多くのタスクを処理 … 続きを読む