-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
要約 最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高 … 続きを読む
HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference
要約 高解像度のシノグラムの開始は、高周波投影が見られないと目に見えるアーティフ … 続きを読む
Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought
要約 ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解 … 続きを読む
カテゴリー: cs.CV
Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought はコメントを受け付けていません
CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics
要約 視覚コンテンツの生成のツールとしてのテキストからイメージ(T2I)モデルの … 続きを読む
TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler
要約 ビデオ行動の認識とシーンの理解は、マルチモーダルインテリジェンスの基本的な … 続きを読む
カテゴリー: cs.CV
TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler はコメントを受け付けていません
Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis
要約 医学的超音波検査は、リンパ節、乳房、甲状腺などの表在臓器や組織を調べるため … 続きを読む
カテゴリー: cs.CV
Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis はコメントを受け付けていません
StereoVAE: A lightweight stereo-matching system using embedded GPUs
要約 組み込みGPUを介してステレオマッチング用の軽量システムを提示します。 ス … 続きを読む
Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning
要約 マスクされた自動エンコードと生成前削除は、コンピュータービジョンと自然言語 … 続きを読む
カテゴリー: cs.CV
Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning はコメントを受け付けていません
Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning
要約 空間トランスクリプトミクスは、さまざまな空間的位置で遺伝子発現レベルをキャ … 続きを読む
StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams
要約 非調整されたビデオストリームからの動的3Dシーンのリアルタイム再構成は、多 … 続きを読む