-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年1月
Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding
要約 大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクの視覚言語理 … 続きを読む
Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models
要約 最も一般的な原発性骨癌である骨肉腫では、効果的な治療計画と予後のために、し … 続きを読む
カテゴリー: cs.CV
Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models はコメントを受け付けていません
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment
要約 単眼映像から正確な3Dモデルを効率的に再構成することは、コンピュータビジョ … 続きを読む
カテゴリー: cs.CV
VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation
要約 テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は … 続きを読む
カテゴリー: cs.CV
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation はコメントを受け付けていません
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む
Simultaneous Latent State Estimation and Latent Linear Dynamics Discovery from Image Observations
要約 状態推定問題には長い歴史があり,ノイズの多い観測値が与えられた場合に事後フ … 続きを読む
カテゴリー: cs.LG
Simultaneous Latent State Estimation and Latent Linear Dynamics Discovery from Image Observations はコメントを受け付けていません
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings
要約 既存の大規模言語モデル(LLM)のコード推論能力が向上し、OpenAI o … 続きを読む
カテゴリー: cs.CL
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings はコメントを受け付けていません
MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization
要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む
Speech Retrieval-Augmented Generation without Automatic Speech Recognition
要約 音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識( … 続きを読む
BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference
要約 大規模言語モデル(LLM)は目覚ましい成功を収めているが、サイズが大きくな … 続きを読む