-
最近の投稿
- Learning 3D Perception from Others’ Predictions
- Tokenization Falling Short: On Subword Robustness in Large Language Models
- Video Instruction Tuning With Synthetic Data
- StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge
-
最近のコメント
表示できるコメントはありません。 cs.AI (27643) cs.CL (20884) cs.CR (2168) cs.CV (34378) cs.LG (32374) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.CV」カテゴリーアーカイブ
2D or not 2D: How Does the Dimensionality of Gesture Representation Affect 3D Co-Speech Gesture Generation?
要約 共同スピーチのジェスチャーはコミュニケーションの基本です。 最近の深層学習 … 続きを読む
Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition
要約 自動手話 (SL) 認識は、コンピューター ビジョン コミュニティにおける … 続きを読む
Learning from Pattern Completion: Self-supervised Controllable Generation
要約 人間の脳は、通常は情報を監視することなく、スケッチや落書きを現実世界の視覚 … 続きを読む
Multi-modal Medical Image Fusion For Non-Small Cell Lung Cancer Classification
要約 世界中のがん死亡の主な原因である非小細胞肺がん(NSCLC)の早期発見と微 … 続きを読む
I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing
要約 命令ベースの画像編集 (IIE) の分野では大きな進歩が見られました。 た … 続きを読む
A Generalized Tensor Formulation for Hyperspectral Image Super-Resolution Under General Spatial Blurring
要約 ハイパースペクトル超解像は一般に、低空間解像度のハイパースペクトル イメー … 続きを読む
Effectiveness of learning-based image codecs on fingerprint storage
要約 学習ベースのコーディング技術の成功と、JPEG-AI などの学習ベースの画 … 続きを読む
Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer
要約 視覚に基づいた認識と推論は、自律システムにおけるシーンの理解に不可欠です。 … 続きを読む
Enhancing Explainability in Multimodal Large Language Models Using Ontological Context
要約 最近、マルチモーダル大規模言語モデル (MLLM) への関心が高まっていま … 続きを読む
High-Frequency Anti-DreamBooth: Robust Defense against Personalized Image Synthesis
要約 最近、テキストから画像への生成モデルが悪用されて、個人の不正な悪意のある画 … 続きを読む