月別アーカイブ: 2025年1月

Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding

要約 大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクの視覚言語理 … 続きを読む

カテゴリー: cs.AI, cs.CV | Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding はコメントを受け付けていません

Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models

要約 最も一般的な原発性骨癌である骨肉腫では、効果的な治療計画と予後のために、し … 続きを読む

カテゴリー: cs.CV | Bridging Classification and Segmentation in Osteosarcoma Assessment via Foundation and Discrete Diffusion Models はコメントを受け付けていません

VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

要約 単眼映像から正確な3Dモデルを効率的に再構成することは、コンピュータビジョ … 続きを読む

カテゴリー: cs.CV | VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment はコメントを受け付けていません

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation

要約 テキスト-画像拡散モデルから得られる注意マップにおける視覚-テキスト相関は … 続きを読む

カテゴリー: cs.CV | InvSeg: Test-Time Prompt Inversion for Semantic Segmentation はコメントを受け付けていません

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

要約 近年のマルチモーダル大規模言語モデル(MLLM)は、通常、視覚とテキストモ … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction はコメントを受け付けていません

Simultaneous Latent State Estimation and Latent Linear Dynamics Discovery from Image Observations

要約 状態推定問題には長い歴史があり,ノイズの多い観測値が与えられた場合に事後フ … 続きを読む

カテゴリー: cs.LG | Simultaneous Latent State Estimation and Latent Linear Dynamics Discovery from Image Observations はコメントを受け付けていません

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

要約 既存の大規模言語モデル(LLM)のコード推論能力が向上し、OpenAI o … 続きを読む

カテゴリー: cs.CL | CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings はコメントを受け付けていません

MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization

要約 近年、音楽タグ付け、楽器分類、キー検出など、様々な音楽インフォマティクス理 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization はコメントを受け付けていません

Speech Retrieval-Augmented Generation without Automatic Speech Recognition

要約 音声データに対する質問応答の一般的なアプローチの1つは、まず自動音声認識( … 続きを読む

カテゴリー: cs.AI, cs.CL, eess.AS | Speech Retrieval-Augmented Generation without Automatic Speech Recognition はコメントを受け付けていません

BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference

要約 大規模言語モデル(LLM)は目覚ましい成功を収めているが、サイズが大きくな … 続きを読む

カテゴリー: cs.CL, cs.LG | BlockDialect: Block-wise Fine-grained Mixed Format for Energy-Efficient LLM Inference はコメントを受け付けていません