投稿者「jarxiv」のアーカイブ

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約 最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO はコメントを受け付けていません

HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference

要約 高解像度のシノグラムの開始は、高周波投影が見られないと目に見えるアーティフ … 続きを読む

カテゴリー: cs.CV, eess.IV | HiSin: Efficient High-Resolution Sinogram Inpainting via Resolution-Guided Progressive Inference はコメントを受け付けていません

Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought

要約 ビデオ分析からインタラクティブなシステムに至るまで、ビデオコンテンツの理解 … 続きを読む

カテゴリー: cs.CV | Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought はコメントを受け付けていません

CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics

要約 視覚コンテンツの生成のツールとしてのテキストからイメージ(T2I)モデルの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics はコメントを受け付けていません

TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler

要約 ビデオ行動の認識とシーンの理解は、マルチモーダルインテリジェンスの基本的な … 続きを読む

カテゴリー: cs.CV | TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler はコメントを受け付けていません

Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis

要約 医学的超音波検査は、リンパ節、乳房、甲状腺などの表在臓器や組織を調べるため … 続きを読む

カテゴリー: cs.CV | Adapting Vision-Language Foundation Model for Next Generation Medical Ultrasound Image Analysis はコメントを受け付けていません

StereoVAE: A lightweight stereo-matching system using embedded GPUs

要約 組み込みGPUを介してステレオマッチング用の軽量システムを提示します。 ス … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo-matching system using embedded GPUs はコメントを受け付けていません

Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning

要約 マスクされた自動エンコードと生成前削除は、コンピュータービジョンと自然言語 … 続きを読む

カテゴリー: cs.CV | Mitigating Prior Shape Bias in Point Clouds via Differentiable Center Learning はコメントを受け付けていません

Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning

要約 空間トランスクリプトミクスは、さまざまな空間的位置で遺伝子発現レベルをキャ … 続きを読む

カテゴリー: cs.AI, cs.CV | Spatial Transcriptomics Expression Prediction from Histopathology Based on Cross-Modal Mask Reconstruction and Contrastive Learning はコメントを受け付けていません

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

要約 非調整されたビデオストリームからの動的3Dシーンのリアルタイム再構成は、多 … 続きを読む

カテゴリー: cs.CV, cs.LG | StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams はコメントを受け付けていません