cs.CV」カテゴリーアーカイブ

Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis

要約 最近の進歩により、マルチイメージ情報を理解するためのマルチモーダル大手言語 … 続きを読む

カテゴリー: cs.CV | Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis はコメントを受け付けていません

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

要約 模倣は人間の基本的な学習メカニズムであり、個人が専門家を観察し模倣すること … 続きを読む

カテゴリー: cs.CV, cs.RO | UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations はコメントを受け付けていません

Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data

要約 光リアリックな拡散モデルの開発により、合成データで部分的または完全にトレー … 続きを読む

カテゴリー: cs.AI, cs.CV | Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data はコメントを受け付けていません

Style Customization of Text-to-Vector Generation with Image Diffusion Priors

要約 スケーラブルなベクトルグラフィックス(SVG)は、解像度の独立性とよく組織 … 続きを読む

カテゴリー: cs.CV, cs.GR | Style Customization of Text-to-Vector Generation with Image Diffusion Priors はコメントを受け付けていません

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

要約 大規模なマルチモーダルモデルのトレーニングに広く使用されている自然言語画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning はコメントを受け付けていません

End-to-End Vision Tokenizer Tuning

要約 既存の視覚トークン化は、視覚トークンがさまざまなタスク、例えば画像生成や視 … 続きを読む

カテゴリー: cs.CV | End-to-End Vision Tokenizer Tuning はコメントを受け付けていません

Depth Anything with Any Prior

要約 このワークは、以前の深さを提示します。これは、不完全であるが正確なメトリッ … 続きを読む

カテゴリー: cs.CV | Depth Anything with Any Prior はコメントを受け付けていません

3D-Fixup: Advancing Photo Editing with 3D Priors

要約 拡散モデルを介したモデリング画像プリエアの大幅な進歩にもかかわらず、オブジ … 続きを読む

カテゴリー: cs.CV | 3D-Fixup: Advancing Photo Editing with 3D Priors はコメントを受け付けていません

Behind Maya: Building a Multilingual Vision Language Model

要約 最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。 … 続きを読む

カテゴリー: cs.CL, cs.CV | Behind Maya: Building a Multilingual Vision Language Model はコメントを受け付けていません

RT-cache: Efficient Robot Trajectory Retrieval System

要約 このホワイトペーパーでは、ビッグデータの検索を活用して経験から学ぶことによ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | RT-cache: Efficient Robot Trajectory Retrieval System はコメントを受け付けていません