月別アーカイブ: 2024年6月

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

要約 マルチモーダル大規模モデル (MLLM) の急速な進歩は、視覚と言語を融合 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models はコメントを受け付けていません

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models

要約 パフォーマンス予測は、さまざまな自然言語処理 (NLP) タスクにおける言 … 続きを読む

カテゴリー: cs.CL | ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models はコメントを受け付けていません

On Softmax Direct Preference Optimization for Recommendation

要約 レコメンダー システムは、ユーザーの好みのデータに基づいてパーソナライズさ … 続きを読む

カテゴリー: cs.AI, cs.IR | On Softmax Direct Preference Optimization for Recommendation はコメントを受け付けていません

WonderWorld: Interactive 3D Scene Generation from a Single Image

要約 私たちは、ユーザーが 1 つの入力画像とユーザー指定のテキストに基づいて仮 … 続きを読む

カテゴリー: cs.CV, cs.GR | WonderWorld: Interactive 3D Scene Generation from a Single Image はコメントを受け付けていません

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities はコメントを受け付けていません

Multi-AUV Kinematic Task Assignment based on Self-organizing Map Neural Network and Dubins Path Generator

要約 運動学的制約の下でのマルチ AUV システムのタスク割り当ての問題、つまり … 続きを読む

カテゴリー: cs.RO, cs.SY, eess.SY | Multi-AUV Kinematic Task Assignment based on Self-organizing Map Neural Network and Dubins Path Generator はコメントを受け付けていません

Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning

要約 操作タスクにおけるロボットの \emph{シームレスな動作} のために、閉 … 続きを読む

カテゴリー: cs.RO | Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning はコメントを受け付けていません

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

要約 大規模な視覚言語モデル (VLM) の調整機能を評価することは、役立つアシ … 続きを読む

カテゴリー: cs.CL, cs.CV | AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models はコメントを受け付けていません

Parameter-Efficient Active Learning for Foundational models

要約 基本的なビジョン トランスフォーマー モデルは、多くのビジョン タスクで数 … 続きを読む

カテゴリー: cs.AI, cs.CV | Parameter-Efficient Active Learning for Foundational models はコメントを受け付けていません

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

要約 FinTral は、Mistral-7b モデルに基づいて構築され、財務分 … 続きを読む

カテゴリー: cs.AI, cs.CL | FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models はコメントを受け付けていません