月別アーカイブ: 2024年6月

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

投稿日: 2024年6月17日作成者: jarxiv

要約マルチモーダル大規模モデル (MLLM) の急速な進歩は、視覚と言語を融合 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models

投稿日: 2024年6月17日作成者: jarxiv

要約パフォーマンス予測は、さまざまな自然言語処理 (NLP) タスクにおける言 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

On Softmax Direct Preference Optimization for Recommendation

投稿日: 2024年6月17日作成者: jarxiv

要約レコメンダーシステムは、ユーザーの好みのデータに基づいてパーソナライズさ … 続きを読む →

カテゴリー: cs.AI, cs.IR | コメントを受け付けていません

WonderWorld: Interactive 3D Scene Generation from a Single Image

投稿日: 2024年6月17日作成者: jarxiv

要約私たちは、ユーザーが 1 つの入力画像とユーザー指定のテキストに基づいて仮 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

投稿日: 2024年6月17日作成者: jarxiv

要約 4M や UnifiedIO などの現在のマルチモーダルおよびマルチタスク … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Multi-AUV Kinematic Task Assignment based on Self-organizing Map Neural Network and Dubins Path Generator

投稿日: 2024年6月17日作成者: jarxiv

要約運動学的制約の下でのマルチ AUV システムのタスク割り当ての問題、つまり … 続きを読む →

カテゴリー: cs.RO, cs.SY, eess.SY | コメントを受け付けていません

Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning

投稿日: 2024年6月17日作成者: jarxiv

要約操作タスクにおけるロボットの \emph{シームレスな動作} のために、閉 … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

投稿日: 2024年6月17日作成者: jarxiv

要約大規模な視覚言語モデル (VLM) の調整機能を評価することは、役立つアシ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Parameter-Efficient Active Learning for Foundational models

投稿日: 2024年6月17日作成者: jarxiv

要約基本的なビジョントランスフォーマーモデルは、多くのビジョンタスクで数 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

投稿日: 2024年6月17日作成者: jarxiv

要約 FinTral は、Mistral-7b モデルに基づいて構築され、財務分 … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年6月

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

ProxyLM: Predicting Language Model Performance on Multilingual Tasks via Proxy Models

On Softmax Direct Preference Optimization for Recommendation

WonderWorld: Interactive 3D Scene Generation from a Single Image

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

Multi-AUV Kinematic Task Assignment based on Self-organizing Map Neural Network and Dubins Path Generator

Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning

AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models

Parameter-Efficient Active Learning for Foundational models

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー