Edit Models filters

Multimodal

Visual Question Answering

Image-Text-to-Text

Document Question Answering

Computer Vision

Image Classification

Object Detection

Video Classification

Image Segmentation

Zero-Shot Image Classification

Image Feature Extraction

Mask Generation

Depth Estimation

Zero-Shot Object Detection

Unconditional Image Generation

Natural Language Processing

Text Generation

Text Classification

Text2Text Generation

Token Classification

Question Answering

Feature Extraction

Sentence Similarity

Zero-Shot Classification

Table Question Answering

Audio

Automatic Speech Recognition

Audio Classification

Voice Activity Detection

Tabular

Tabular Classification

Tabular Regression

Time Series Forecasting

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

217

Full-text search

Active filters: image-text-to-text, transformers

microsoft/Florence-2-large

Image-Text-to-Text • Updated 5 days ago • 88.5k • 757

microsoft/Florence-2-large-ft

Image-Text-to-Text • Updated 5 days ago • 27.9k • 226

vikhyatk/moondream2

Image-Text-to-Text • Updated May 22 • 79.2k • 498

microsoft/Florence-2-base

Image-Text-to-Text • Updated 5 days ago • 24.8k • 96

microsoft/Florence-2-base-ft

Image-Text-to-Text • Updated 5 days ago • 22.9k • 67

HuggingFaceM4/Florence-2-DocVQA

Image-Text-to-Text • Updated 5 days ago • 618 • 26

llava-hf/llava-v1.6-mistral-7b-hf

Image-Text-to-Text • Updated 7 days ago • 3.53M • 168

HuggingFaceM4/idefics2-8b

Image-Text-to-Text • Updated May 30 • 261k • • 533

google/paligemma-3b-mix-224

Image-Text-to-Text • Updated 8 days ago • 170k • 45

openvla/openvla-7b

Image-Text-to-Text • Updated 22 days ago • 14.3k • 44

liuhaotian/llava-v1.5-13b

Image-Text-to-Text • Updated May 9 • 144k • 437

bczhou/TinyLLaVA-1.5B

Image-Text-to-Text • Updated 22 days ago • 817 • 11

deepseek-ai/deepseek-vl-7b-chat

Image-Text-to-Text • Updated Mar 15 • 4.63k • 204

google/paligemma-3b-ft-vqav2-448

Image-Text-to-Text • Updated 8 days ago • 896 • 9

google/paligemma-3b-ft-widgetcap-448

Image-Text-to-Text • Updated 8 days ago • 128 • 2

google/paligemma-3b-pt-896

Image-Text-to-Text • Updated 8 days ago • 4.26k • 92

AIDC-AI/Ovis-Clip-Llama3-8B

Image-Text-to-Text • Updated 21 days ago • 50 • 4

Zhiqiang007/Math-LLaVA

Image-Text-to-Text • Updated 9 days ago • 57 • 3

gokaygokay/Florence-2-SD3-Captioner

Image-Text-to-Text • Updated 11 days ago • 613 • 3

ContactDoctor/Medical-llava-llama-3-multimodal

Image-Text-to-Text • Updated 5 days ago • 5 • 2

mlx-community/dolphin-vision-72b-4bit

Image-Text-to-Text • Updated 1 day ago • 1 • 2

liuhaotian/llava-v1.5-7b

Image-Text-to-Text • Updated May 8 • 397k • 284

liuhaotian/llava-v1.5-7b-lora

Image-Text-to-Text • Updated May 9 • 491 • 18

liuhaotian/llava-v1.5-13b-lora

Image-Text-to-Text • Updated May 9 • 80 • 24

llava-hf/vip-llava-7b-hf

Image-Text-to-Text • Updated 7 days ago • 47.7k • 13

liuhaotian/llava-v1.6-mistral-7b

Image-Text-to-Text • Updated May 8 • 97.7k • 205

liuhaotian/llava-v1.6-vicuna-7b

Image-Text-to-Text • Updated May 9 • 483k • 70

liuhaotian/llava-v1.6-vicuna-13b

Image-Text-to-Text • Updated May 9 • 20.6k • 42

Trelis/llava-v1.6-mistral-7b-PATCHED

Image-Text-to-Text • Updated Mar 6 • 98 • 8

microsoft/udop-large

Image-Text-to-Text • Updated Mar 11 • 5.24k • 100