luodian (Bo Li)

upvoted 6 papers 11 days ago

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Paper • 2410.02740 • Published 12 days ago • 51

Video Instruction Tuning With Synthetic Data

Paper • 2410.02713 • Published 12 days ago • 33

LLaVA-Critic: Learning to Evaluate Multimodal Models

Paper • 2410.02712 • Published 12 days ago • 32

upvoted a collection 15 days ago

LLaVA-OneVision

Collection

a model good at arbitrary types of visual input • 15 items • Updated 10 days ago • 20

upvoted a paper 2 months ago

LLaVA-OneVision: Easy Visual Task Transfer

Paper • 2408.03326 • Published Aug 6 • 59

upvoted a paper 3 months ago

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Paper • 2407.12772 • Published Jul 17 • 33

upvoted a collection 4 months ago

LLaVA-Next-Interleave

Collection

7 items • Updated 11 days ago • 15

upvoted a paper 4 months ago

Long Context Transfer from Language to Vision

Paper • 2406.16852 • Published Jun 24 • 32

upvoted a collection 5 months ago

LLaVA-NeXT

Collection

Some powerful image models. • 10 items • Updated 1 day ago • 2

upvoted 2 collections 6 months ago

LMMs-Eval

Collection

Dataset Collection of LMMs-Eval • 36 items • Updated 11 days ago • 24

LLaVA-Video

Collection

Models focus on video understanding (previously known as LLaVA-NeXT-Video). • 6 items • Updated 10 days ago • 48

upvoted a paper 11 months ago

OtterHD: A High-Resolution Multi-modality Model

Paper • 2311.04219 • Published Nov 7, 2023 • 31

upvoted a paper about 1 year ago

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

Paper • 2310.08588 • Published Oct 12, 2023 • 34

Bo Li

AI & ML interests

Organizations

luodian's activity

Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

Contrastive Localized Language-Image Pre-Training

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Video Instruction Tuning With Synthetic Data

LLaVA-Critic: Learning to Evaluate Multimodal Models

LLaVA-OneVision

LLaVA-OneVision: Easy Visual Task Transfer

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

LLaVA-Next-Interleave

Long Context Transfer from Language to Vision

LLaVA-NeXT

LMMs-Eval

LLaVA-Video

OtterHD: A High-Resolution Multi-modality Model

Octopus: Embodied Vision-Language Programmer from Environmental Feedback