HanSaem Kim's picture

15 11

HanSaem Kim

kensaem

·

AI & ML interests

None yet

Organizations

None yet

kensaem's activity

upvoted 5 papers 3 days ago

Pixtral 12B

Paper • 2410.07073 • Published 7 days ago • 54

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

Paper • 2410.06241 • Published 8 days ago • 10

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Paper • 2410.08159 • Published 6 days ago • 23

Progressive Autoregressive Video Diffusion Models

Paper • 2410.08151 • Published 6 days ago • 15

Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Paper • 2410.07303 • Published 7 days ago • 16

upvoted 2 papers 6 days ago

T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

Paper • 2410.05677 • Published 9 days ago • 14

Diversity-Rewarded CFG Distillation

Paper • 2410.06084 • Published 8 days ago • 10

upvoted 3 papers 13 days ago

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Paper • 2410.02757 • Published 13 days ago • 35

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

Paper • 2410.02740 • Published 13 days ago • 51

LLaVA-Critic: Learning to Evaluate Multimodal Models

Paper • 2410.02712 • Published 13 days ago • 33

upvoted 2 papers 27 days ago

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

Paper • 2409.12191 • Published 28 days ago • 72

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 29 days ago • 82

upvoted 3 papers about 2 months ago

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Paper • 2408.14176 • Published Aug 26 • 59

Training-free Long Video Generation with Chain of Diffusion Model Experts

Paper • 2408.13423 • Published Aug 24 • 20

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Paper • 2408.08872 • Published Aug 16 • 97