Edit Models filters

Inference status

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

Misc with no match

4-bit precision

text-embeddings-inference

8-bit precision

Carbon Emissions

Mixture of Experts

Models

1,881

Full-text search

Active filters: ppo

neeldevenshah/ppo-CartPole-v1

Reinforcement Learning • Updated 13 days ago

wilt8/ppo-CartPole-v1

Reinforcement Learning • Updated 12 days ago

wilt8/ppo-CleanRL-LunarLander-v2

Reinforcement Learning • Updated 12 days ago

jvelja/gemma2b-sanity-vllm_0

Reinforcement Learning • Updated 12 days ago • 3

jvelja/gemma-strongOversight-vllm_0

Reinforcement Learning • Updated 11 days ago • 8

jvelja/gemma-strongOversight-vllm_1

Reinforcement Learning • Updated 11 days ago • 6

jvelja/gemma-strongOversight-vllm_2

Reinforcement Learning • Updated 11 days ago • 3

TomTom42/custom-PPO-LunarLander-v2

Reinforcement Learning • Updated 11 days ago

xxrjun/gpt2-imdb-pos-v2

Text Generation • Updated 11 days ago • 6

KoNqUeRoR3891/HW2-ppo

Reinforcement Learning • Updated 10 days ago • 5

yuansui/TinyLLama-v0-PPO-tuned

Reinforcement Learning • Updated 10 days ago • 4

jvelja/gemma2b-sanity-multivllm_0

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_0

Reinforcement Learning • Updated 10 days ago • 4

jvelja/gemma2b-multivllm-dropSus_0

Reinforcement Learning • Updated 10 days ago • 4

jvelja/gemma2b-multivllm-NodropSus_1

Reinforcement Learning • Updated 10 days ago • 2

yuansui/Meta-Llama-3.1-8B-Instruct-PPO-tuned

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_2

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_3

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_4

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_5

Reinforcement Learning • Updated 10 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_6

Reinforcement Learning • Updated 9 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_7

Reinforcement Learning • Updated 9 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_8

Reinforcement Learning • Updated 9 days ago • 4

jvelja/gemma2b-multivllm-NodropSus_9

Reinforcement Learning • Updated 9 days ago • 4

jvelja/gemma2b-multivllm-NodropSus_10

Reinforcement Learning • Updated 9 days ago • 2

jvelja/gemma2b-multivllm-NodropSus_11

Reinforcement Learning • Updated 9 days ago • 4

jvelja/gemma2b-multivllm-NodropSus_12

Reinforcement Learning • Updated 9 days ago • 4

khadivi-ah/LunarLander-v2-2

Reinforcement Learning • Updated 9 days ago

powep/ppo_LunarLander-v2

Reinforcement Learning • Updated 8 days ago

jvelja/gemma2b-NodropSus_0

Reinforcement Learning • Updated 8 days ago • 2