fblgit
/

UNA-SOLAR-10.7B-Instruct-v1.0

 - Tokenizers 0.14.1
 ## Evals LM-Evaluation Harness
+`mt-bench`:
+```
+Mode: single
+Input file: data/mt_bench/model_judgment/gpt-4_single.jsonl
+########## First turn ##########
+                                      score
+model                         turn
+gpt-4                         1     8.95625
+claude-v1                     1     8.15000
+gpt-3.5-turbo                 1     8.07500
+LUNA-SOLARkrautLM-Instruct    1     7.93750
+UNA-SOLAR-10.7B-Instruct-v1.0 1     7.80625
+vicuna-33b-v1.3               1     7.45625
+wizardlm-30b                  1     7.13125
+tulu-30b                      1     7.01875
+vicuna-13b-v1.3               1     6.81250
+guanaco-65b                   1     6.78125
+nous-hermes-13b               1     6.43125
+alpaca-13b                    1     4.97500
+rwkv-4-raven-14b              1     4.74375
+llama-13b                     1     3.26250
+########## Second turn ##########
+                                       score
+model                         turn
+gpt-4                         2     9.025000
+gpt-3.5-turbo                 2     7.812500
+claude-v1                     2     7.650000
+UNA-SOLAR-10.7B-Instruct-v1.0 2     7.237500
+LUNA-SOLARkrautLM-Instruct    2     6.987500
+wizardlm-30b                  2     6.887500
+vicuna-33b-v1.3               2     6.787500
+guanaco-65b                   2     6.037500
+vicuna-13b-v1.3               2     5.962500
+tulu-30b                      2     5.850000
+nous-hermes-13b               2     4.664557
+alpaca-13b                    2     4.087500
+rwkv-4-raven-14b              2     3.225000
+llama-13b                     2     1.950000
+########## Average ##########
+                                  score
+model
+gpt-4                          8.990625
+gpt-3.5-turbo                  7.943750
+claude-instant-v1              7.905660
+claude-v1                      7.900000
+UNA-SOLAR-10.7B-Instruct-v1.0  7.521875
+LUNA-SOLARkrautLM-Instruct     7.462500
+vicuna-33b-v1.3                7.121875
+wizardlm-30b                   7.009375
+Llama-2-70b-chat               6.856250
+Llama-2-13b-chat               6.650000
+guanaco-33b                    6.528125
+tulu-30b                       6.434375
+guanaco-65b                    6.409375
+oasst-sft-7-llama-30b          6.409375
+palm-2-chat-bison-001          6.400000
+mpt-30b-chat                   6.393750
+vicuna-13b-v1.3                6.387500
+wizardlm-13b                   6.353125
+Llama-2-7b-chat                6.268750
+vicuna-7b-v1.3                 5.996875
+baize-v2-13b                   5.750000
+nous-hermes-13b                5.553459
+mpt-7b-chat                    5.459119
+gpt4all-13b-snoozy             5.452830
+koala-13b                      5.350000
+mpt-30b-instruct               5.218750
+falcon-40b-instruct            5.168750
+h2ogpt-oasst-open-llama-13b    4.625000
+alpaca-13b                     4.531250
+chatglm-6b                     4.500000
+oasst-sft-4-pythia-12b         4.318750
+rwkv-4-raven-14b               3.984375
+dolly-v2-12b                   3.275000
+fastchat-t5-3b                 3.040625
+stablelm-tuned-alpha-7b        2.753125
+llama-13b                      2.606250
+```
 `big-refactor` branch: