Spaces:

RMT-team
/

babilong

Running

App Files Files Community

dsorokin commited on Feb 28

Commit

43b5eac

•

1 Parent(s): 16aecb3

update

Browse files

Files changed (1) hide show

app.py +46 -190

app.py CHANGED Viewed

@@ -17,29 +17,17 @@ basic_component_values = [None] * 6
 leader_component_values = [None] * 5
-def make_default_md(arena_df, elo_results):
-    total_votes = sum(arena_df["num_battles"]) // 2
-    total_models = len(arena_df)
     leaderboard_md = f"""
-# 🏆 LMSYS Chatbot Arena Leaderboard
-| [Vote](https://chat.lmsys.org) | [Blog](https://lmsys.org/blog/2023-05-03-arena/) | [GitHub](https://github.com/lm-sys/FastChat) | [Paper](https://arxiv.org/abs/2306.05685) | [Dataset](https://github.com/lm-sys/FastChat/blob/main/docs/dataset_release.md) | [Twitter](https://twitter.com/lmsysorg) | [Discord](https://discord.gg/HSWAKCrnFx) |
-LMSYS [Chatbot Arena](https://lmsys.org/blog/2023-05-03-arena/) is a crowdsourced open platform for LLM evals.
-We've collected over **200,000** human preference votes to rank LLMs with the Elo ranking system.
 """
     return leaderboard_md
-def make_arena_leaderboard_md(arena_df):
-    total_votes = sum(arena_df["num_battles"]) // 2
-    total_models = len(arena_df)
-    leaderboard_md = f"""
-Total #models: **{total_models}**. Total #votes: **{total_votes}**. Last updated: Feb 15, 2024.
-Contribute your vote 🗳️ at [chat.lmsys.org](https://chat.lmsys.org)! Find more analysis in the [notebook]({notebook_url}).
-"""
     return leaderboard_md
@@ -201,171 +189,45 @@ def get_full_table(arena_df, model_table_df):
         values.append(row)
     values.sort(key=lambda x: -x[1] if not np.isnan(x[1]) else 1e9)
     return values
-def get_arena_table(arena_df, model_table_df):
-    # sort by rating
-    arena_df = arena_df.sort_values(by=["rating"], ascending=False)
-    values = []
-    for i in range(len(arena_df)):
-        row = []
-        model_key = arena_df.index[i]
-        model_name = model_table_df[model_table_df["key"] == model_key]["Model"].values[
-            0
-        ]
-        # rank
-        row.append(i + 1)
-        # model display name
-        row.append(model_name)
-        # elo rating
-        row.append(round(arena_df.iloc[i]["rating"]))
-        upper_diff = round(
-            arena_df.iloc[i]["rating_q975"] - arena_df.iloc[i]["rating"]
-        )
-        lower_diff = round(
-            arena_df.iloc[i]["rating"] - arena_df.iloc[i]["rating_q025"]
-        )
-        row.append(f"+{upper_diff}/-{lower_diff}")
-        # num battles
-        row.append(round(arena_df.iloc[i]["num_battles"]))
-        # Organization
-        row.append(
-            model_table_df[model_table_df["key"] == model_key]["Organization"].values[0]
-        )
-        # license
-        row.append(
-            model_table_df[model_table_df["key"] == model_key]["License"].values[0]
-        )
-        cutoff_date = model_table_df[model_table_df["key"] == model_key]["Knowledge cutoff date"].values[0]
-        if cutoff_date == "-":
-            row.append("Unknown")
-        else:
-            row.append(cutoff_date)
-        values.append(row)
-    return values
-def build_leaderboard_tab(elo_results_file, leaderboard_table_file, show_plot=False):
-    if elo_results_file is None:  # Do live update
-        default_md = "Loading ..."
-        p1 = p2 = p3 = p4 = None
-    else:
-        with open(elo_results_file, "rb") as fin:
-            elo_results = pickle.load(fin)
-        p1 = elo_results["win_fraction_heatmap"]
-        p2 = elo_results["battle_count_heatmap"]
-        p3 = elo_results["bootstrap_elo_rating"]
-        p4 = elo_results["average_win_rate_bar"]
-        arena_df = elo_results["leaderboard_table_df"]
-        default_md = make_default_md(arena_df, elo_results)
     md_1 = gr.Markdown(default_md, elem_id="leaderboard_markdown")
-    if leaderboard_table_file:
-        data = load_leaderboard_table_csv(leaderboard_table_file)
-        model_table_df = pd.DataFrame(data)
-        with gr.Tabs() as tabs:
-            # arena table
-            arena_table_vals = get_arena_table(arena_df, model_table_df)
-            with gr.Tab("Arena Elo", id=0):
-                md = make_arena_leaderboard_md(arena_df)
-                gr.Markdown(md, elem_id="leaderboard_markdown")
-                gr.Dataframe(
-                    headers=[
-                        "Rank",
-                        "🤖 Model",
-                        "⭐ Arena Elo",
-                        "📊 95% CI",
-                        "🗳️ Votes",
-                        "Organization",
-                        "License",
-                        "Knowledge Cutoff",
-                    ],
-                    datatype=[
-                        "str",
-                        "markdown",
-                        "number",
-                        "str",
-                        "number",
-                        "str",
-                        "str",
-                        "str",
-                    ],
-                    value=arena_table_vals,
-                    elem_id="arena_leaderboard_dataframe",
-                    height=700,
-                    column_widths=[50, 200, 120, 100, 100, 150, 150, 100],
-                    wrap=True,
-                )
-            with gr.Tab("Full Leaderboard", id=1):
-                md = make_full_leaderboard_md(elo_results)
-                gr.Markdown(md, elem_id="leaderboard_markdown")
-                full_table_vals = get_full_table(arena_df, model_table_df)
-                gr.Dataframe(
-                    headers=[
-                        "🤖 Model",
-                        "⭐ Arena Elo",
-                        "📈 MT-bench",
-                        "📚 MMLU",
-                        "Organization",
-                        "License",
-                    ],
-                    datatype=["markdown", "number", "number", "number", "str", "str"],
-                    value=full_table_vals,
-                    elem_id="full_leaderboard_dataframe",
-                    column_widths=[200, 100, 100, 100, 150, 150],
-                    height=700,
-                    wrap=True,
-                )
-        if not show_plot:
-            gr.Markdown(
-                """ ## Visit our [HF space](https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard) for more analysis!
-                If you want to see more models, please help us [add them](https://github.com/lm-sys/FastChat/blob/main/docs/arena.md#how-to-add-a-new-model).
-                """,
-                elem_id="leaderboard_markdown",
             )
-    else:
-        pass
-    leader_component_values[:] = [default_md, p1, p2, p3, p4]
-    if show_plot:
-        gr.Markdown(
-            f"""## More Statistics for Chatbot Arena\n
-Below are figures for more statistics. The code for generating them is also included in this [notebook]({notebook_url}).
-You can find more discussions in this blog [post](https://lmsys.org/blog/2023-12-07-leaderboard/).
-    """,
-            elem_id="leaderboard_markdown"
-        )
-        with gr.Row():
-            with gr.Column():
-                gr.Markdown(
-                    "#### Figure 1: Fraction of Model A Wins for All Non-tied A vs. B Battles"
-                )
-                plot_1 = gr.Plot(p1, show_label=False)
-            with gr.Column():
-                gr.Markdown(
-                    "#### Figure 2: Battle Count for Each Combination of Models (without Ties)"
-                )
-                plot_2 = gr.Plot(p2, show_label=False)
-        with gr.Row():
-            with gr.Column():
-                gr.Markdown(
-                    "#### Figure 3: Bootstrap of Elo Estimates (1000 Rounds of Random Sampling)"
-                )
-                plot_3 = gr.Plot(p3, show_label=False)
-            with gr.Column():
-                gr.Markdown(
-                    "#### Figure 4: Average Win Rate Against All Other Models (Assuming Uniform Sampling and No Ties)"
-                )
-                plot_4 = gr.Plot(p4, show_label=False)
-    gr.Markdown(acknowledgment_md)
-    if show_plot:
-        return [md_1, plot_1, plot_2, plot_3, plot_4]
     return [md_1]
 block_css = """
@@ -418,32 +280,26 @@ acknowledgment_md = """
 </div>
 """
-def build_demo(elo_results_file, leaderboard_table_file):
     text_size = gr.themes.sizes.text_lg
     with gr.Blocks(
-        title="Chatbot Arena Leaderboard",
         theme=gr.themes.Base(text_size=text_size),
         css=block_css,
     ) as demo:
         leader_components = build_leaderboard_tab(
-            elo_results_file, leaderboard_table_file, show_plot=True
         )
     return demo
 if __name__ == "__main__":
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--share", action="store_true")
-    args = parser.parse_args()
     elo_result_files = glob.glob("elo_results_*.pkl")
-    # elo_result_files.sort(key=lambda x: int(x[12:-4]))
-    # elo_result_file = elo_result_files[-1]
     leaderboard_table_files = glob.glob("leaderboard_table_*.csv")
     # leaderboard_table_files.sort(key=lambda x: int(x[18:-4]))
     # leaderboard_table_file = leaderboard_table_files[-1]
     demo = build_demo(None, None)
-    demo.launch(share=args.share)

 leader_component_values = [None] * 5
+def make_default_md():
     leaderboard_md = f"""
+# 🏆 BabilongLeaderboard
+| [GitHub](https://github.com/lm-sys/FastChat) | [Paper](https://arxiv.org/abs/2306.05685) | [Dataset](https://github.com/lm-sys/FastChat/blob/main/docs/dataset_release.md) |
 """
     return leaderboard_md
+def make_arena_leaderboard_md():
+    total_models = 'UNK'
+    leaderboard_md = f"""Total #models: **{total_models}**. Last updated: Feb 28, 2024."""
     return leaderboard_md
         values.append(row)
     values.sort(key=lambda x: -x[1] if not np.isnan(x[1]) else 1e9)
     return values
+def build_leaderboard_tab():
+    default_md = make_default_md()
     md_1 = gr.Markdown(default_md, elem_id="leaderboard_markdown")
+    with gr.Tabs() as tabs:
+        # arena table
+        with gr.Tab("Arena Elo", id=0):
+            md = make_arena_leaderboard_md()
+            gr.Markdown(md, elem_id="leaderboard_markdown")
+            gr.Dataframe(
+                headers=[
+                    "Rank",
+                    "🤖 Model",
+                    "⭐ Arena Elo",
+                    "📊 95% CI",
+                    "🗳️ Votes",
+                    "Organization",
+                    "License",
+                    "Knowledge Cutoff",
+                ],
+                datatype=[
+                    "str",
+                    "markdown",
+                    "number",
+                    "str",
+                    "number",
+                    "str",
+                    "str",
+                    "str",
+                ],
+                # value=arena_table_vals,
+                elem_id="arena_leaderboard_dataframe",
+                height=700,
+                column_widths=[50, 200, 120, 100, 100, 150, 150, 100],
+                wrap=True,
             )
     return [md_1]
 block_css = """
 </div>
 """
+def build_demo(leaderboard_table_file):
     text_size = gr.themes.sizes.text_lg
     with gr.Blocks(
+        title="Babilong leaderboard",
         theme=gr.themes.Base(text_size=text_size),
         css=block_css,
     ) as demo:
         leader_components = build_leaderboard_tab(
+            leaderboard_table_file, show_plot=True
         )
     return demo
 if __name__ == "__main__":
     elo_result_files = glob.glob("elo_results_*.pkl")
     leaderboard_table_files = glob.glob("leaderboard_table_*.csv")
     # leaderboard_table_files.sort(key=lambda x: int(x[18:-4]))
     # leaderboard_table_file = leaderboard_table_files[-1]
     demo = build_demo(None, None)
+    demo.launch(share=True)