Spaces:

AIM-Harvard
/

rabbits-leaderboard

Running

App Files Files Community

magilogi commited on Jun 12

Commit

aa9beda

•

1 Parent(s): b83aee7

layout

Browse files

Files changed (1) hide show

app.py +31 -2

app.py CHANGED Viewed

@@ -28,6 +28,9 @@ explanation_data = {
 explanation_df = pd.DataFrame(explanation_data)
 df = pd.read_csv("data/csv/models_data.csv")
 filter_mapping = {
     "all": "all",
@@ -65,6 +68,17 @@ def create_scatter_plot(df, x_col, y_col, title, x_title, y_title):
     fig.update_traces(marker=dict(size=10), selector=dict(mode='markers'))
     return fig
 def create_bar_plot(df, col, title):
     sorted_df = df.sort_values(by=col, ascending=True)
     fig = px.bar(sorted_df,
@@ -109,14 +123,20 @@ with gr.Blocks(css="custom.css") as demo:
             value=create_bar_plot(df, "medqa_diff", "Impact of Generic2Brand swap on MedQA Accuracy"),
             elem_id="bar2"
         )
     with gr.Row():
         gr.Markdown("""  """)
     with gr.Tabs(elem_classes="tab-buttons"):
         with gr.TabItem("🔍 Evaluation table"):
             with gr.Column():
-                with gr.Accordion("➡️ Filter by Column", open=False):
                     shown_columns = gr.CheckboxGroup(
                         choices=df.columns.tolist(),
                         value=df.columns.tolist(),
@@ -227,7 +247,16 @@ with gr.Blocks(css="custom.css") as demo:
                 label="Explanation of Scores"
             )

 explanation_df = pd.DataFrame(explanation_data)
 df = pd.read_csv("data/csv/models_data.csv")
+df['average_g2b'] = df[['medmcqa_g2b', 'medqa_4options_g2b']].mean(axis=1).round(2)
+df['average_orginal_acc'] = df[['medmcqa_orig_filtered', 'medqa_4options_orig_filtered']].mean(axis=1).round(2)
+df['average_diff'] = df[['medmcqa_diff', 'medqa_diff']].mean(axis=1).round(2)
 filter_mapping = {
     "all": "all",
     fig.update_traces(marker=dict(size=10), selector=dict(mode='markers'))
     return fig
+def create_lm_plot(df, x_col, y_col, title, x_title, y_title):
+    fig = px.scatter(df, x=x_col, y=y_col, color='Model', title=title, color_discrete_sequence=px.colors.sequential.solar, trendline='ols')
+    fig.update_layout(
+        xaxis_title=x_title,
+        yaxis_title=y_title,
+        legend_title_text='Model'
+    )
+    fig.update_traces(marker=dict(size=10), selector=dict(mode='markers'))
+    return fig
 def create_bar_plot(df, col, title):
     sorted_df = df.sort_values(by=col, ascending=True)
     fig = px.bar(sorted_df,
             value=create_bar_plot(df, "medqa_diff", "Impact of Generic2Brand swap on MedQA Accuracy"),
             elem_id="bar2"
         )
     with gr.Row():
         gr.Markdown("""  """)
+    default_visible_columns = ['T', 'Model', 'average_original_acc', 'average_g2b','average_diff']
     with gr.Tabs(elem_classes="tab-buttons"):
         with gr.TabItem("🔍 Evaluation table"):
             with gr.Column():
+                with gr.Accordion("➡️ See All Columns", open=False):
                     shown_columns = gr.CheckboxGroup(
                         choices=df.columns.tolist(),
                         value=df.columns.tolist(),
                 label="Explanation of Scores"
             )
+    with gr.Row():
+        bar3 = gr.Plot(
+            value=create_bar_plot(df, "b4bqa", "Which LLMs are best at matching brand names to generic drug names? (Results from custom task)"),
+            elem_id="bar3"
+        )
+    with gr.Row():
+        scatter_g2b = gr.Plot(
+            value=create_lm_plot(df, "b4bqa", "average_g2b", "Does that matching accuracy correlate with biomedical task robustness?", "b4bqa", "average_diff"),
+        )