Spaces:

librarian-bots
/

metadata_explorer

Running

App Files Files Community

davanstrien HF Staff commited on Jan 24, 2023

Commit

a159f5a

1 Parent(s): 1000f2a

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -11

app.py CHANGED Viewed

@@ -14,7 +14,11 @@ pd.options.plotting.backend = "plotly"
 def download_dataset():
-    return load_dataset("open-source-metrics/model-repos-stats", split="train", ignore_verifications=True)
 def _clean_tags(tags: Optional[Union[str, List[str]]]):
@@ -51,8 +55,8 @@ def prep_dataset():
     df["has_dataset"] = df.datasets.apply(len) > 0
     df["has_co2"] = df.co2.notnull()
     df["has_co2"] = df.co2.apply(lambda x: x is not None)
-    df['has_license'] = df.license.notnull()
-    df['is_generated'] = df.tags.apply(_is_generated_from_tag)
     df = df.drop(columns=["Unnamed: 0"])
     df.to_parquet("data.parquet")
     return df
@@ -160,12 +164,50 @@ def metadata_coverage_by_library(metadata_field):
     return df.groupby("library")[metadata_field].mean().sort_values().plot.barh()
 def metadata_coverage_by_autogenerated(metadata_field):
     df = load_data()
-    subset_df = df[df['is_generated']].copy(deep=True)
     subset_df.reset_index()
-    subset_df['autogenerated-from'] = subset_df.tags.apply(_parse_tags_for_generated)
-    return subset_df.groupby("autogenerated-from")[metadata_field].mean().sort_values().plot.barh()
 df = load_data()
@@ -221,11 +263,31 @@ with gr.Blocks() as demo:
             metadata_coverage_by_library, [metadata_field], plot, queue=False
         )
     with gr.Tab("Auto generated model cards"):
-        metadata_field = gr.Dropdown(choices=metadata_coverage_columns)
-        plot = gr.Plot()
-        metadata_field.change(
-            metadata_coverage_by_autogenerated, [metadata_field], plot, queue=False
         )
     with gr.Tab("Model Cards"):
         gr.Markdown(
@@ -249,4 +311,4 @@ with gr.Blocks() as demo:
                 model_card_length_by_library, [min_lib_frequency], df, queue=False
             )
-demo.launch(debug=True)

 def download_dataset():
+    return load_dataset(
+        "open-source-metrics/model-repos-stats",
+        split="train",
+        ignore_verifications=True,
+    )
 def _clean_tags(tags: Optional[Union[str, List[str]]]):
     df["has_dataset"] = df.datasets.apply(len) > 0
     df["has_co2"] = df.co2.notnull()
     df["has_co2"] = df.co2.apply(lambda x: x is not None)
+    df["has_license"] = df.license.notnull()
+    df["is_generated"] = df.tags.apply(_is_generated_from_tag)
     df = df.drop(columns=["Unnamed: 0"])
     df.to_parquet("data.parquet")
     return df
     return df.groupby("library")[metadata_field].mean().sort_values().plot.barh()
+def metatadata_coverage_autogenerated_vs_test():
+    df = load_data()
+    subset_df = df[df["is_generated"]].copy(deep=True)
+    subset_df.reset_index()
+    return (
+        df.groupby("is_generated")[[c for c in df.columns if c.startswith("has")]]
+        .mean()
+        .transpose()
+        .round(6)
+        .reset_index()
+        .rename(
+            columns={
+                True: "From autogenerated",
+                False: "Not autogenerated",
+                "index": "Metadata/tag field",
+            }
+        )
+    )
 def metadata_coverage_by_autogenerated(metadata_field):
     df = load_data()
+    subset_df = df[df["is_generated"]].copy(deep=True)
     subset_df.reset_index()
+    subset_df["autogenerated-from"] = subset_df.tags.apply(_parse_tags_for_generated)
+    return (
+        subset_df.groupby("autogenerated-from")[metadata_field]
+        .mean()
+        .sort_values()
+        .plot.barh()
+    )
+def model_card_length_by_autogenerated():
+    df = load_data()
+    subset_df = df[df["is_generated"]].copy(deep=True)
+    subset_df.reset_index()
+    subset_df["autogenerated-from"] = subset_df.tags.apply(_parse_tags_for_generated)
+    return (
+        subset_df.groupby("autogenerated-from")["text_length"]
+        .describe()
+        .round()
+        .reset_index()
+    )
 df = load_data()
             metadata_coverage_by_library, [metadata_field], plot, queue=False
         )
     with gr.Tab("Auto generated model cards"):
+        gr.Markdown(
+            "Some libraries/training frameworks automatically generate a model card when pushing models to "
+            "the hub. The below dataframe compares the metadata coverage across several tags for models "
+            "which are pushed with autogenerated model cards compared to those without. **Note** this "
+            "breakdown relies on tags with `autogenerated` in them."
+            "As a result some model cards might be in the wrong category. "
         )
+        gr.Dataframe(metatadata_coverage_autogenerated_vs_test())
+        with gr.Row():
+            metadata_field = gr.Dropdown(choices=metadata_coverage_columns)
+            plot = gr.Plot()
+            metadata_field.change(
+                metadata_coverage_by_autogenerated, [metadata_field], plot, queue=False
+            )
+        #     )
+        # with gr.Row():
+        #
+        #     # with gr.Column():
+        #     #     plot = gr.Plot()
+        #     #     min_lib_frequency.change(
+        #     #         model_card_length_by_autogenerated, [min_lib_frequency], plot, queue=False
+        #     #     )
+        #     with gr.Column():
+        #         gr.Markdown("Mean length of model card for autogenerated_from * model cards")
+        #         df = gr.Dataframe(model_card_length_by_autogenerated)
     with gr.Tab("Model Cards"):
         gr.Markdown(
                 model_card_length_by_library, [min_lib_frequency], df, queue=False
             )
+demo.launch()