Spaces:

gagan3012
/

summarization

Runtime error

App Files Files Community

Dean commited on Aug 5, 2021

Commit

d5a6d18

1 Parent(s): c6912f8

committing after a bunch of fixes and before re-running with dvc

Browse files

Files changed (17) hide show

.gitignore +2 -1
Makefile +9 -1
data_params.yml +2 -0
dvc.lock +13 -13
dvc.yaml +11 -6
params.yml → model_params.yml +6 -8
reports/training_metrics.csv +10 -18
reports/training_params.yml +1 -0
requirements.txt +4 -3
src/data/make_dataset.py +1 -1
src/data/process_data.py +1 -1
src/models/evaluate_model.py +1 -1
src/models/hf_upload.py +47 -0
src/models/model.py +1 -32
src/models/predict_model.py +1 -1
src/models/train_model.py +3 -6
src/visualization/visualize.py +2 -7

.gitignore CHANGED Viewed

@@ -96,4 +96,5 @@ coverage.xml
 summarization-dagshub/
 /models
 default/
-artifacts/

 summarization-dagshub/
 /models
 default/
+artifacts/
+mlruns/

Makefile CHANGED Viewed

@@ -48,7 +48,15 @@ pull:
 ## run the DVC pipeline - recompute any modified outputs such as processed data or trained models
 run:
-	dvc repro dvc.yaml
 #################################################################################
 # PROJECT RULES                                                                 #

 ## run the DVC pipeline - recompute any modified outputs such as processed data or trained models
 run:
+	dvc repro dvc.yaml eval
+## run the visualization using Streamlit
+visualize:
+	dvc repro dvc.yaml visualize
+## push the trained model to HF model hub
+push_to_hf_hub:
+	dvc repro dvc.yaml push_to_hf_hub
 #################################################################################
 # PROJECT RULES                                                                 #

data_params.yml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ data: cnn_dailymail
2	+ split: 0.01

dvc.lock CHANGED Viewed

@@ -54,30 +54,30 @@ stages:
       size: 1358833013
       nfiles: 3
     - path: params.yml
-      md5: 200ce3c4d9f2e8b9eb040ef93eb22757
-      size: 189
     - path: src/data/process_data.py
-      md5: 7633b8978c523858d18b1ce9a5d3c8b7
       size: 516
     outs:
     - path: data/processed/test.csv
-      md5: 3cb7b63891f12d53b3ef3e81a2e93f8e
-      size: 986944
     - path: data/processed/train.csv
-      md5: 51edd724b75a8e99a78b9138f8f37c60
-      size: 25012573
     - path: data/processed/validation.csv
-      md5: 0900e2bb330df94cb045faddd0b945d1
-      size: 1138285
   download_data:
     cmd: python src/data/make_dataset.py
     deps:
     - path: params.yml
-      md5: 200ce3c4d9f2e8b9eb040ef93eb22757
-      size: 189
     - path: src/data/make_dataset.py
-      md5: 9de71de0f8df5d0a7beb235ef7c7777d
-      size: 772
     outs:
     - path: data/raw
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir

       size: 1358833013
       nfiles: 3
     - path: params.yml
+      md5: 160cbfd0ed8f87c9c5cb28fbeef1072d
+      size: 266
     - path: src/data/process_data.py
+      md5: 5b6aaadc5a628979956d502b4fb4ebf2
       size: 516
     outs:
     - path: data/processed/test.csv
+      md5: 5f2bfb37d55a13ead3c81564dbee2fd5
+      size: 508508
     - path: data/processed/train.csv
+      md5: 707c5ed455a15ec48965daf92fed7df6
+      size: 12653913
     - path: data/processed/validation.csv
+      md5: 1e021dc163cc87a32cef74a98e4a0d51
+      size: 558403
   download_data:
     cmd: python src/data/make_dataset.py
     deps:
     - path: params.yml
+      md5: 160cbfd0ed8f87c9c5cb28fbeef1072d
+      size: 266
     - path: src/data/make_dataset.py
+      md5: 075c6233f8732eedf7915732f9a8ebfd
+      size: 771
     outs:
     - path: data/raw
       md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir

dvc.yaml CHANGED Viewed

@@ -2,14 +2,14 @@ stages:
   download_data:
     cmd: python src/data/make_dataset.py
     deps:
-      - params.yml
       - src/data/make_dataset.py
     outs:
       - data/raw
   process_data:
     cmd: python src/data/process_data.py
     deps:
-      - params.yml
       - data/raw
       - src/data/process_data.py
     outs:
@@ -25,7 +25,7 @@ stages:
   train:
     cmd: python src/models/train_model.py
     deps:
-      - params.yml
       - data/processed/train.csv
       - data/processed/validation.csv
       - src/models/train_model.py
@@ -38,7 +38,7 @@ stages:
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
-      - params.yml
       - data/processed/test.csv
       - models
       - src/models/evaluate_model.py
@@ -50,8 +50,13 @@ stages:
     deps:
       - models
       - src/visualization/visualize.py
-      - params.yml
     metrics:
-      - reports/visualization_metrics.csv:
           cache: false

   download_data:
     cmd: python src/data/make_dataset.py
     deps:
+      - data_params.yml
       - src/data/make_dataset.py
     outs:
       - data/raw
   process_data:
     cmd: python src/data/process_data.py
     deps:
+      - data_params.yml
       - data/raw
       - src/data/process_data.py
     outs:
   train:
     cmd: python src/models/train_model.py
     deps:
+      - model_params.yml
       - data/processed/train.csv
       - data/processed/validation.csv
       - src/models/train_model.py
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
+      - model_params.yml
       - data/processed/test.csv
       - models
       - src/models/evaluate_model.py
     deps:
       - models
       - src/visualization/visualize.py
     metrics:
+      - reports/visualization_metrics.txt:
           cache: false
+  push_to_hf_hub:
+    cmd: python src/models/hf_upload.py
+    deps:
+      - model_params.yml
+      - src/models/hf_upload.py
+      - models

params.yml → model_params.yml RENAMED Viewed

@@ -1,16 +1,14 @@
 name: summarsiation
-data: cnn_dailymail
-batch_size: 2
-num_workers: 2
 model_type: t5
 model_name: t5-small
-learning_rate: 1e-4
 epochs: 5
-source_dir: src
 model_dir: models
 metric: rouge
-split: 0.001
-use_gpu: True
 visualise: True
 hf_username: gagan3012
-upload_to_hf: True

 name: summarsiation
 model_type: t5
 model_name: t5-small
+batch_size: 2
 epochs: 5
+use_gpu: True
+learning_rate: 1e-4
+num_workers: 2
 model_dir: models
 metric: rouge
+source_dir: src
 visualise: True
 hf_username: gagan3012
+upload_to_hf: False

reports/training_metrics.csv CHANGED Viewed

@@ -1,19 +1,11 @@
 Name,Value,Timestamp,Step
-"train_loss",4.101656913757324,1627559482684,49
-"epoch",0,1627559482684,49
-"val_loss",2.6896562576293945,1627559491036,57
-"epoch",0,1627559491036,57
-"train_loss",4.598623752593994,1627559499092,99
-"epoch",1,1627559499092,99
-"val_loss",2.472928047180176,1627559505946,115
-"epoch",1,1627559505946,115
-"train_loss",1.4196646213531494,1627559515636,149
-"epoch",2,1627559515636,149
-"val_loss",2.311669111251831,1627559521015,173
-"epoch",2,1627559521015,173
-"train_loss",0.9744294881820679,1627559532066,199
-"epoch",3,1627559532066,199
-"val_loss",2.2401840686798096,1627559535896,231
-"epoch",3,1627559535896,231
-"train_loss",2.785480260848999,1627559548623,249
-"epoch",4,1627559548623,249

 Name,Value,Timestamp,Step
+"val_loss",5.029108047485352,1628177741756,14
+"epoch",0,1628177741756,14
+"val_loss",4.757647514343262,1628177893078,29
+"epoch",1,1628177893078,29
+"val_loss",4.493412494659424,1628177940684,44
+"epoch",2,1628177940684,44
+"train_loss",1.328701138496399,1628178045108,49
+"epoch",3,1628178045108,49
+"val_loss",4.228608131408691,1628178200552,59
+"epoch",3,1628178200552,59

reports/training_params.yml ADDED Viewed

	@@ -0,0 +1 @@


1	+ status: success

requirements.txt CHANGED Viewed

@@ -5,10 +5,11 @@ transformers==4.9.0
 torch==1.9.0
 dagshub==0.1.7
 pandas==1.1.5
-rouge_score
 pyyaml
-dvc
-mlflow
 # external requirements
 click

 torch==1.9.0
 dagshub==0.1.7
 pandas==1.1.5
+rouge_score==0.0.4
+dvc==2.5.4
+mlflow==1.19.0
+streamlit==0.85.1
 pyyaml
 # external requirements
 click

src/data/make_dataset.py CHANGED Viewed

@@ -17,7 +17,7 @@ def make_dataset(dataset="cnn_dailymail", split="train"):
 if __name__ == "__main__":
-    with open("params.yml") as f:
         params = yaml.safe_load(f)
     pprint.pprint(params)
     make_dataset(dataset=params["data"], split="train")

 if __name__ == "__main__":
+    with open("data_params.yml") as f:
         params = yaml.safe_load(f)
     pprint.pprint(params)
     make_dataset(dataset=params["data"], split="train")

src/data/process_data.py CHANGED Viewed

@@ -5,7 +5,7 @@ import os
 def process_data(split="train"):
-    with open("params.yml") as f:
         params = yaml.safe_load(f)
     df = pd.read_csv("data/raw/{}.csv".format(split))

 def process_data(split="train"):
+    with open("data_params.yml") as f:
         params = yaml.safe_load(f)
     df = pd.read_csv("data/raw/{}.csv".format(split))

src/models/evaluate_model.py CHANGED Viewed

@@ -10,7 +10,7 @@ def evaluate_model():
     """
     Evaluate model using rouge measure
     """
-    with open("params.yml") as f:
         params = yaml.safe_load(f)
     test_df = pd.read_csv("data/processed/test.csv")[:25]

     """
     Evaluate model using rouge measure
     """
+    with open("model_params.yml") as f:
         params = yaml.safe_load(f)
     test_df = pd.read_csv("data/processed/test.csv")[:25]

src/models/hf_upload.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import shutil
+from getpass import getpass
+from pathlib import Path
+import yaml
+from model import Summarization
+from huggingface_hub import HfApi, Repository
+def upload(upload_model, model_name):
+    hf_username = input("Enter your HuggingFace username:")
+    hf_password = getpass("Enter your HuggingFace password:")
+    if Path("./models").exists():
+        shutil.rmtree("./models")
+    token = HfApi().login(username=hf_username, password=hf_password)
+    del hf_password
+    model_url = HfApi().create_repo(token=token, name=model_name, exist_ok=True)
+    model_repo = Repository(
+        "./model",
+        clone_from=model_url,
+        use_auth_token=token,
+        git_email=f"{hf_username}@users.noreply.huggingface.co",
+        git_user=hf_username,
+    )
+    readme_txt = f"""
+            ---
+            Summarisation model {model_name}
+            """.strip()
+    (Path(model_repo.local_dir) / "README.md").write_text(readme_txt)
+    upload_model.save_model()
+    commit_url = model_repo.push_to_hub()
+    print("Check out your model at:")
+    print(commit_url)
+    print(f"https://huggingface.co/{hf_username}/{model_name}")
+if __name__ == "__main__":
+    with open("model_params.yml") as f:
+        params = yaml.safe_load(f)
+    model = Summarization()
+    model.load_model(model_dir="./models")
+    upload(upload_model=model, model_name=params["name"])

src/models/model.py CHANGED Viewed

@@ -1,10 +1,7 @@
-import shutil
-from getpass import getpass
-from pathlib import Path
 import torch
 import pandas as pd
-from huggingface_hub import HfApi, Repository
 from transformers import (
     AdamW,
     T5ForConditionalGeneration,
@@ -550,31 +547,3 @@ class Summarization:
             "rougeLsum High F1": results["rougeLsum"].high.fmeasure,
         }
         return output
-    def upload(self, hf_username, model_name):
-        hf_password = getpass("Enter your HuggingFace password")
-        if Path("./models").exists():
-            shutil.rmtree("./models")
-        token = HfApi().login(username=hf_username, password=hf_password)
-        del hf_password
-        model_url = HfApi().create_repo(token=token, name=model_name, exist_ok=True)
-        model_repo = Repository(
-            "./model",
-            clone_from=model_url,
-            use_auth_token=token,
-            git_email=f"{hf_username}@users.noreply.huggingface.co",
-            git_user=hf_username,
-        )
-        readme_txt = f"""
-            ---
-            Summarisation model {model_name}
-            """.strip()
-        (Path(model_repo.local_dir) / "README.md").write_text(readme_txt)
-        self.save_model()
-        commit_url = model_repo.push_to_hub()
-        print("Check out your model at:")
-        print(commit_url)
-        print(f"https://huggingface.co/{hf_username}/{model_name}")

 import torch
 import pandas as pd
 from transformers import (
     AdamW,
     T5ForConditionalGeneration,
             "rougeLsum High F1": results["rougeLsum"].high.fmeasure,
         }
         return output

src/models/predict_model.py CHANGED Viewed

@@ -8,7 +8,7 @@ def predict_model(text):
     """
     Predict the summary of the given text.
     """
-    with open("params.yml") as f:
         params = yaml.safe_load(f)
     model = Summarization()

     """
     Predict the summary of the given text.
     """
+    with open("model_params.yml") as f:
         params = yaml.safe_load(f)
     model = Summarization()

src/models/train_model.py CHANGED Viewed

@@ -8,15 +8,15 @@ def train_model():
     """
     Train the model
     """
-    with open("params.yml") as f:
         params = yaml.safe_load(f)
     # Load the data
     train_df = pd.read_csv("data/processed/train.csv")
     eval_df = pd.read_csv("data/processed/validation.csv")
-    train_df = train_df.sample(frac=params["split"], replace=True, random_state=1)
-    eval_df = eval_df.sample(frac=params["split"], replace=True, random_state=1)
     model = Summarization()
     model.from_pretrained(
@@ -35,9 +35,6 @@ def train_model():
     model.save_model(model_dir=params["model_dir"])
-    if params["upload_to_hf"]:
-        model.upload(hf_username=params["hf_username"], model_name=params["name"])
 if __name__ == "__main__":
     train_model()

     """
     Train the model
     """
+    with open("model_params.yml") as f:
         params = yaml.safe_load(f)
     # Load the data
     train_df = pd.read_csv("data/processed/train.csv")
     eval_df = pd.read_csv("data/processed/validation.csv")
+    train_df = train_df.sample(random_state=1)
+    eval_df = eval_df.sample(random_state=1)
     model = Summarization()
     model.from_pretrained(
     model.save_model(model_dir=params["model_dir"])
 if __name__ == "__main__":
     train_model()

src/visualization/visualize.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import streamlit as st
-import yaml
-from models import predict_model
 def visualize():
@@ -25,8 +24,4 @@ def visualize():
 if __name__ == "__main__":
-    with open("params.yml") as f:
-        params = yaml.safe_load(f)
-    if params["visualise"]:
-        visualize()

 import streamlit as st
+from ..models import predict_model
 def visualize():
 if __name__ == "__main__":
+    visualize()