Spaces:

gagan3012
/

summarization

Runtime error

App Files Files Community

Dean commited on Aug 4, 2021

Commit

7e3c514

1 Parent(s): c9eec48

Starting to apply fixes for the project to latest version

Browse files

Files changed (8) hide show

.gitignore +0 -1
data.dvc +0 -14
dvc.lock +29 -12
dvc.yaml +11 -2
requirements.txt +0 -1
src/models/evaluate_model.py +3 -3
src/models/model.py +5 -7
src/models/train_model.py +0 -8

.gitignore CHANGED Viewed

@@ -93,6 +93,5 @@ coverage.xml
 .vscode
 /data
-wandb/
 summarization-dagshub/
 /models

 .vscode
 /data
 summarization-dagshub/
 /models

data.dvc DELETED Viewed

@@ -1,14 +0,0 @@
-deps:
-- path: params.yml
-  md5: d0f3e81bc9191e752a69761045a449d9
-  size: 196
-- path: src/data/make_dataset.py
-  md5: 9de71de0f8df5d0a7beb235ef7c7777d
-  size: 772
-cmd: python src/data/make_dataset.py
-outs:
-- md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
-  nfiles: 3
-  path: data/raw
-  size: 1358833013
-md5: ff502232006c7fbef1015b5aa5cc4bbb

dvc.lock CHANGED Viewed

@@ -10,19 +10,22 @@ stages:
       md5: 0900e2bb330df94cb045faddd0b945d1
       size: 1138285
     - path: params.yml
-      md5: d0f3e81bc9191e752a69761045a449d9
-      size: 196
     - path: src/models/train_model.py
-      md5: fca8acf70f09cecd679ca1ddb2eef6a9
-      size: 1198
     outs:
     - path: models
-      md5: 688745a9fb1cc7c8580887bae3873a39.dir
-      size: 486952666
-      nfiles: 10
-    - path: reports/training_metrics.txt
-      md5: 048a956b0eb431535d287bbc3322cf76
-      size: 158
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
@@ -51,8 +54,8 @@ stages:
       size: 0
       nfiles: 0
     - path: params.yml
-      md5: d0f3e81bc9191e752a69761045a449d9
-      size: 196
     - path: src/data/process_data.py
       md5: ba3ba7b7c8a905b736b6b0a28d2334c4
       size: 623
@@ -66,3 +69,17 @@ stages:
     - path: data/processed/validation.csv
       md5: 0900e2bb330df94cb045faddd0b945d1
       size: 1138285

       md5: 0900e2bb330df94cb045faddd0b945d1
       size: 1138285
     - path: params.yml
+      md5: 8ac76f9483ae2d78cf89a2e2be4e8446
+      size: 189
     - path: src/models/train_model.py
+      md5: d57b5ff84bc29a8ea75e191027d70148
+      size: 988
     outs:
     - path: models
+      md5: b8dd7baa6b7b85a7b4c2fcfbe3d831bf.dir
+      size: 243476333
+      nfiles: 5
+    - path: reports/training_metrics.csv
+      md5: f0c89a07561ca8aea8ab3f4764b648e7
+      size: 26
+    - path: reports/training_params.yml
+      md5: 8a80554c91d9fca8acb82f023de02f11
+      size: 3
   eval:
     cmd: python src/models/evaluate_model.py
     deps:
       size: 0
       nfiles: 0
     - path: params.yml
+      md5: 8ac76f9483ae2d78cf89a2e2be4e8446
+      size: 189
     - path: src/data/process_data.py
       md5: ba3ba7b7c8a905b736b6b0a28d2334c4
       size: 623
     - path: data/processed/validation.csv
       md5: 0900e2bb330df94cb045faddd0b945d1
       size: 1138285
+  download_data:
+    cmd: python src/data/make_dataset.py
+    deps:
+    - path: params.yml
+      md5: 8ac76f9483ae2d78cf89a2e2be4e8446
+      size: 189
+    - path: src/data/make_dataset.py
+      md5: 9de71de0f8df5d0a7beb235ef7c7777d
+      size: 772
+    outs:
+    - path: data/raw
+      md5: 2ab20ac1b58df875a590b07d0e04eb5b.dir
+      size: 1358833013
+      nfiles: 3

dvc.yaml CHANGED Viewed

@@ -1,4 +1,11 @@
 stages:
   process_data:
     cmd: python src/data/process_data.py
     deps:
@@ -25,8 +32,10 @@ stages:
     outs:
       - models:
           persist: true
     metrics:
-      - reports/training_metrics.txt:
           cache: false
   eval:
     cmd: python src/models/evaluate_model.py
@@ -36,6 +45,6 @@ stages:
       - models
       - src/models/evaluate_model.py
     metrics:
-      - reports/metrics.txt:
           cache: false

 stages:
+  download_data:
+    cmd: python src/data/make_dataset.py
+    deps:
+      - params.yml
+      - src/data/make_dataset.py
+    outs:
+      - data/raw
   process_data:
     cmd: python src/data/process_data.py
     deps:
     outs:
       - models:
           persist: true
+      - reports/training_params.yml:
+          cache: false
     metrics:
+      - reports/training_metrics.csv:
           cache: false
   eval:
     cmd: python src/models/evaluate_model.py
       - models
       - src/models/evaluate_model.py
     metrics:
+      - reports/metrics.csv:
           cache: false

requirements.txt CHANGED Viewed

@@ -9,7 +9,6 @@ rouge_score
 pyyaml
 dvc
 mlflow
-wandb
 # external requirements
 click

 pyyaml
 dvc
 mlflow
 # external requirements
 click

src/models/evaluate_model.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import dagshub
 import yaml
 from model import Summarization
@@ -18,8 +18,8 @@ def evaluate_model():
     model.load_model(model_type=params['model_type'], model_dir=params['model_dir'])
     results = model.evaluate(test_df=test_df, metrics=params['metric'])
-    with open('reports/metrics.txt', 'w') as fp:
-        json.dump(results, fp)
 if __name__ == '__main__':

+from dagshub import dagshub_logger
 import yaml
 from model import Summarization
     model.load_model(model_type=params['model_type'], model_dir=params['model_dir'])
     results = model.evaluate(test_df=test_df, metrics=params['metric'])
+    with dagshub_logger(should_log_hparams=False) as logger:
+        logger.log_metrics(results)
 if __name__ == '__main__':

src/models/model.py CHANGED Viewed

@@ -7,7 +7,8 @@ from transformers import (
 )
 from torch.utils.data import Dataset, DataLoader
 import pytorch_lightning as pl
-from pytorch_lightning.loggers import MLFlowLogger, WandbLogger
 from pytorch_lightning import Trainer
 from pytorch_lightning.callbacks.early_stopping import EarlyStopping
 from pytorch_lightning import LightningDataModule
@@ -15,8 +16,6 @@ from pytorch_lightning import LightningModule
 from datasets import load_metric
 from tqdm.auto import tqdm
-# from dagshub.pytorch_lightning import DAGsHubLogger
 torch.cuda.empty_cache()
 pl.seed_everything(42)
@@ -330,9 +329,8 @@ class Summarization:
         MLlogger = MLFlowLogger(experiment_name="Summarization",
                                 tracking_uri="https://dagshub.com/gagan3012/summarization.mlflow")
-        WandLogger = WandbLogger(project="summarization-dagshub")
-        # logger = DAGsHubLogger(metrics_path='reports/training_metrics.txt')
         early_stop_callback = (
             [
@@ -351,7 +349,7 @@ class Summarization:
         gpus = -1 if use_gpu and torch.cuda.is_available() else 0
         trainer = Trainer(
-            logger=[WandLogger, MLlogger],
             callbacks=early_stop_callback,
             max_epochs=max_epochs,
             gpus=gpus,

 )
 from torch.utils.data import Dataset, DataLoader
 import pytorch_lightning as pl
+from pytorch_lightning.loggers import MLFlowLogger
+from dagshub.pytorch_lightning import DAGsHubLogger
 from pytorch_lightning import Trainer
 from pytorch_lightning.callbacks.early_stopping import EarlyStopping
 from pytorch_lightning import LightningDataModule
 from datasets import load_metric
 from tqdm.auto import tqdm
 torch.cuda.empty_cache()
 pl.seed_everything(42)
         MLlogger = MLFlowLogger(experiment_name="Summarization",
                                 tracking_uri="https://dagshub.com/gagan3012/summarization.mlflow")
+        logger = DAGsHubLogger(metrics_path='reports/training_metrics.csv',
+                               hparams_path='reports/training_params.yml')
         early_stop_callback = (
             [
         gpus = -1 if use_gpu and torch.cuda.is_available() else 0
         trainer = Trainer(
+            logger=[MLlogger, logger],
             callbacks=early_stop_callback,
             max_epochs=max_epochs,
             gpus=gpus,

src/models/train_model.py CHANGED Viewed

@@ -1,5 +1,3 @@
-import json
 import yaml
 from model import Summarization
@@ -30,12 +28,6 @@ def train_model():
     model.save_model(model_dir=params['model_dir'])
-    with open('wandb/latest-run/files/wandb-summary.json') as json_file:
-        data = json.load(json_file)
-    with open('reports/training_metrics.txt', 'w') as fp:
-        json.dump(data, fp)
 if __name__ == '__main__':
     train_model()

 import yaml
 from model import Summarization
     model.save_model(model_dir=params['model_dir'])
 if __name__ == '__main__':
     train_model()