Spaces:

gagan3012
/

summarization

Runtime error

gagan3012 commited on Jul 22, 2021

Commit

9988244

1 Parent(s): c420ca5

Update

Files changed (3) hide show

dvc.yaml CHANGED Viewed

@@ -3,6 +3,7 @@ stages:
     cmd: python src/models/train_model.py
     deps:
       - data/processed/train.csv
       - src/models/train_model.py
     outs:
       - models:

     cmd: python src/models/train_model.py
     deps:
       - data/processed/train.csv
+      - data/processed/validation.csv
       - src/models/train_model.py
     outs:
       - models:

src/data/make_dataset.py CHANGED Viewed

@@ -6,9 +6,9 @@ def make_dataset(dataset='cnn_dailymail', split='train'):
     """make dataset for summarisation"""
     dataset = load_dataset(dataset, '3.0.0', split=split)
     df = pd.DataFrame()
-    df['input_text'] = dataset['article']
-    df['output_text'] = dataset['highlights']
-    df.to_csv('C:/Users/gbhat/Documents/GitHub/summarization/data/processed/{}.csv'.format(split, split))
 if __name__ == '__main__':

     """make dataset for summarisation"""
     dataset = load_dataset(dataset, '3.0.0', split=split)
     df = pd.DataFrame()
+    df['article'] = dataset['article']
+    df['highlights'] = dataset['highlights']
+    df.to_csv('summarization/data/raw/{}.csv'.format(split))
 if __name__ == '__main__':

src/data/process_data.py ADDED Viewed

+import pandas as pd
+def process_data(split='train'):
+    df= pd.DataFrame()
+    dataset = pd.load_csv('summarization/data/raw/{}.csv'.format(split))
+    df['article'] = dataset['article']
+    df['highlights'] = dataset['highlights']
+    df.to_csv('summarization/data/processed/{}.csv'.format(split))