Spaces:

gagan3012
/

summarization

Runtime error

File size: 618 Bytes

9bbcc22
322ebac
9bbcc22
 
62828bf
322ebac
62828bf
322ebac
9988244
 
da86775
c015c4c
0ee5810
c015c4c
62828bf

from datasets import load_dataset
import pandas as pd


def make_dataset(dataset='cnn_dailymail', split='train'):
    """make dataset for summarisation"""
    dataset = load_dataset(dataset, '3.0.0', split=split)
    df = pd.DataFrame()
    df['article'] = dataset['article']
    df['highlights'] = dataset['highlights']
    df.to_csv('C:/Users/gbhat/Documents/GitHub/summarization/data/raw/{}.csv'.format(split))


if __name__ == '__main__':
    make_dataset(dataset='cnn_dailymail', split='train')
    make_dataset(dataset='cnn_dailymail', split='test')
    make_dataset(dataset='cnn_dailymail', split='validation')