Spaces:

ThirdEyeData
/

Customer-Complaints-Categorization

Sleeping

saritha5 commited on Jan 27, 2023

Commit

8cd729a

•

1 Parent(s): 1094158

Update clean_data.py

Files changed (1) hide show

clean_data.py CHANGED Viewed

@@ -37,6 +37,7 @@ def cleaned_complaints(text):
     import nltk
     from nltk.corpus import stopwords
     from nltk.stem import WordNetLemmatizer
     import warnings
     import re
@@ -76,6 +77,7 @@ def cleaned_complaints(text):
     letters_only = re.sub("[^a-zA-Z]", " ", newString)             #Fetching out only letters
     lower_case = letters_only.lower()                              #converting all words to lowercase
     tokens = [w for w in lower_case.split() if not w in stop_words]#stopwords removal
 #     tokens= lower_case.split()
     newString=''
     for i in tokens:

     import nltk
     from nltk.corpus import stopwords
     from nltk.stem import WordNetLemmatizer
+    from nltk.corpus import words
     import warnings
     import re
     letters_only = re.sub("[^a-zA-Z]", " ", newString)             #Fetching out only letters
     lower_case = letters_only.lower()                              #converting all words to lowercase
     tokens = [w for w in lower_case.split() if not w in stop_words]#stopwords removal
+    tokens = [x for x in tokens if x in words.words()]
 #     tokens= lower_case.split()
     newString=''
     for i in tokens: