Spaces:

SantanuBanerjee
/

TaxDirection

Sleeping

SantanuBanerjee commited on Aug 3, 2024

Commit

39dbf03

verified ·

1 Parent(s): b71a177

Update app.py

Adding https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.5.0/en_core_web_sm-3.5.0.tar.gz in requirements

Files changed (1) hide show

app.py CHANGED Viewed

@@ -78,7 +78,15 @@ from transformers import AutoTokenizer, AutoModel
 import torch
 # Load SpaCy model
-nlp = spacy.load('en_core_web_sm')
 # Load Hugging Face Transformers model
 tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-mpnet-base-v2")
@@ -100,6 +108,9 @@ model = AutoModel.from_pretrained("sentence-transformers/all-mpnet-base-v2")
 import re
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
 def combined_text_processing(text):
     # Remove punctuation, numbers, URLs, and special characters

 import torch
 # Load SpaCy model
+# Install the 'en_core_web_sm' model if it isn't already installed
+try:
+    nlp = spacy.load('en_core_web_sm')
+except OSError:
+    # Instead of this try~catch, we could also include this < https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.5.0/en_core_web_sm-3.5.0.tar.gz > in the requirements.txt to directly load it
+    from spacy.cli import download
+    download('en_core_web_sm')
+    nlp = spacy.load('en_core_web_sm')
 # Load Hugging Face Transformers model
 tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-mpnet-base-v2")
 import re
 from nltk.corpus import stopwords
 from nltk.tokenize import word_tokenize
+# Download necessary NLTK data
+nltk.download('punkt')
+nltk.download('stopwords')
 def combined_text_processing(text):
     # Remove punctuation, numbers, URLs, and special characters