Redaction_PDF_advanced

Sleeping

edithram23 commited on Jul 6, 2024

Commit

908eafd

verified ·

1 Parent(s): 67ff28f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,8 +5,10 @@ import fitz  # PyMuPDF
 from docx import Document
 import re
 import nltk
 nltk.download('punkt')
 def sentence_tokenize(text):
     sentences = nltk.sent_tokenize(text)
     return sentences
@@ -28,7 +30,6 @@ model_large = AutoModelForSeq2SeqLM.from_pretrained(model_dir_large)
 #     pattern = r'\[.*?\]'
 #     redacted_text = re.sub(pattern, '[redacted]', predicted_title)
 #     return redacted_text
-from presidio_analyzer import AnalyzerEngine, PatternRecognizer, RecognizerResult, Pattern
 # Initialize the analyzer engine
 analyzer = AnalyzerEngine()

 from docx import Document
 import re
 import nltk
+from presidio_analyzer import AnalyzerEngine, PatternRecognizer, RecognizerResult, Pattern
 nltk.download('punkt')
 def sentence_tokenize(text):
     sentences = nltk.sent_tokenize(text)
     return sentences
 #     pattern = r'\[.*?\]'
 #     redacted_text = re.sub(pattern, '[redacted]', predicted_title)
 #     return redacted_text
 # Initialize the analyzer engine
 analyzer = AnalyzerEngine()