BERT-for-Patents_Semantic-Patent-Finder-v2

Running

bhlewis commited on Jul 26, 2024

Commit

eaf6036

verified ·

1 Parent(s): 778d4fa

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,6 +8,10 @@ from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import re
 from collections import Counter
 def load_data():
     try:
@@ -52,14 +56,13 @@ tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def extract_key_features(text):
-    # Extract noun phrases as potential key features
-    noun_phrases = re.findall(r'\b(?:[A-Z][a-z]+(?:\s+[A-Z][a-z]+)*)\b', text)
-    # Extract phrases following "comprising", "including", "consisting of" as potential key features
-    feature_phrases = re.findall(r'(?:comprising|including|consisting of)\s+(.*?)(?:;|\.)', text, re.IGNORECASE)
     all_features = noun_phrases + feature_phrases
-    # Remove duplicates and lowercase
-    return list(set(feature.lower() for feature in all_features))
 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)

 from sklearn.metrics.pairwise import cosine_similarity
 import re
 from collections import Counter
+import spacy
+# Load Spacy model for advanced NLP
+nlp = spacy.load("en_core_web_sm")
 def load_data():
     try:
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def extract_key_features(text):
+    # Use Spacy to extract noun phrases and key phrases
+    doc = nlp(text)
+    noun_phrases = [chunk.text.lower() for chunk in doc.noun_chunks]
+    feature_phrases = [sent.text.lower() for sent in doc.sents if re.search(r'(comprising|including|consisting of)', sent.text, re.IGNORECASE)]
     all_features = noun_phrases + feature_phrases
+    return list(set(all_features))
 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)