BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 29

Commit

5adb259

•

1 Parent(s): 071fbb4

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -25

app.py CHANGED Viewed

@@ -10,11 +10,6 @@ import re
 from collections import Counter
 import spacy
 import torch
-from nltk.corpus import wordnet
-import nltk
-# Download WordNet data
-nltk.download('wordnet')
 # Load Spacy model for advanced NLP
 try:
@@ -82,12 +77,16 @@ tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def extract_key_features(text):
-    # Use Spacy to extract noun phrases and key phrases
     doc = nlp(text)
     noun_phrases = [chunk.text.lower() for chunk in doc.noun_chunks]
-    feature_phrases = [sent.text.lower() for sent in doc.sents if re.search(r'(comprising|including|consisting of)', sent.text, re.IGNORECASE)]
-    all_features = noun_phrases + feature_phrases
     return list(set(all_features))
 def compare_features(query_features, patent_features):
@@ -95,33 +94,20 @@ def compare_features(query_features, patent_features):
     similarity_score = len(common_features) / max(len(query_features), len(patent_features))
     return common_features, similarity_score
-def expand_query(query):
-    expanded_query = query
-    for word in query.split():
-        synonyms = wordnet.synsets(word)
-        for syn in synonyms:
-            for lemma in syn.lemmas():
-                expanded_query += " " + lemma.name()
-    return expanded_query
 def hybrid_search(query, top_k=5):
     print(f"Original query: {query}")
-    # Expand the query
-    expanded_query = expand_query(query)
-    print(f"Expanded query: {expanded_query}")
-    query_features = extract_key_features(expanded_query)
     # Encode the query using the transformer model
-    query_embedding = encode_texts([expanded_query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
     # Perform TF-IDF based search
-    query_tfidf = tfidf_vectorizer.transform([expanded_query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
@@ -161,7 +147,7 @@ def hybrid_search(query, top_k=5):
         result += f"Common Key Features: {', '.join(data['common_features'])}\n\n"
         results.append(result)
-    return "\n".join(results)
 # Create Gradio interface with additional input fields
 iface = gr.Interface(

 from collections import Counter
 import spacy
 import torch
 # Load Spacy model for advanced NLP
 try:
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def extract_key_features(text):
+    # Use Spacy to extract technical terms and phrases
     doc = nlp(text)
+    technical_terms = []
+    for token in doc:
+        if token.dep_ in ('amod', 'compound') or token.ent_type_ in ('PRODUCT', 'ORG', 'GPE', 'NORP'):
+            technical_terms.append(token.text.lower())
     noun_phrases = [chunk.text.lower() for chunk in doc.noun_chunks]
+    feature_phrases = [sent.text.lower() for sent in doc.sents if re.search(r'(comprising|including|consisting of|deformable|insulation|heat-resistant|memory foam|high-temperature)', sent.text, re.IGNORECASE)]
+    all_features = technical_terms + noun_phrases + feature_phrases
     return list(set(all_features))
 def compare_features(query_features, patent_features):
     similarity_score = len(common_features) / max(len(query_features), len(patent_features))
     return common_features, similarity_score
 def hybrid_search(query, top_k=5):
     print(f"Original query: {query}")
+    query_features = extract_key_features(query)
     # Encode the query using the transformer model
+    query_embedding = encode_texts([query])[0]
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
     semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
     # Perform TF-IDF based search
+    query_tfidf = tfidf_vectorizer.transform([query])
     tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
     tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
         result += f"Common Key Features: {', '.join(data['common_features'])}\n\n"
         results.append(result)
+    return "\n.join(results)
 # Create Gradio interface with additional input fields
 iface = gr.Interface(