BERT-for-Patents_Semantic-Patent-Finder-v2

Running

App Files Files Community

bhlewis commited on Jul 29

Commit

7935863

•

1 Parent(s): c884348

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -4

app.py CHANGED Viewed

@@ -10,7 +10,6 @@ from sklearn.metrics.pairwise import cosine_similarity
 import re
 from collections import Counter
 import spacy
-import joblib
 # Load Spacy model for advanced NLP
 try:
@@ -74,10 +73,9 @@ embeddings = embeddings / np.linalg.norm(embeddings, axis=1, keepdims=True)
 index = faiss.IndexFlatIP(embeddings.shape[1])
 index.add(embeddings)
-# Create and save TF-IDF vectorizer
 tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
-joblib.dump(tfidf_vectorizer, 'tfidf_vectorizer.joblib')
 def extract_key_features(text):
     # Use Spacy to extract noun phrases and key phrases
@@ -103,4 +101,59 @@ def hybrid_search(query, top_k=5):
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
-    semantic_distances, semantic

 import re
 from collections import Counter
 import spacy
 # Load Spacy model for advanced NLP
 try:
 index = faiss.IndexFlatIP(embeddings.shape[1])
 index.add(embeddings)
+# Create TF-IDF vectorizer
 tfidf_vectorizer = TfidfVectorizer(stop_words='english')
 tfidf_matrix = tfidf_vectorizer.fit_transform(texts)
 def extract_key_features(text):
     # Use Spacy to extract noun phrases and key phrases
     query_embedding = query_embedding / np.linalg.norm(query_embedding)
     # Perform semantic similarity search
+    semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
+    # Perform TF-IDF based search
+    query_tfidf = tfidf_vectorizer.transform([query])
+    tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
+    tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
+    # Combine and rank results
+    combined_results = {}
+    for i, idx in enumerate(semantic_indices[0]):
+        patent_number = patent_numbers[idx].decode('utf-8')
+        text = metadata[patent_number]['text']
+        patent_features = extract_key_features(text)
+        common_features, feature_similarity = compare_features(query_features, patent_features)
+        combined_results[patent_number] = {
+            'score': semantic_distances[0][i] * 1.5 + feature_similarity,
+            'common_features': common_features,
+            'text': text
+        }
+    for idx in tfidf_indices:
+        patent_number = patent_numbers[idx].decode('utf-8')
+        if patent_number not in combined_results:
+            text = metadata[patent_number]['text']
+            patent_features = extract_key_features(text)
+            common_features, feature_similarity = compare_features(query_features, patent_features)
+            combined_results[patent_number] = {
+                'score': tfidf_similarities[idx] + feature_similarity,
+                'common_features': common_features,
+                'text': text
+            }
+    # Sort and get top results
+    top_results = sorted(combined_results.items(), key=lambda x: x[1]['score'], reverse=True)[:top_k]
+    results = []
+    for patent_number, data in top_results:
+        result = f"Patent Number: {patent_number}\n"
+        result += f"Text: {data['text'][:200]}...\n"
+        result += f"Combined Score: {data['score']:.4f}\n"
+        result += f"Common Key Features: {', '.join(data['common_features'])}\n\n"
+        results.append(result)
+    return "\n".join(results)
+# Create Gradio interface
+iface = gr.Interface(
+    fn=hybrid_search,
+    inputs=gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
+    outputs=gr.Textbox(lines=10, label="Search Results"),
+    title="Patent Similarity Search",
+    description="Enter a patent description to find similar patents based on key features."
+)
+if __name__ == "__main__":
+    iface.launch()