BERT-for-Patents_Semantic-Patent-Finder-v2

Sleeping

App Files Files Community

bhlewis commited on Jul 29, 2024

Commit

3961929

verified ·

1 Parent(s): cf6f1f1

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -71

app.py CHANGED Viewed

@@ -49,9 +49,9 @@ embeddings, patent_numbers, metadata, texts = load_data()
 # Load BERT model for encoding search queries
 try:
-    bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
     tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
-    word_embedding_model = models.Transformer(bert_model, tokenizer)
     pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
     model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
 except Exception as e:
@@ -88,72 +88,4 @@ def extract_key_features(text):
 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)
-    similarity_score = len(common_features) / max(len(query_features), len(patent_features))
-    return common_features, similarity_score
-def hybrid_search(query, top_k=5):
-    print(f"Original query: {query}")
-    query_features = extract_key_features(query)
-    # Encode the query using the transformer model
-    query_embedding = model.encode([query])[0]
-    query_embedding = query_embedding / np.linalg.norm(query_embedding)
-    # Perform semantic similarity search
-    semantic_distances, semantic_indices = index.search(np.array([query_embedding]).astype('float32'), top_k * 2)
-    # Perform TF-IDF based search
-    query_tfidf = tfidf_vectorizer.transform([query])
-    tfidf_similarities = cosine_similarity(query_tfidf, tfidf_matrix).flatten()
-    tfidf_indices = tfidf_similarities.argsort()[-top_k * 2:][::-1]
-    # Combine and rank results
-    combined_results = {}
-    for i, idx in enumerate(semantic_indices[0]):
-        patent_number = patent_numbers[idx].decode('utf-8')
-        text = metadata[patent_number]['text']
-        patent_features = extract_key_features(text)
-        common_features, feature_similarity = compare_features(query_features, patent_features)
-        combined_results[patent_number] = {
-            'score': semantic_distances[0][i] * 1.5 + feature_similarity,
-            'common_features': common_features,
-            'text': text
-        }
-    for idx in tfidf_indices:
-        patent_number = patent_numbers[idx].decode('utf-8')
-        if patent_number not in combined_results:
-            text = metadata[patent_number]['text']
-            patent_features = extract_key_features(text)
-            common_features, feature_similarity = compare_features(query_features, patent_features)
-            combined_results[patent_number] = {
-                'score': tfidf_similarities[idx] + feature_similarity,
-                'common_features': common_features,
-                'text': text
-            }
-    # Sort and get top results
-    top_results = sorted(combined_results.items(), key=lambda x: x[1]['score'], reverse=True)[:top_k]
-    results = []
-    for patent_number, data in top_results:
-        result = f"Patent Number: {patent_number}\n"
-        result += f"Text: {data['text'][:200]}...\n"
-        result += f"Combined Score: {data['score']:.4f}\n"
-        result += f"Common Key Features: {', '.join(data['common_features'])}\n\n"
-        results.append(result)
-    return "\n".join(results)
-# Create Gradio interface
-iface = gr.Interface(
-    fn=hybrid_search,
-    inputs=gr.Textbox(lines=2, placeholder="Enter your patent query here..."),
-    outputs=gr.Textbox(lines=10, label="Search Results"),
-    title="Patent Similarity Search",
-    description="Enter a patent description to find similar patents based on key features."
-)
-if __name__ == "__main__":
-    iface.launch()

 # Load BERT model for encoding search queries
 try:
     tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
+    bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
+    word_embedding_model = models.Transformer(model=bert_model, tokenizer=tokenizer)
     pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
     model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
 except Exception as e:
 def compare_features(query_features, patent_features):
     common_features = set(query_features) & set(patent_features)
+    similarity_score = len(common_features) / max(len(query_features), len