BERT-for-Patents_Semantic-Patent-Finder-v2

Sleeping

bhlewis commited on Jul 29, 2024

Commit

113456b

•

1 Parent(s): 072fc9a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,7 +3,8 @@ import numpy as np
 import h5py
 import faiss
 import json
-from sentence_transformers import SentenceTransformer
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import re
@@ -54,7 +55,16 @@ index = faiss.IndexFlatIP(embeddings.shape[1])
 index.add(embeddings)
 # Load BERT model for encoding search queries
-model = SentenceTransformer('anferico/bert-for-patents')
 # Create TF-IDF vectorizer
 tfidf_vectorizer = TfidfVectorizer(stop_words='english')

 import h5py
 import faiss
 import json
+from transformers import AutoModel, AutoTokenizer
+from sentence_transformers import SentenceTransformer, models
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import re
 index.add(embeddings)
 # Load BERT model for encoding search queries
+try:
+    bert_model = AutoModel.from_pretrained('anferico/bert-for-patents')
+    tokenizer = AutoTokenizer.from_pretrained('anferico/bert-for-patents')
+    word_embedding_model = models.Transformer(bert_model, tokenizer)
+    pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())
+    model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
+except Exception as e:
+    print(f"Error loading anferico/bert-for-patents: {e}")
+    print("Falling back to a general-purpose model.")
+    model = SentenceTransformer('all-MiniLM-L6-v2')
 # Create TF-IDF vectorizer
 tfidf_vectorizer = TfidfVectorizer(stop_words='english')