BERT-for-Patents_Semantic-Patent-Finder-v2

Running

bhlewis commited on Jul 26, 2024

Commit

c498c82

verified ·

1 Parent(s): 74523b8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ from sentence_transformers import SentenceTransformer
 def load_data():
     with h5py.File('patent_embeddings.h5', 'r') as f:
         embeddings = f['embeddings'][:]
-        patent_numbers = f['patent_numbers'][:]
     metadata = {}
     with open('patent_metadata.jsonl', 'r') as f:
@@ -17,6 +17,8 @@ def load_data():
             metadata[data['patent_number']] = data
     print(f"Embedding shape: {embeddings.shape}")
     return embeddings, patent_numbers, metadata
 embeddings, patent_numbers, metadata = load_data()
@@ -56,6 +58,9 @@ def search(query, top_k=5):
     results = []
     for i, idx in enumerate(indices[0]):
         patent_number = patent_numbers[idx]
         patent_data = metadata[patent_number]
         result = f"Patent Number: {patent_number}\n"
         result += f"Abstract: {patent_data['abstract'][:200]}...\n"

 def load_data():
     with h5py.File('patent_embeddings.h5', 'r') as f:
         embeddings = f['embeddings'][:]
+        patent_numbers = [pn.decode('utf-8') for pn in f['patent_numbers'][:]]
     metadata = {}
     with open('patent_metadata.jsonl', 'r') as f:
             metadata[data['patent_number']] = data
     print(f"Embedding shape: {embeddings.shape}")
+    print(f"Number of patent numbers: {len(patent_numbers)}")
+    print(f"Number of metadata entries: {len(metadata)}")
     return embeddings, patent_numbers, metadata
 embeddings, patent_numbers, metadata = load_data()
     results = []
     for i, idx in enumerate(indices[0]):
         patent_number = patent_numbers[idx]
+        if patent_number not in metadata:
+            print(f"Warning: Patent number {patent_number} not found in metadata")
+            continue
         patent_data = metadata[patent_number]
         result = f"Patent Number: {patent_number}\n"
         result += f"Abstract: {patent_data['abstract'][:200]}...\n"