Spaces:

rb757
/

new_patent_app

Sleeping

rb757 commited on Jul 13, 2024

Commit

76f4b94

1 Parent(s): b7b6bac

Add Streamlit app for patentability score prediction

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,8 @@
-# app.py
 import streamlit as st
 import pandas as pd
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 import torch
 # Load model and tokenizer
 model_path = "rb757/new_app"
@@ -11,20 +10,35 @@ model = AutoModelForSequenceClassification.from_pretrained(model_path)
 tokenizer = AutoTokenizer.from_pretrained(model_path)
 # Load the dataset
-dataset_url = "https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather"
-df = pd.read_feather(dataset_url)
 # Title and description
 st.title("Milestone Patent 🐨")
 st.write("Select a patent application to evaluate its patentability.")
 # Dropdown for application filing numbers
-application_numbers = df['application_number'].unique()
 selected_application = st.selectbox("Select Application Filing Number", application_numbers)
 # Retrieve abstract and claims
 if selected_application:
-    patent_info = df[df['application_number'] == selected_application].iloc[0]
     abstract = patent_info['abstract']
     claims = patent_info['claims']

 import streamlit as st
 import pandas as pd
 from transformers import AutoModelForSequenceClassification, AutoTokenizer
 import torch
+from datasets import load_dataset
 # Load model and tokenizer
 model_path = "rb757/new_app"
 tokenizer = AutoTokenizer.from_pretrained(model_path)
 # Load the dataset
+dataset_dict = load_dataset(
+    'HUPD/hupd',
+    name='sample',
+    data_files="https://huggingface.co/datasets/HUPD/hupd/resolve/main/hupd_metadata_2022-02-22.feather",
+    train_filing_start_date='2016-01-01',
+    train_filing_end_date='2016-01-21',
+    val_filing_start_date='2016-01-22',
+    val_filing_end_date='2016-01-31',
+)
+# Convert to DataFrame
+train_df = pd.DataFrame(dataset_dict['train'])
+val_df = pd.DataFrame(dataset_dict['validation'])
+# Print columns to verify availability
+print("Train set columns:", train_df.columns.tolist())
+print("Validation set columns:", val_df.columns.tolist())
 # Title and description
 st.title("Milestone Patent 🐨")
 st.write("Select a patent application to evaluate its patentability.")
 # Dropdown for application filing numbers
+application_numbers = train_df['application_number'].unique()
 selected_application = st.selectbox("Select Application Filing Number", application_numbers)
 # Retrieve abstract and claims
 if selected_application:
+    patent_info = train_df[train_df['application_number'] == selected_application].iloc[0]
     abstract = patent_info['abstract']
     claims = patent_info['claims']