Spaces:

frankjosh
/

practiceai

Sleeping

frankjosh commited on Jan 16

Commit

bdd7b82

verified ·

1 Parent(s): ad91929

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -30,9 +30,16 @@ def generate_embedding(text, tokenizer, model, device):
 # Load dataset
 @st.cache_data
-def load_data():
     dataset = load_dataset("frankjosh/filtered_dataset", split="train")
     df = pd.DataFrame(dataset).head(500)  # Limit to 500 repositories
     return df
 def fetch_readme(repo_url):
@@ -54,7 +61,7 @@ def main():
     # Load resources
     tokenizer, model, device = load_model()
-    data = load_data()
     # Input user query
     user_query = st.text_input("Describe your project or learning goal:",

 # Load dataset
 @st.cache_data
+def load_data(tokenizer, model, device):
     dataset = load_dataset("frankjosh/filtered_dataset", split="train")
     df = pd.DataFrame(dataset).head(500)  # Limit to 500 repositories
+    # Generate embeddings for each row
+    def compute_embedding(row):
+        text = f"{row['docstring']} {row['summary']}" if 'docstring' in row and 'summary' in row else ""
+        return generate_embedding(text, tokenizer, model, device)
+    df['embedding'] = df.apply(compute_embedding, axis=1)
     return df
 def fetch_readme(repo_url):
     # Load resources
     tokenizer, model, device = load_model()
+    data = load_data(tokenizer, model, device)
     # Input user query
     user_query = st.text_input("Describe your project or learning goal:",