Spaces:

poemsforaphrodite
/

gscpro

Sleeping

App Files Files Community

poemsforaphrodite commited on Oct 11, 2024

Commit

474ca04

verified ·

1 Parent(s): 99665c0

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -16

app.py CHANGED Viewed

@@ -225,13 +225,16 @@ def fetch_content(url, query):
 def calculate_relevance_score(page_content, query, co, model_type='english'):
     try:
-        if not page_content:
             return 0
         model = 'embed-english-v3.0' if model_type == 'english' else 'embed-multilingual-v3.0'
-        page_embedding = co.embed(texts=[page_content], model=model, input_type='search_document').embeddings[0]
-        query_embedding = co.embed(texts=[query], model=model, input_type='search_query').embeddings[0]
         score = cosine_similarity([query_embedding], [page_embedding])[0][0]
         return score
     except Exception as e:
@@ -245,41 +248,46 @@ def analyze_competitors(row, co, custom_url=None, country_code=None):
     query = row['query']
     our_url = normalize_url(row['page'])
     model_type = row.get('model_type', 'english')  # Assuming you store model_type per row
     competitor_data = get_serp_results(query, country_code)
     results = []
     for data in competitor_data:
         competitor_url = normalize_url(data['url'])
         score = calculate_relevance_score(data['content'], query, co, model_type=model_type)
         results.append({
             'Position': data['position'],
             'URL': competitor_url,
             'Score': score,
-            'is_our_url': competitor_url == our_url
         })
     # Retrieve "Our Score" from the main data table
     our_score = st.session_state.relevancy_scores.get(our_url, 0)
-    if not any(r['is_our_url'] for r in results):
         results.append({
             'Position': len(results) + 1,
             'URL': f"{our_url} (Our URL)",
             'Score': our_score,
             'is_our_url': True
         })
     # Sort results by position in ascending order
     results = sorted(results, key=lambda x: x['Position'])
     # Create DataFrame
     results_df = pd.DataFrame(results)
     results_df['Position'] = results_df['Position'].astype(int)
     # Keep only the columns we want to display
     results_df = results_df[['Position', 'URL', 'Score']]
     return results_df
 def show_competitor_analysis(row, co, country_code):
@@ -407,7 +415,6 @@ def calculate_relevancy_scores(df, model_type):
         if pd.isna(row['relevancy_score']) or row['relevancy_score'] == 0:
             score = calculate_single_relevancy(row)
             df.at[index, 'relevancy_score'] = score
-            st.session_state.relevancy_scores[normalize_url(row['page'])] = score
     return df
 # -------------
@@ -512,6 +519,7 @@ def calculate_single_relevancy(row):
     query = row['query']
     model_type = st.session_state.get('model_type_selector', 'english')  # Retrieve from session state
     score = calculate_relevance_score(page_content, query, co, model_type=model_type)
     return score
 def compare_with_top_result(row, co, country_code):

 def calculate_relevance_score(page_content, query, co, model_type='english'):
     try:
+        if not page_content.strip():
+            st.warning("Page content is empty. Cannot calculate relevance score.")
             return 0
         model = 'embed-english-v3.0' if model_type == 'english' else 'embed-multilingual-v3.0'
+        embeddings = co.embed(texts=[page_content, query], model=model, input_type=['search_document', 'search_query'])
+        page_embedding = embeddings.embeddings[0]
+        query_embedding = embeddings.embeddings[1]
+        if not any(page_embedding) or not any(query_embedding):
+            st.warning("One of the embeddings is empty. Returning a score of 0.")
+            return 0
         score = cosine_similarity([query_embedding], [page_embedding])[0][0]
         return score
     except Exception as e:
     query = row['query']
     our_url = normalize_url(row['page'])
     model_type = row.get('model_type', 'english')  # Assuming you store model_type per row
     competitor_data = get_serp_results(query, country_code)
     results = []
+    our_url_found = False  # Flag to check if our URL is in the results
     for data in competitor_data:
         competitor_url = normalize_url(data['url'])
         score = calculate_relevance_score(data['content'], query, co, model_type=model_type)
+        is_our = competitor_url == our_url
+        if is_our:
+            our_url_found = True
         results.append({
             'Position': data['position'],
             'URL': competitor_url,
             'Score': score,
+            'is_our_url': is_our
         })
     # Retrieve "Our Score" from the main data table
     our_score = st.session_state.relevancy_scores.get(our_url, 0)
+    if not our_url_found:
         results.append({
             'Position': len(results) + 1,
             'URL': f"{our_url} (Our URL)",
             'Score': our_score,
             'is_our_url': True
         })
     # Sort results by position in ascending order
     results = sorted(results, key=lambda x: x['Position'])
     # Create DataFrame
     results_df = pd.DataFrame(results)
     results_df['Position'] = results_df['Position'].astype(int)
     # Keep only the columns we want to display
     results_df = results_df[['Position', 'URL', 'Score']]
     return results_df
 def show_competitor_analysis(row, co, country_code):
         if pd.isna(row['relevancy_score']) or row['relevancy_score'] == 0:
             score = calculate_single_relevancy(row)
             df.at[index, 'relevancy_score'] = score
     return df
 # -------------
     query = row['query']
     model_type = st.session_state.get('model_type_selector', 'english')  # Retrieve from session state
     score = calculate_relevance_score(page_content, query, co, model_type=model_type)
+    st.session_state.relevancy_scores[normalize_url(row['page'])] = score  # Ensure score is stored
     return score
 def compare_with_top_result(row, co, country_code):