web-search-api

Sleeping

MAsad789565 commited on Mar 26, 2024

Commit

fa9ef68

verified ·

1 Parent(s): dd996c1

Update documents/query_results_extractor.py

Files changed (1) hide show

documents/query_results_extractor.py CHANGED Viewed

@@ -17,10 +17,14 @@ class QueryResultsExtractor:
         self.query = self.soup.find("textarea").text.strip()
         query_result_elements = self.soup.find_all("div", class_="g")
         for idx, result in enumerate(query_result_elements):
-            site = result.find("cite").find_previous("span").text.strip()
             url = result.find("a")["href"]
             title = result.find("h3").text.strip()
             abstract_element_conditions = [
                 {"data-sncf": "1"},
                 {"class_": "ITZIwc"},
@@ -32,7 +36,7 @@ class QueryResultsExtractor:
                     break
             else:
                 abstract = ""
             logger.mesg(
                 f"{title}\n" f"  - {site}\n" f"  - {url}\n" f"  - {abstract}\n" f"\n"
             )
@@ -48,6 +52,7 @@ class QueryResultsExtractor:
             )
         logger.success(f"- {len(query_result_elements)} query results")
     def extract_related_questions(self):
         related_question_elements = self.soup.find_all(
             "div", class_="related-question-pair"

         self.query = self.soup.find("textarea").text.strip()
         query_result_elements = self.soup.find_all("div", class_="g")
         for idx, result in enumerate(query_result_elements):
+            cite_tag = result.find("cite")
+            if cite_tag:
+                site = cite_tag.find_previous("span").text.strip()
+            else:
+                site = "Unknown"
             url = result.find("a")["href"]
             title = result.find("h3").text.strip()
             abstract_element_conditions = [
                 {"data-sncf": "1"},
                 {"class_": "ITZIwc"},
                     break
             else:
                 abstract = ""
             logger.mesg(
                 f"{title}\n" f"  - {site}\n" f"  - {url}\n" f"  - {abstract}\n" f"\n"
             )
             )
         logger.success(f"- {len(query_result_elements)} query results")
     def extract_related_questions(self):
         related_question_elements = self.soup.find_all(
             "div", class_="related-question-pair"