Spaces:

KotVasily
/

myfirspace

Sleeping

KotVasily commited on Oct 24, 2024

Commit

a4742d0

verified ·

1 Parent(s): a4e656f

Update news.py

Files changed (1) hide show

news.py CHANGED Viewed

@@ -3,6 +3,7 @@ import pandas as pd
 import time
 import pymorphy2
 import re
 from datetime import datetime, timedelta
 from transformers import pipeline
@@ -26,7 +27,8 @@ class NewsData:
         }
         self.morph = pymorphy2.MorphAnalyzer() # С помощь него мы будем приводить слова в начальную форму
     def get_data(self):
         # Парсим сайты за последнии 7 дней
         date_limit = datetime.now().replace(minute=0, second=0, microsecond=0) - timedelta(days=7*1)
@@ -36,10 +38,11 @@ class NewsData:
             page = 1
             while True:
                 url = f"{base_url}{page}/"
-                response = requests.get(url, headers=self.headers)
                 if response.status_code == 200:
-                    soup = BeautifulSoup(response.content, "html.parser")
                     articles = soup.find_all("a", attrs={"data-test": "article-title-link"})
                     daily_count = 0

 import time
 import pymorphy2
 import re
+import cloudscraper
 from datetime import datetime, timedelta
 from transformers import pipeline
         }
         self.morph = pymorphy2.MorphAnalyzer() # С помощь него мы будем приводить слова в начальную форму
+        self.scraper = cloudscraper.create_scraper()
     def get_data(self):
         # Парсим сайты за последнии 7 дней
         date_limit = datetime.now().replace(minute=0, second=0, microsecond=0) - timedelta(days=7*1)
             page = 1
             while True:
                 url = f"{base_url}{page}/"
+                #response = requests.get(url, headers=self.headers)
+                responce = scraper.get(url, headers=self.headers)
                 if response.status_code == 200:
+                    soup = BeautifulSoup(response.text, "html.parser")
                     articles = soup.find_all("a", attrs={"data-test": "article-title-link"})
                     daily_count = 0