Spaces:

AZILS
/

Selenium-Script

Build error

App Files Files Community

Container commited on Jun 20, 2024

Commit

4efdbc0

verified ·

1 Parent(s): ca9d760

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -3

app.py CHANGED Viewed

@@ -26,6 +26,7 @@ def get_root_domain(url):
     else:
         return domain
 def filter_type(_type: str):
     types = [
         'application/javascript', 'application/x-javascript', 'text/css', 'webp', 'image/png', 'image/gif',
@@ -41,10 +42,10 @@ def main():
 @app.get("/chrome")
 def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
     caps = {
         "browserName": "chrome",
-        'goog:loggingPrefs': {'performance': 'ALL'}  # 开启日志性能监听
     }
     # 必须有目标url
@@ -78,6 +79,8 @@ def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
     # 设置为无头模式
     options.add_argument('--headless')
     for key, value in caps.items():
         options.set_capability(key, value)
@@ -124,6 +127,7 @@ def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
     # 完全加载完成时，页面是否有发生过 301 302 跳转过
     is_jump = (target_url != current_url)
     performance_log = driver.get_log('performance')  # 获取名称为 performance 的日志
     for packet in performance_log:
         message = json.loads(packet.get('message')).get('message')  # 获取message的数据
@@ -135,7 +139,10 @@ def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
         requestId = message.get('params').get('requestId')  # 唯一的请求标识符。相当于该请求的身份证
         url = message.get('params').get('response').get('url')  # 获取 该请求  url
         try:
             resp = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})  # selenium调用 cdp
             print(f'type: {packet_type} url: {url}')
             print(f'response: {resp}')
             print()
@@ -146,7 +153,8 @@ def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
         "url": current_url,
         "page_source": page_source,
         "cookies": cookies,
-        "is_jump": is_jump
     }
     driver.quit()

     else:
         return domain
+# 网络抓包内容过滤
 def filter_type(_type: str):
     types = [
         'application/javascript', 'application/x-javascript', 'text/css', 'webp', 'image/png', 'image/gif',
 @app.get("/chrome")
 def chrome(url:str=None,wait:int=5,header:str=None,cookie:str=None):
+    # 设置日志性能监听参数
     caps = {
         "browserName": "chrome",
+        'goog:loggingPrefs': {'performance': 'ALL'}
     }
     # 必须有目标url
     # 设置为无头模式
     options.add_argument('--headless')
+    # 开启日志性能监听
     for key, value in caps.items():
         options.set_capability(key, value)
     # 完全加载完成时，页面是否有发生过 301 302 跳转过
     is_jump = (target_url != current_url)
+    network = []
     performance_log = driver.get_log('performance')  # 获取名称为 performance 的日志
     for packet in performance_log:
         message = json.loads(packet.get('message')).get('message')  # 获取message的数据
         requestId = message.get('params').get('requestId')  # 唯一的请求标识符。相当于该请求的身份证
         url = message.get('params').get('response').get('url')  # 获取 该请求  url
         try:
+            network.append({"url":url, "type":packet_type})
             resp = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})  # selenium调用 cdp
+            request_headers = driver.execute_cdp_cmd('Network.getRequestHeaders', {'requestId': requestId})
+            print(f'request_headers: {request_headers}')
             print(f'type: {packet_type} url: {url}')
             print(f'response: {resp}')
             print()
         "url": current_url,
         "page_source": page_source,
         "cookies": cookies,
+        "is_jump": is_jump,
+        "network": network,
     }
     driver.quit()