Spaces:

fb700
/

chatglm-fitness-RLHF

Runtime error

App Files Files Community

fb700 commited on Aug 13, 2023

Commit

2fc5a0a

•

1 Parent(s): 1e3c182

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -40

app.py CHANGED Viewed

@@ -697,49 +697,38 @@ def mindAsk(
 from bs4 import BeautifulSoup
 import requests
-'''
-# 定义函数：从网页中抓取文本
-def scrape_text(url, proxies) -> str:
-    """从网页抓取文本
-    参数:
-        url (str): 要抓取文本的网址
-    返回:
-        str: 抓取到的文本
-    """
-    headers = {
-        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
-        'Content-Type': 'text/plain',
-    }
-    try:
-        response = requests.get(url, headers=headers, proxies=proxies, timeout=8)
-        if response.encoding == "ISO-8859-1":
-            response.encoding = response.apparent_encoding
-    except:
-        return "无法连接到该网页"
-    soup = BeautifulSoup(response.text, "html.parser")
-    for script in soup(["script", "style"]):
-        script.extract()
-    text = soup.get_text()
-    lines = (line.strip() for line in text.splitlines())
-    chunks = (phrase.strip() for line in lines for phrase in line.split("  "))
-    text = "\n".join(chunk for chunk in chunks if chunk)
-    return text
-'''
-# 修改函数：从网页中抓取文本，限制为前500个字符
 # 导入所需模块
-# 定义函数：从网页中抓取文本并根据长度和回车/空格前字符数进行筛选
 def scrape_text(url, proxies) -> str:
-    """从网页抓取文本，限制为前500个字符，丢弃字符数小于10的行和连续的空格键、回车键之间字符数小于10的部分
     参数:
         url (str): 要抓取文本的网址
     返回:
-        str: 抓取到的文本，最多为前500个字符，丢弃字符数小于10的行和连续的空格键、回车键之间字符数小于10的部分
     """
     headers = {
         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
@@ -756,23 +745,37 @@ def scrape_text(url, proxies) -> str:
         script.extract()
     text = soup.get_text()
-    # 截取文本，限制最多500个字符
-    text = text[:700]
-    # 丢弃字符数小于10的行和连续的空格键、回车键之间字符数小于10的部分
     lines = text.split('\n')
     selected_lines = []
     for line in lines:
         # 去除多余的空格
         cleaned_line = ' '.join(line.split())
-        if len(cleaned_line) >= 37:
-            selected_lines.append(cleaned_line)
     # 拼接选中的行
     selected_text = '\n'.join(selected_lines)
     return selected_text
 #ggins1="请围用户搜索主题，对搜索结果进行全面的总结。\n用户搜索主题："
 txtSumins1 = """
 将以下文字进行概括，以便于阅读和理解。 摘要要简明扼要，抓住课文要点，让二年级学生看得懂。 避免使用复杂的句子结构或技术术语。 你的回答应该是中文。
@@ -786,10 +789,15 @@ def GGSearch(
     # 使用用户输入进行联网搜索
     url = f"https://www.google.com/search?q={user_input}"
     headers = {
         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
     }
     try:
         response = requests.get(url, headers=headers)
         soup = BeautifulSoup(response.content, 'html.parser')
@@ -819,6 +827,7 @@ def GGSearch(
     GGSearchins = "\n".join(scraped_text for scraped_text in scraped_texts)
     # 更新聊天界面和历史记录
     chatbot.append(("联网搜索结果：", GGSearchins))
     history.append(("联网搜索结果：", GGSearchins))

 from bs4 import BeautifulSoup
 import requests
 # 导入所需模块
+from bs4 import BeautifulSoup
+import requests
+keywords_to_check = [
+    "首页推荐",
+    "业务合作",
+    "ICP备",
+    "公网安备",
+    "经营许可证",
+    "网络文化许可证",
+    "互联网宗教信息服务许可证",
+    "服务备案",
+    "信息备",
+    "谣言曝光台",
+    "不良信息举报",
+    "举报",
+    "广告投放",
+    "营业执照",
+]
+# 定义函数：从网页中抓取文本并保留每个 URL 最多的前三行内容
 def scrape_text(url, proxies) -> str:
+    """从网页抓取文本，保留每个 URL 最多的前三行内容
     参数:
         url (str): 要抓取文本的网址
     返回:
+        str: 抓取到的文本，每个 URL 最多保留前三行内容
     """
     headers = {
         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36',
         script.extract()
     text = soup.get_text()
+    # 截取文本，保留最多500个字符
+    text = text[:777]
+    # 按行划分文本
     lines = text.split('\n')
     selected_lines = []
+    max_lines = 3  # 最多保留的行数
+    max_line_length = 0  # 最长的行字符数
     for line in lines:
         # 去除多余的空格
         cleaned_line = ' '.join(line.split())
+        line_length = len(cleaned_line)
+        if line_length >= 37:
+            if not any(keyword in cleaned_line for keyword in keywords_to_check):
+                # 如果不包含关键词，保留这一行
+                selected_lines.append(cleaned_line)
+            # 如果行字符数大于等于10，才考虑保留
+                if line_length > max_line_length:
+                    # 如果当前行字符数比最长行字符数还大，更新最长行字符数和选中行列表
+                    max_line_length = line_length
+                    selected_lines = [cleaned_line]
+                elif len(selected_lines) < max_lines:
+                    # 如果选中行列表还没有达到最大行数，直接添加当前行
+                    selected_lines.append(cleaned_line)
     # 拼接选中的行
     selected_text = '\n'.join(selected_lines)
     return selected_text
 #ggins1="请围用户搜索主题，对搜索结果进行全面的总结。\n用户搜索主题："
 txtSumins1 = """
 将以下文字进行概括，以便于阅读和理解。 摘要要简明扼要，抓住课文要点，让二年级学生看得懂。 避免使用复杂的句子结构或技术术语。 你的回答应该是中文。
     # 使用用户输入进行联网搜索
     url = f"https://www.google.com/search?q={user_input}"
+    #url = f"https://www.sogou.com/web?query={user_input}"
+    '''
     headers = {
         'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.61 Safari/537.36'
     }
+    '''
+    headers = {
+        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44"
+    }
     try:
         response = requests.get(url, headers=headers)
         soup = BeautifulSoup(response.content, 'html.parser')
     GGSearchins = "\n".join(scraped_text for scraped_text in scraped_texts)
     # 更新聊天界面和历史记录
     chatbot.append(("联网搜索结果：", GGSearchins))
     history.append(("联网搜索结果：", GGSearchins))