urlcrawl

Sleeping

springwater commited on May 5, 2024

Commit

dc39e39

verified ·

1 Parent(s): 0290677

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,10 @@ import requests
 from bs4 import BeautifulSoup
 def extract_pdf_links(url):
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
@@ -14,18 +18,27 @@ def extract_pdf_links(url):
     return pdf_links[:100]
 def generate_html(pdf_links):
     html = ""
     for link in pdf_links:
         html += f'<a href="{link}" target="_blank" download>{link}</a><br/>'
     return html
-title = "네이버 증권 리서치 링크-  https://finance.naver.com/research/company_list.naver"
-iface = gr.Interface(extract_pdf_links,
-                     inputs="text",
                      outputs="text",
                      title=title)
-iface.launch()

 from bs4 import BeautifulSoup
 def extract_pdf_links(url):
+    # URL 유효성 검사 추가
+    if not re.match(r'http[s]?://', url):
+        return ["Invalid URL"]
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
     return pdf_links[:100]
+def filter_links_by_keyword(pdf_links, keyword):
+    filtered_links = [link for link in pdf_links if keyword.lower() in link.lower()]
+    return filtered_links
 def generate_html(pdf_links):
     html = ""
     for link in pdf_links:
         html += f'<a href="{link}" target="_blank" download>{link}</a><br/>'
     return html
+def main(url, keyword):
+    pdf_links = extract_pdf_links(url)
+    if keyword:  # 키워드가 비어있지 않은 경우에만 필터링
+        pdf_links = filter_links_by_keyword(pdf_links, keyword)
+    return generate_html(pdf_links)
+title = "네이버 증권 리서치 링크 - https://finance.naver.com/research/company_list.naver"
+iface = gr.Interface(main,
+                     inputs=["text", "text"],  # URL과 키워드 입력
                      outputs="text",
                      title=title)
+iface.launch()