urlcrawl

Sleeping

springwater commited on May 5, 2024

Commit

b1a3ea2

verified ·

1 Parent(s): dc39e39

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,42 +3,36 @@ import re
 import requests
 from bs4 import BeautifulSoup
-def extract_pdf_links(url):
-    # URL 유효성 검사 추가
-    if not re.match(r'http[s]?://', url):
-        return ["Invalid URL"]
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
     pdf_links = []
     for link in soup.find_all('a', href=True):
         if re.search(r'\.pdf', link['href']):
             pdf_links.append(link['href'])
-    return pdf_links[:100]
-def filter_links_by_keyword(pdf_links, keyword):
-    filtered_links = [link for link in pdf_links if keyword.lower() in link.lower()]
-    return filtered_links
-def generate_html(pdf_links):
-    html = ""
     for link in pdf_links:
         html += f'<a href="{link}" target="_blank" download>{link}</a><br/>'
-    return html
-def main(url, keyword):
-    pdf_links = extract_pdf_links(url)
-    if keyword:  # 키워드가 비어있지 않은 경우에만 필터링
-        pdf_links = filter_links_by_keyword(pdf_links, keyword)
-    return generate_html(pdf_links)
-title = "네이버 증권 리서치 링크 - https://finance.naver.com/research/company_list.naver"
-iface = gr.Interface(main,
-                     inputs=["text", "text"],  # URL과 키워드 입력
-                     outputs="text",
                      title=title)
 iface.launch()

 import requests
 from bs4 import BeautifulSoup
+def extract_pdf_links_and_title(url):
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
+    # 페이지 제목 추출
+    page_title = soup.title.text if soup.title else "No title found"
     pdf_links = []
     for link in soup.find_all('a', href=True):
         if re.search(r'\.pdf', link['href']):
             pdf_links.append(link['href'])
+    # PDF 링크와 페이지 제목을 반환
+    return pdf_links[:100], page_title
+def generate_html(pdf_links_and_title):
+    pdf_links = pdf_links_and_title[0]  # PDF 링크 리스트
+    page_title = pdf_links_and_title[1]  # 페이지 제목
+    html = f"<h1>{page_title}</h1>"  # 제목을 HTML에 추가
     for link in pdf_links:
         html += f'<a href="{link}" target="_blank" download>{link}</a><br/>'
+    return html
+title = "네이버 증권 리서치 링크-  https://finance.naver.com/research/company_list.naver"
+iface = gr.Interface(fn=extract_pdf_links_and_title,
+                     inputs="text",
+                     outputs=["text", "html"],
                      title=title)
 iface.launch()