urlcrawl

Sleeping

urlcrawl / app.py

Update app.py

405a8de verified 12 months ago

792 Bytes

	import gradio as gr
	import re
	import requests
	from bs4 import BeautifulSoup

	def extract_pdf_links(url):
	response = requests.get(url)
	soup = BeautifulSoup(response.text, 'html.parser')

	pdf_links = []
	for link in soup.find_all('a', href=True):
	if re.search(r'\.pdf', link['href']):
	pdf_links.append(link['href'])

	return pdf_links[:100]

	def generate_html(pdf_links):
	html = ""
	for link in pdf_links:
	html += f'<a href="{link}" target="_blank">{link}</a><br/>'
	return html

	iface = gr.Interface(extract_pdf_links,
	inputs="text",
	outputs="text",
	input_type="textarea",
	value="https://finance.naver.com/research/company_list.naver")

	iface.launch()