Spaces:
Sleeping
Sleeping
File size: 2,867 Bytes
154ebc5 dc7031d bf00196 fb38986 9e50054 2f00f7a b66294a 2f00f7a b66294a 2f00f7a 9e50054 b66294a 2f00f7a 9b36fe6 b66294a fb38986 b66294a fb38986 9b36fe6 bf00196 8ec2a9c b66294a fb38986 b66294a 9e50054 b66294a 15112ab dc7031d b66294a 15112ab fb38986 dc7031d b66294a 2f00f7a dc7031d 97b8c76 9e50054 b66294a fb38986 9e50054 b66294a dc7031d 9e50054 b66294a dc7031d fb38986 2f00f7a 19d084b bf00196 19d084b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
import requests
from bs4 import BeautifulSoup
import gradio as gr
import random
import time
def convert_to_mobile_url(url):
"""
표준 네이버 블로그 URL을 모바일 URL로 변환합니다.
"""
if url.startswith("https://blog.naver.com/"):
url_parts = url.split("/")
blog_id = url_parts[-2]
post_id = url_parts[-1]
mobile_url = f"https://m.blog.naver.com/{blog_id}/{post_id}"
return mobile_url
return url # 이미 모바일 URL이면 그대로 반환
def scrape_naver_blog(url):
try:
# 표준 URL을 모바일 URL로 변환
url = convert_to_mobile_url(url)
# HTTP 요청에 필요한 헤더 설정
headers = {
"User-Agent": (
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
"(KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
),
"Referer": "https://www.naver.com/", # 네이버 메인 페이지를 참조 페이지로 설정
}
# 요청 전 5~8초 지연
delay = random.uniform(5, 8)
time.sleep(delay)
# URL로 GET 요청 보내기
response = requests.get(url, headers=headers)
response.raise_for_status() # HTTP 문제 발생 시 예외 발생
# HTML 내용 파싱
soup = BeautifulSoup(response.text, 'html.parser')
# 제목 추출
title_div = soup.find('div', class_='se-module se-module-text se-title-text')
title = title_div.get_text(strip=True) if title_div else "제목을 찾을 수 없습니다."
# 이미지 제외 텍스트 내용 추출
text_components = soup.find_all('div', class_='se-module se-module-text')
content = "\n".join(component.get_text(strip=True) for component in text_components if component)
return f"제목: {title}\n내용: {content}"
except Exception as e:
# 오류 발생 시 메시지 반환
return f"오류 발생: {e}"
# Gradio 인터페이스 함수
def gradio_interface(url):
return scrape_naver_blog(url)
# Gradio 인터페이스 설정
iface = gr.Interface(
fn=gradio_interface,
inputs=gr.Textbox(label="네이버 블로그 URL 입력 (표준 또는 모바일)"),
outputs=gr.Textbox(label="스크래핑된 블로그 내용"),
title="네이버 블로그 스크래퍼 (텍스트만)",
description=(
"네이버 블로그 URL(표준 또는 모바일)을 입력하면 제목과 텍스트 내용을 스크래핑합니다. "
"스크립트는 표준 URL을 자동으로 모바일 형식으로 변환하며, 헤더와 5~8초 지연을 설정하여 요청을 자연스럽게 만듭니다."
),
theme="compact", # 간결한 Gradio 인터페이스 테마
)
# Gradio 애플리케이션 실행
if __name__ == "__main__":
iface.launch()
|