Spaces:

DField
/

Daily-Papers_Summaries-in-Japanese

Sleeping

App Files Files Community

DField commited on Mar 30, 2024

Commit

264e85a

verified ·

1 Parent(s): 9451751

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -21

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import requests
 from bs4 import BeautifulSoup
-import fitz #pip install PyMuPDF
 import os
 import openai
 import re
@@ -22,25 +22,26 @@ def extract_text_from_pdf(pdf_path):
         text += page.get_text()
     return text
-def check_summary_exists(paper_id):
     """指定した論文IDの要約が既に存在するか確認し、存在する場合はその内容を返す。"""
-    summary_path = f"summaries/{paper_id}.txt"
     if os.path.exists(summary_path):
         with open(summary_path, 'r', encoding='utf-8') as file:
             return file.read()
-    return None
 def save_summary(paper_id, summary):
     """指定した論文IDの要約をファイルに保存する。"""
     os.makedirs('summaries', exist_ok=True)
-    summary_path = f"summaries/{paper_id}.txt"
     with open(summary_path, 'w', encoding='utf-8') as file:
         file.write(summary)
 def summarize_paper(paper_id):
     """論文IDを基に論文の内容を日本語で要約する。"""
-    existing_summary = check_summary_exists(paper_id)
-    if existing_summary:
         return existing_summary, 0  # トークン使用量を0として返す
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
@@ -52,25 +53,12 @@ def summarize_paper(paper_id):
     save_summary(paper_id, summary)  # 新しい要約を保存
     return summary, tokens_used
-def fetch_paper_links(url):
-    """指定したURLから特定の形式に完全にマッチするリンクを取得し、重複を排除する（順序保持）"""
-    response = requests.get(url)
-    soup = BeautifulSoup(response.text, 'html.parser')
-    # パターンの開始(^)と終了($)を指定して、完全一致を検出
-    pattern = re.compile(r'^/papers/\d+\.\d+$')
-    links = []
-    for a in soup.find_all('a', href=True):
-        href = a['href']
-        if pattern.match(href) and href not in links:
-            links.append(href)
-    return links
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
     trimmed_text = text[:max_length]
     response = openai.chat.completions.create(
-        model="gpt-3.5-turbo-0125",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
             {"role": "user", "content": trimmed_text}
@@ -82,6 +70,19 @@ def summarize_text_with_chat(text, max_length=10000):
     total_token = response.usage.total_tokens
     return summary_text, total_token
 def gradio_interface():
     papers_url = 'https://huggingface.co/papers'  # デフォルトURL
     paper_links = fetch_paper_links(papers_url)

 import requests
 from bs4 import BeautifulSoup
+import fitz  # PyMuPDF
 import os
 import openai
 import re
         text += page.get_text()
     return text
+def check_and_read_summary(paper_id):
     """指定した論文IDの要約が既に存在するか確認し、存在する場合はその内容を返す。"""
+    summary_path = os.path.join("summaries", f"{paper_id}.txt")
     if os.path.exists(summary_path):
         with open(summary_path, 'r', encoding='utf-8') as file:
             return file.read()
+    else:
+        return None
 def save_summary(paper_id, summary):
     """指定した論文IDの要約をファイルに保存する。"""
     os.makedirs('summaries', exist_ok=True)
+    summary_path = os.path.join("summaries", f"{paper_id}.txt")
     with open(summary_path, 'w', encoding='utf-8') as file:
         file.write(summary)
 def summarize_paper(paper_id):
     """論文IDを基に論文の内容を日本語で要約する。"""
+    existing_summary = check_and_read_summary(paper_id)
+    if existing_summary is not None:
         return existing_summary, 0  # トークン使用量を0として返す
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
     save_summary(paper_id, summary)  # 新しい要約を保存
     return summary, tokens_used
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
     trimmed_text = text[:max_length]
     response = openai.chat.completions.create(
+        model="gpt-4-0125-preview",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
             {"role": "user", "content": trimmed_text}
     total_token = response.usage.total_tokens
     return summary_text, total_token
+def fetch_paper_links(url):
+    """指定したURLから特定の形式に完全にマッチするリンクを取得し、重複を排除する（順序保持）"""
+    response = requests.get(url)
+    soup = BeautifulSoup(response.text, 'html.parser')
+    # パターンの開始(^)と終了($)を指定して、完全一致を検出
+    pattern = re.compile(r'^/papers/\d+\.\d+$')
+    links = []
+    for a in soup.find_all('a', href=True):
+        href = a['href']
+        if pattern.match(href) and href not in links:
+            links.append(href)
+    return links
 def gradio_interface():
     papers_url = 'https://huggingface.co/papers'  # デフォルトURL
     paper_links = fetch_paper_links(papers_url)