Spaces:

DField
/

Daily-Papers_Summaries-in-Japanese

Sleeping

App Files Files Community

DField commited on Mar 30, 2024

Commit

0900e88

verified ·

1 Parent(s): a9e34dd

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -51

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import requests
 from bs4 import BeautifulSoup
-import fitz #pip install PyMuPDF
 import os
 import openai
 import re
@@ -22,35 +22,40 @@ def extract_text_from_pdf(pdf_path):
         text += page.get_text()
     return text
 def summarize_paper(paper_id):
     """論文IDを基に論文の内容を日本語で要約する。"""
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
     pdf_path = download_paper(paper_url)
     text = extract_text_from_pdf(pdf_path)
-    summary = summarize_text_with_chat(text)
     os.remove(pdf_path)  # 一時ファイルを削除
-    return summary
-def fetch_paper_links(url):
-    """指定したURLから特定の形式に完全にマッチするリンクを取得し、重複を排除する（順序保持）"""
-    response = requests.get(url)
-    soup = BeautifulSoup(response.text, 'html.parser')
-    # パターンの開始(^)と終了($)を指定して、完全一致を検出
-    pattern = re.compile(r'^/papers/\d+\.\d+$')
-    links = []
-    for a in soup.find_all('a', href=True):
-        href = a['href']
-        if pattern.match(href) and href not in links:
-            links.append(href)
-    return links
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
-    # テキストを指定の最大長に制限
     trimmed_text = text[:max_length]
     response = openai.chat.completions.create(
         model="gpt-4-0125-preview",
         messages=[
@@ -60,42 +65,11 @@ def summarize_text_with_chat(text, max_length=10000):
         temperature=0.7,
         max_tokens=1000
     )
     summary_text = response.choices[0].message.content
     total_token = response.usage.total_tokens
     return summary_text, total_token
-def gradio_interface():
-    papers_url = 'https://huggingface.co/papers'  # デフォルトURL
-    paper_links = fetch_paper_links(papers_url)
-    paper_ids = set(link.split('/')[-1] for link in paper_links)
-    total_tokens_used = 0
-    summaries = []
-    for paper_id in paper_ids:
-        summary_info = ""
-        try:
-            summary, tokens_used = summarize_paper(paper_id)
-            total_tokens_used += tokens_used
-            paper_id_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
-            summary_info += f'論文: {paper_id_url}\n{summary}\n'
-        except Exception as e:
-            summary_info += f"Error processing paper ID {paper_id}: {e}\n"
-        summaries.append(summary_info)
-    summaries_markdown = "\n---\n".join(summaries)  # 要約を水平線で区切る
-    return summaries_markdown + f"\n全ての要約で使用されたトータルトークン数: {total_tokens_used}"
-# Gradioインターフェースの設定
-iface = gr.Interface(
-    fn=gradio_interface,
-    inputs=[],  # 入力部分を削除
-    outputs=gr.Markdown(),
-    title="論文要約ツール",
-    description="[Daily Papers](https://huggingface.co/papers)に掲載された本日の論文を取得し、日本語で要約します。"
-)
 if __name__ == "__main__":
-    iface.launch()

 import requests
 from bs4 import BeautifulSoup
+import fitz  # pip install PyMuPDF
 import os
 import openai
 import re
         text += page.get_text()
     return text
+def check_summary_exists(paper_id):
+    """指定した論文IDの要約が既に存在するか確認し、存在する場合はその内容を返す。"""
+    summary_path = f"summaries/{paper_id}.txt"
+    if os.path.exists(summary_path):
+        with open(summary_path, 'r', encoding='utf-8') as file:
+            return file.read()
+    return None
+def save_summary(paper_id, summary):
+    """指定した論文IDの要約をファイルに保存する。"""
+    os.makedirs('summaries', exist_ok=True)
+    summary_path = f"summaries/{paper_id}.txt"
+    with open(summary_path, 'w', encoding='utf-8') as file:
+        file.write(summary)
 def summarize_paper(paper_id):
     """論文IDを基に論文の内容を日本語で要約する。"""
+    existing_summary = check_summary_exists(paper_id)
+    if existing_summary:
+        return existing_summary, 0  # トークン使用量を0として返す
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
     pdf_path = download_paper(paper_url)
     text = extract_text_from_pdf(pdf_path)
+    summary, tokens_used = summarize_text_with_chat(text)
     os.remove(pdf_path)  # 一時ファイルを削除
+    save_summary(paper_id, summary)  # 新しい要約を保存
+    return summary, tokens_used
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
     trimmed_text = text[:max_length]
     response = openai.chat.completions.create(
         model="gpt-4-0125-preview",
         messages=[
         temperature=0.7,
         max_tokens=1000
     )
     summary_text = response.choices[0].message.content
     total_token = response.usage.total_tokens
     return summary_text, total_token
+# Gradioインターフェースの設定とその他の関数は変更なし
 if __name__ == "__main__":
+    iface.launch()