Spaces:

DField
/

Daily-Papers_Summaries-in-Japanese

Sleeping

App Files Files Community

DField commited on Mar 30, 2024

Commit

2ca8f99

verified ·

1 Parent(s): 0900e88

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -3

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import requests
 from bs4 import BeautifulSoup
-import fitz  # pip install PyMuPDF
 import os
 import openai
 import re
@@ -52,6 +52,19 @@ def summarize_paper(paper_id):
     save_summary(paper_id, summary)  # 新しい要約を保存
     return summary, tokens_used
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
@@ -69,7 +82,37 @@ def summarize_text_with_chat(text, max_length=10000):
     total_token = response.usage.total_tokens
     return summary_text, total_token
-# Gradioインターフェースの設定とその他の関数は変更なし
 if __name__ == "__main__":
-    iface.launch()

 import requests
 from bs4 import BeautifulSoup
+import fitz #pip install PyMuPDF
 import os
 import openai
 import re
     save_summary(paper_id, summary)  # 新しい要約を保存
     return summary, tokens_used
+def fetch_paper_links(url):
+    """指定したURLから特定の形式に完全にマッチするリンクを取得し、重複を排除する（順序保持）"""
+    response = requests.get(url)
+    soup = BeautifulSoup(response.text, 'html.parser')
+    # パターンの開始(^)と終了($)を指定して、完全一致を検出
+    pattern = re.compile(r'^/papers/\d+\.\d+$')
+    links = []
+    for a in soup.find_all('a', href=True):
+        href = a['href']
+        if pattern.match(href) and href not in links:
+            links.append(href)
+    return links
 def summarize_text_with_chat(text, max_length=10000):
     """テキストをOpenAIのChat APIを使用して要約する。"""
     openai.api_key = os.getenv('OPEN_AI_API_KEYS')
     total_token = response.usage.total_tokens
     return summary_text, total_token
+def gradio_interface():
+    papers_url = 'https://huggingface.co/papers'  # デフォルトURL
+    paper_links = fetch_paper_links(papers_url)
+    paper_ids = set(link.split('/')[-1] for link in paper_links)
+    total_tokens_used = 0
+    summaries = []
+    for paper_id in paper_ids:
+        summary_info = ""
+        try:
+            summary, tokens_used = summarize_paper(paper_id)
+            total_tokens_used += tokens_used
+            paper_id_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
+            summary_info += f'論文: {paper_id_url}\n{summary}\n'
+        except Exception as e:
+            summary_info += f"Error processing paper ID {paper_id}: {e}\n"
+        summaries.append(summary_info)
+    summaries_markdown = "\n---\n".join(summaries)  # 要約を水平線で区切る
+    return summaries_markdown + f"\n全ての要約で使用されたトータルトークン数: {total_tokens_used}"
+# Gradioインターフェースの設定
+iface = gr.Interface(
+    fn=gradio_interface,
+    inputs=[],  # 入力部分を削除
+    outputs=gr.Markdown(),
+    title="論文要約ツール",
+    description="[Daily Papers](https://huggingface.co/papers)に掲載された本日の論文を取得し、日本語で要約します。"
+)
 if __name__ == "__main__":
+    iface.launch()