Spaces:

DField
/

Daily-Papers_Summaries-in-Japanese

Sleeping

App Files Files Community

DField commited on Mar 30, 2024

Commit

b4231b6

verified ·

1 Parent(s): fef46f4

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -62

app.py CHANGED Viewed

@@ -1,13 +1,49 @@
 import requests
 from bs4 import BeautifulSoup
-import fitz  # PyMuPDF
 import os
 import openai
 import re
 import gradio as gr
 def download_paper(paper_url):
-    """指定したURLから論文のPDFをダウンロードし、ローカルに一時ファイルとして保存する。"""
     response = requests.get(paper_url)
     temp_pdf_path = "temp_paper.pdf"
     with open(temp_pdf_path, 'wb') as f:
@@ -15,50 +51,19 @@ def download_paper(paper_url):
     return temp_pdf_path
 def extract_text_from_pdf(pdf_path):
-    """PDFファイルからテキストを抽出する。"""
     doc = fitz.open(pdf_path)
     text = ""
     for page in doc:
         text += page.get_text()
     return text
-def check_and_read_summary(paper_id):
-    """指定した論文IDの要約が既に存在するか確認し、存在する場合はその内容を返す。"""
-    summary_path = os.path.join("summaries", f"{paper_id}.txt")
-    if os.path.exists(summary_path):
-        with open(summary_path, 'r', encoding='utf-8') as file:
-            return file.read()
-    else:
-        return None
-def save_summary(paper_id, summary):
-    """指定した論文IDの要約をファイルに保存する。"""
-    os.makedirs('summaries', exist_ok=True)
-    summary_path = os.path.join("summaries", f"{paper_id}.txt")
-    with open(summary_path, 'w', encoding='utf-8') as file:
-        file.write(summary)
-def summarize_paper(paper_id):
-    """論文IDを基に論文の内容を日本語で要約する。"""
-    existing_summary = check_and_read_summary(paper_id)
-    if existing_summary is not None:
-        return existing_summary, 0  # トークン使用量を0として返す
-    paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
-    pdf_path = download_paper(paper_url)
-    text = extract_text_from_pdf(pdf_path)
-    summary, tokens_used = summarize_text_with_chat(text)
-    os.remove(pdf_path)  # 一時ファイルを削除
-    save_summary(paper_id, summary)  # 新しい要約を保存
-    return summary, tokens_used
 def summarize_text_with_chat(text, max_length=10000):
-    """テキストをOpenAIのChat APIを使用して要約する。"""
-    openai.api_key = os.getenv('OPEN_AI_API_KEYS')
     trimmed_text = text[:max_length]
-    response = openai.chat.completions.create(
-        model="gpt-4-0125-preview",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
             {"role": "user", "content": trimmed_text}
@@ -66,15 +71,13 @@ def summarize_text_with_chat(text, max_length=10000):
         temperature=0.7,
         max_tokens=1000
     )
-    summary_text = response.choices[0].message.content
-    total_token = response.usage.total_tokens
-    return summary_text, total_token
 def fetch_paper_links(url):
-    """指定したURLから特定の形式に完全にマッチするリンクを取得し��重複を排除する（順序保持）"""
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
-    # パターンの開始(^)と終了($)を指定して、完全一致を検出
     pattern = re.compile(r'^/papers/\d+\.\d+$')
     links = []
     for a in soup.find_all('a', href=True):
@@ -83,33 +86,37 @@ def fetch_paper_links(url):
             links.append(href)
     return links
-def gradio_interface():
-    papers_url = 'https://huggingface.co/papers'  # デフォルトURL
-    paper_links = fetch_paper_links(papers_url)
-    paper_ids = set(link.split('/')[-1] for link in paper_links)
-    total_tokens_used = 0
     summaries = []
     for paper_id in paper_ids:
-        summary_info = ""
-        try:
-            summary, tokens_used = summarize_paper(paper_id)
-            total_tokens_used += tokens_used
-            paper_id_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
-            summary_info += f'論文: {paper_id_url}\n{summary}\n'
-        except Exception as e:
-            summary_info += f"Error processing paper ID {paper_id}: {e}\n"
-        summaries.append(summary_info)
-    summaries_markdown = "\n---\n".join(summaries)  # 要約を水平線で区切る
-    return summaries_markdown + f"\n全ての要約で使用されたトータルトークン数: {total_tokens_used}"
-# Gradioインターフェースの設定
 iface = gr.Interface(
     fn=gradio_interface,
-    inputs=[],  # 入力部分を削除
     outputs=gr.Markdown(),
     title="論文要約ツール",
     description="[Daily Papers](https://huggingface.co/papers)に掲載された本日の論文を取得し、日本語で要約します。"

 import requests
 from bs4 import BeautifulSoup
+import fitz  # pip install PyMuPDF
 import os
 import openai
 import re
 import gradio as gr
+from google.oauth2.credentials import Credentials
+from googleapiclient.discovery import build
+from googleapiclient.http import MediaIoBaseUpload, MediaIoBaseDownload
+import io
+import json
+def google_drive_authenticate():
+    """Google Driveの認証情報を読み込んでサービスオブジェクトを返す。"""
+    credentials_info = json.loads(os.getenv('GOOGLE_CREDENTIALS'))
+    credentials = Credentials.from_authorized_user_info(credentials_info)
+    service = build('drive', 'v3', credentials=credentials)
+    return service
+def save_to_google_drive(service, folder_id, filename, content):
+    """Google Driveにファイルを保存。"""
+    file_metadata = {'name': filename, 'parents': [folder_id]}
+    media = MediaIoBaseUpload(io.BytesIO(content.encode()), mimetype='text/plain')
+    file = service.files().create(body=file_metadata, media_body=media, fields='id').execute()
+    return file.get('id')
+def find_in_google_drive(service, folder_id, paper_id):
+    """Google Driveでファイルを検索し、内容を返す。"""
+    query = f"parents='{folder_id}' and name contains '{paper_id}' and trashed=false"
+    response = service.files().list(q=query, spaces='drive', fields='files(id, name)').execute()
+    if not response.get('files'):
+        return None
+    file_id = response.get('files')[0].get('id')
+    request = service.files().get_media(fileId=file_id)
+    fh = io.BytesIO()
+    downloader = MediaIoBaseDownload(fh, request)
+    done = False
+    while done is False:
+        _, done = downloader.next_chunk()
+    fh.seek(0)
+    content = fh.read().decode('utf-8')
+    return content
 def download_paper(paper_url):
+    """論文PDFをダウンロードして保存。"""
     response = requests.get(paper_url)
     temp_pdf_path = "temp_paper.pdf"
     with open(temp_pdf_path, 'wb') as f:
     return temp_pdf_path
 def extract_text_from_pdf(pdf_path):
+    """PDFからテキストを抽出。"""
     doc = fitz.open(pdf_path)
     text = ""
     for page in doc:
         text += page.get_text()
     return text
 def summarize_text_with_chat(text, max_length=10000):
+    """OpenAIのChat APIを使ってテキストを要約。"""
+    openai.api_key = os.getenv('OPENAI_API_KEY')
     trimmed_text = text[:max_length]
+    response = openai.ChatCompletion.create(
+        model="gpt-3.5-turbo-0125",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
             {"role": "user", "content": trimmed_text}
         temperature=0.7,
         max_tokens=1000
     )
+    summary_text = response.choices[0].message['content']
+    return summary_text
 def fetch_paper_links(url):
+    """指定したURLから論文のリンクを抽出し、重複を排除。"""
     response = requests.get(url)
     soup = BeautifulSoup(response.text, 'html.parser')
     pattern = re.compile(r'^/papers/\d+\.\d+$')
     links = []
     for a in soup.find_all('a', href=True):
             links.append(href)
     return links
+def summarize_paper(paper_id, service, folder_id):
+    """Google Driveで要約を検索または新たに生成して保存。"""
+    existing_summary = find_in_google_drive(service, folder_id, paper_id)
+    if existing_summary:
+        return existing_summary
+    paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
+    pdf_path = download_paper(paper_url)
+    text = extract_text_from_pdf(pdf_path)
+    summary = summarize_text_with_chat(text)
+    os.remove(pdf_path)
+    filename = f"{paper_id}_summary.txt"
+    save_to_google_drive(service, folder_id, filename, summary)
+    return summary
+def gradio_interface():
+    service = google_drive_authenticate()
+    folder_id = '1yOXimp4kk7eohWKGtVo-gn93M0A404TM'
     summaries = []
+    paper_links = fetch_paper_links("https://huggingface.co/papers")
+    paper_ids = [link.split('/')[-1] for link in paper_links]
     for paper_id in paper_ids:
+        summary = summarize_paper(paper_id, service, folder_id)
+        summaries.append(summary)
+    summaries_markdown = "\n---\n".join(summaries)
+    return summaries_markdown
 iface = gr.Interface(
     fn=gradio_interface,
+    inputs=[],
     outputs=gr.Markdown(),
     title="論文要約ツール",
     description="[Daily Papers](https://huggingface.co/papers)に掲載された本日の論文を取得し、日本語で要約します。"