Spaces:

DField
/

Daily-Papers_Summaries-in-Japanese

Sleeping

App Files Files Community

DField commited on Mar 30, 2024

Commit

7c1030f

verified ·

1 Parent(s): f79300d

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -51

app.py CHANGED Viewed

@@ -5,42 +5,24 @@ import os
 import openai
 import re
 import gradio as gr
-from google.oauth2.credentials import Credentials
-from googleapiclient.discovery import build
-from googleapiclient.http import MediaIoBaseUpload, MediaIoBaseDownload
-import io
 import json
-def google_drive_authenticate():
-    """Google Driveの認証情報を読み込んでサービスオブジェクトを返す。"""
-    credentials_info = json.loads(os.getenv('GOOGLE_CREDENTIALS'))
-    credentials = Credentials.from_authorized_user_info(credentials_info)
-    service = build('drive', 'v3', credentials=credentials)
-    return service
-def save_to_google_drive(service, folder_id, filename, content):
-    """Google Driveにファイルを保存。"""
-    file_metadata = {'name': filename, 'parents': [folder_id]}
-    media = MediaIoBaseUpload(io.BytesIO(content.encode()), mimetype='text/plain')
-    file = service.files().create(body=file_metadata, media_body=media, fields='id').execute()
-    return file.get('id')
-def find_in_google_drive(service, folder_id, paper_id):
-    """Google Driveでファイルを検索し、内容を返す。"""
-    query = f"parents='{folder_id}' and name contains '{paper_id}' and trashed=false"
-    response = service.files().list(q=query, spaces='drive', fields='files(id, name)').execute()
-    if not response.get('files'):
-        return None
-    file_id = response.get('files')[0].get('id')
-    request = service.files().get_media(fileId=file_id)
-    fh = io.BytesIO()
-    downloader = MediaIoBaseDownload(fh, request)
-    done = False
-    while done is False:
-        _, done = downloader.next_chunk()
-    fh.seek(0)
-    content = fh.read().decode('utf-8')
-    return content
 def download_paper(paper_url):
     """論文PDFをダウンロードして保存。"""
@@ -62,7 +44,7 @@ def summarize_text_with_chat(text, max_length=10000):
     """OpenAIのChat APIを使ってテキストを要約。"""
     openai.api_key = os.getenv('OPENAI_API_KEY')
     trimmed_text = text[:max_length]
-    response = openai.ChatCompletion.create(
         model="gpt-3.5-turbo-0125",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
@@ -71,8 +53,9 @@ def summarize_text_with_chat(text, max_length=10000):
         temperature=0.7,
         max_tokens=1000
     )
-    summary_text = response.choices[0].message['content']
-    return summary_text
 def fetch_paper_links(url):
     """指定したURLから論文のリンクを抽出し、重複を排除。"""
@@ -86,33 +69,37 @@ def fetch_paper_links(url):
             links.append(href)
     return links
-def summarize_paper(paper_id, service, folder_id):
-    """Google Driveで要約を検索または新たに生成して保存。"""
-    existing_summary = find_in_google_drive(service, folder_id, paper_id)
-    if existing_summary:
-        return existing_summary
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
     pdf_path = download_paper(paper_url)
     text = extract_text_from_pdf(pdf_path)
     summary = summarize_text_with_chat(text)
     os.remove(pdf_path)
-    filename = f"{paper_id}_summary.txt"
-    save_to_google_drive(service, folder_id, filename, summary)
     return summary
 def gradio_interface():
-    service = google_drive_authenticate()
-    folder_id = '1yOXimp4kk7eohWKGtVo-gn93M0A404TM'
-    summaries = []
     paper_links = fetch_paper_links("https://huggingface.co/papers")
-    paper_ids = [link.split('/')[-1] for link in paper_links]
     for paper_id in paper_ids:
-        summary = summarize_paper(paper_id, service, folder_id)
-        summaries.append(summary)
-    summaries_markdown = "\n---\n".join(summaries)
-    return summaries_markdown
 iface = gr.Interface(
     fn=gradio_interface,

 import openai
 import re
 import gradio as gr
+import gspread
+from oauth2client.service_account import ServiceAccountCredentials
 import json
+def connect_gspread(spread_sheet_key):
+    """Google スプレッドシートに接続。"""
+    credentials_json = os.getenv('GOOGLE_CREDENTIALS')
+    credentials_dict = json.loads(credentials_json)
+    scope = ['https://spreadsheets.google.com/feeds', 'https://www.googleapis.com/auth/drive']
+    credentials = ServiceAccountCredentials.from_json_keyfile_dict(credentials_dict, scope)
+    gc = gspread.authorize(credentials)
+    SPREADSHEET_KEY = spread_sheet_key
+    worksheet = gc.open_by_key(SPREADSHEET_KEY).sheet1
+    return worksheet
+spread_sheet_key = "1nSh6D_Gqdbhi1CB3wvD4OJUU6bji8-LE6HET7NTEjrM"
+worksheet = connect_gspread(spread_sheet_key)
 def download_paper(paper_url):
     """論文PDFをダウンロードして保存。"""
     """OpenAIのChat APIを使ってテキストを要約。"""
     openai.api_key = os.getenv('OPENAI_API_KEY')
     trimmed_text = text[:max_length]
+    response = openai.chat.completions.create(
         model="gpt-3.5-turbo-0125",
         messages=[
             {"role": "system", "content": "次の文書を要約してください。必ず'## タイトル', '## 要約', '## 専門用語解説'を記載してください。"},
         temperature=0.7,
         max_tokens=1000
     )
+    summary_text = response.choices[0].message.content
+    total_token = response.usage.total_tokens
+    return summary_text, total_token
 def fetch_paper_links(url):
     """指定したURLから論文のリンクを抽出し、重複を排除。"""
             links.append(href)
     return links
+def summarize_paper_and_save_to_sheet(paper_id):
+    """論文を要約し、結果をGoogle スプレッドシートに保存。"""
     paper_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
     pdf_path = download_paper(paper_url)
     text = extract_text_from_pdf(pdf_path)
     summary = summarize_text_with_chat(text)
     os.remove(pdf_path)
+    worksheet.append_row([paper_id, paper_url, summary])
     return summary
 def gradio_interface():
     paper_links = fetch_paper_links("https://huggingface.co/papers")
+    paper_ids = set(link.split('/')[-1] for link in paper_links)
+    total_tokens_used = 0
+    summaries = []
     for paper_id in paper_ids:
+        summary_info = ""
+        try:
+            summary, tokens_used = summarize_paper_and_save_to_sheet(paper_id)
+            total_tokens_used += tokens_used
+            paper_id_url = f"https://arxiv.org/pdf/{paper_id}.pdf"
+            summary_info += f'論文: {paper_id_url}\n{summary}\n'
+        except Exception as e:
+            summary_info += f"Error processing paper ID {paper_id}: {e}\n"
+        summaries.append(summary_info)
+    summaries_markdown = "\n---\n".join(summaries)  # 要約を水平線で区切る
+    return summaries_markdown + f"\n全ての要約で使用されたトータルトークン数: {total_tokens_used}"
 iface = gr.Interface(
     fn=gradio_interface,