Spaces:

smfaiz
/

research-assistant

Sleeping

App Files Files Community

smfaiz commited on Sep 1, 2024

Commit

abf24f3

verified ·

1 Parent(s): e736148

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -18

app.py CHANGED Viewed

@@ -1,8 +1,13 @@
 # -*- coding: utf-8 -*-
 """AI-Powered Research Assistant for Scholars and Researchers.ipynb
 """
-#!pip install gradio requests transformers beautifulsoup4 python-docx torch
 """**Set Up the Environment:** Install the required libraries
@@ -13,14 +18,8 @@ import gradio as gr
 import requests
 from transformers import pipeline
-# Initialize Hugging Face Summarization and Text Generation Pipelines
-# summarizer = pipeline("summarization", model="scieditor/citation-generation-t5")
-# citation_generator = pipeline("text-generation", model="gpt2")
-# from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 def search_related_articles_crossref(query, max_results=3):
     """Search for related articles using CrossRef API."""
     try:
@@ -64,9 +63,8 @@ def extract_text_from_html(url):
     except Exception as e:
         return f"Error extracting text: {str(e)}"
-# Load the tokenizer and model
-tokenizer = AutoTokenizer.from_pretrained("pszemraj/pegasus-large-summary-explain")
-model = AutoModelForSeq2SeqLM.from_pretrained("pszemraj/pegasus-large-summary-explain")
 def summarize_article(article_text):
     """Summarize a given article's text."""
@@ -85,10 +83,10 @@ def summarize_article(article_text):
         # Generate the summary
         summary_ids = model.generate(
             **inputs,
-            max_new_tokens=800,  # Limit the length of the output
             min_length=100,      # Set a minimum length for the output
             # #length_penalty='1.0',  # Adjust length penalty to encourage longer output
-            no_repeat_ngram_size=3,    # Avoid repetition of phrases
             early_stopping=True
         )
@@ -100,8 +98,8 @@ def summarize_article(article_text):
         return None, f"Exception during summarization: {str(e)}"
 # Load tokenizer and model
-# tokenizer = AutoTokenizer.from_pretrained("scieditor/citation-generation-t5")
-# model = AutoModelForSeq2SeqLM.from_pretrained("scieditor/citation-generation-t5")
 def generate_citation_t5(article_title, citation_style, article_link):
     """Generate a citation using the T5 or LED model."""
@@ -113,13 +111,13 @@ def generate_citation_t5(article_title, citation_style, article_link):
                       f"Generate a {citation_style} style citation for the article")
         # Tokenize the input
-        inputs = tokenizer(input_text, return_tensors="pt", truncation=True, padding=True)
         # Generate the citation
-        outputs = model.generate(**inputs, max_new_tokens=70)
         # Decode the output to text
-        citation = tokenizer.decode(outputs[0], skip_special_tokens=True)
         return citation, None
     except Exception as e:
         return None, f"Exception during citation generation: {str(e)}"
@@ -222,4 +220,4 @@ gr_interface = gr.Interface(
     allow_flagging="never"
 )
-gr_interface.launch()

 # -*- coding: utf-8 -*-
 """AI-Powered Research Assistant for Scholars and Researchers.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1u8Qvn2TOmOr1hZ_BovZPUA3KCku31OXb
 """
+# !pip install gradio requests transformers beautifulsoup4 python-docx torch
 """**Set Up the Environment:** Install the required libraries
 import requests
 from transformers import pipeline
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 def search_related_articles_crossref(query, max_results=3):
     """Search for related articles using CrossRef API."""
     try:
     except Exception as e:
         return f"Error extracting text: {str(e)}"
+tokenizer = AutoTokenizer.from_pretrained("pszemraj/long-t5-tglobal-base-16384-book-summary")
+model = AutoModelForSeq2SeqLM.from_pretrained("pszemraj/long-t5-tglobal-base-16384-book-summary")
 def summarize_article(article_text):
     """Summarize a given article's text."""
         # Generate the summary
         summary_ids = model.generate(
             **inputs,
+            max_new_tokens=400,  # Limit the length of the output
             min_length=100,      # Set a minimum length for the output
             # #length_penalty='1.0',  # Adjust length penalty to encourage longer output
+            # no_repeat_ngram_size=3,    # Avoid repetition of phrases
             early_stopping=True
         )
         return None, f"Exception during summarization: {str(e)}"
 # Load tokenizer and model
+tokenizer_t5 = AutoTokenizer.from_pretrained("scieditor/citation-generation-t5")
+model_t5 = AutoModelForSeq2SeqLM.from_pretrained("scieditor/citation-generation-t5")
 def generate_citation_t5(article_title, citation_style, article_link):
     """Generate a citation using the T5 or LED model."""
                       f"Generate a {citation_style} style citation for the article")
         # Tokenize the input
+        inputs = tokenizer_t5(input_text, return_tensors="pt", truncation=True, padding=True)
         # Generate the citation
+        outputs = model_t5.generate(**inputs, max_new_tokens=70)
         # Decode the output to text
+        citation = tokenizer_t5.decode(outputs[0], skip_special_tokens=True)
         return citation, None
     except Exception as e:
         return None, f"Exception during citation generation: {str(e)}"
     allow_flagging="never"
 )
+gr_interface.launch(share=True)