Spaces:

Prince-29
/

news-sentiment-analyzer

Sleeping

App Files Files Community

Prince-29 commited on Mar 22

Commit

a4c5061

verified ·

1 Parent(s): 989e78b

Update utils.py

Browse files

Files changed (1) hide show

utils.py +26 -39

utils.py CHANGED Viewed

@@ -1,21 +1,20 @@
 import requests
 from bs4 import BeautifulSoup
-from sumy.parsers.plaintext import PlaintextParser
-from sumy.nlp.tokenizers import Tokenizer
-from sumy.summarizers.lsa import LsaSummarizer
 from deep_translator import GoogleTranslator
 import gtts
 import os
-from transformers import AutoTokenizer
-from transformers import AutoModelForSequenceClassification
-from scipy.special import softmax
-MODEL = f"cardiffnlp/twitter-roberta-base-sentiment"
-tokenizer = AutoTokenizer.from_pretrained(MODEL)
-model = AutoModelForSequenceClassification.from_pretrained(MODEL)
 NEWS_API_KEY = "7e72763bebb54fd79cb632390738cbb1"
 NEWS_API_URL = "https://newsapi.org/v2/everything"
@@ -45,55 +44,43 @@ def fetch_news(company):
             })
     return articles
-# Function to scrape full article text
 def scrape_article_text(url):
     try:
         headers = {"User-Agent": "Mozilla/5.0"}
-        response = requests.get(url, headers=headers)
         soup = BeautifulSoup(response.text, "html.parser")
         paragraphs = soup.find_all("p")
-        full_text = " ".join([p.text for p in paragraphs])
         return full_text
     except Exception:
         return ""
-# Function to summarize text
 def summarize_text(text, sentences_count=3):
-    parser = PlaintextParser.from_string(text, Tokenizer("english"))
-    summarizer = LsaSummarizer()
-    summary = summarizer(parser.document, sentences_count)
-    return " ".join([str(sentence) for sentence in summary])
-from scipy.special import softmax
 def analyze_sentiment(text):
-    # Tokenize input text
     encoded_text = tokenizer(text, return_tensors='pt')
-    # Run through the model
-    output = model(**encoded_text)
-    # Extract raw logits and apply softmax
     scores = output.logits[0].detach().numpy()
     scores = softmax(scores)
-    # Create a dictionary (optional but useful for debugging)
-    scores_dict = {
-        'negative': scores[0],
-        'neutral': scores[1],
-        'positive': scores[2]
-    }
-    # Determine sentiment based on the highest score
-    sentiment = max(scores_dict, key=scores_dict.get)
-    # Capitalize the first letter
-    return sentiment.capitalize()
-# Function to translate text to Hindi
 def translate_to_hindi(text):
     return GoogleTranslator(source='en', target='hi').translate(text)
-# Function to convert **headlines only** to speech
 def text_to_speech(text, filename="news_headline.mp3"):
     if not text.strip():
         return None

 import requests
 from bs4 import BeautifulSoup
+from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
 from deep_translator import GoogleTranslator
+from scipy.special import softmax
 import gtts
 import os
+# Initialize HuggingFace sentiment model
+MODEL_NAME = "cardiffnlp/twitter-roberta-base-sentiment"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+sentiment_model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
+# Initialize summarizer
+summarizer = pipeline("summarization", model="facebook/bart-large-cnn")
+# News API details
 NEWS_API_KEY = "7e72763bebb54fd79cb632390738cbb1"
 NEWS_API_URL = "https://newsapi.org/v2/everything"
             })
     return articles
+# Function to scrape full article text from a URL
 def scrape_article_text(url):
     try:
         headers = {"User-Agent": "Mozilla/5.0"}
+        response = requests.get(url, headers=headers, timeout=10)
         soup = BeautifulSoup(response.text, "html.parser")
         paragraphs = soup.find_all("p")
+        full_text = " ".join(p.text for p in paragraphs)
         return full_text
     except Exception:
         return ""
+# Function to summarize text using BART model
 def summarize_text(text, sentences_count=3):
+    if not text.strip():
+        return "No summary available."
+    # Truncate long text to avoid input limit issues
+    text = text[:1024]
+    summary = summarizer(text, max_length=130, min_length=30, do_sample=False)
+    return summary[0]['summary_text']
+# Function to analyze sentiment
 def analyze_sentiment(text):
     encoded_text = tokenizer(text, return_tensors='pt')
+    output = sentiment_model(**encoded_text)
     scores = output.logits[0].detach().numpy()
     scores = softmax(scores)
+    sentiment_labels = {0: 'Negative', 1: 'Neutral', 2: 'Positive'}
+    sentiment = sentiment_labels[scores.argmax()]
+    return sentiment
+# Translate text to Hindi
 def translate_to_hindi(text):
     return GoogleTranslator(source='en', target='hi').translate(text)
+# Convert headline to speech in Hindi
 def text_to_speech(text, filename="news_headline.mp3"):
     if not text.strip():
         return None