Spaces:

sweetfelinity
/

AmazonRatingPredictor

Sleeping

App Files Files Community

sweetfelinity commited on Aug 11, 2024

Commit

f321966

verified ·

1 Parent(s): ac21ac8

Uploaded initial files

Browse files

Files changed (5) hide show

MultinominalModel.py +64 -0
README.md +12 -12
amazon_reviews.csv +0 -0
app.py +60 -0
requirements.txt +5 -0

MultinominalModel.py ADDED Viewed

	@@ -0,0 +1,64 @@

+from nltk.tokenize import word_tokenize
+from nltk.stem import WordNetLemmatizer
+from nltk.corpus import stopwords
+from sklearn.metrics import accuracy_score
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.model_selection import train_test_split
+from imblearn.over_sampling import SMOTE
+from sklearn.naive_bayes import MultinomialNB
+import nltk
+import pandas as pd
+lemmatizer = WordNetLemmatizer()
+nltk.download('all-corpora')
+stop_words = set(stopwords.words('english'))
+df = pd.read_csv("amazon_reviews.csv")
+# Preprocess text data
+def preprocess(review):
+    review = review.lower()
+    tokens = word_tokenize(review)
+    lemmas = [lemmatizer.lemmatize(token) for token in tokens if token not in stop_words]
+    return " ".join(lemmas)
+# Format csv data into array of [review, rating]
+review_ratings = []
+for i in range(len(df)):
+    review_text = str(df.loc[i]["reviewText"])
+    rating = int(df.loc[i]["overall"])
+    review_ratings.append([review_text, rating])
+# Create corpus of preprocessed text
+corpus = []
+for i in range(len(review_ratings)):
+    review = review_ratings[i][0]
+    rating = review_ratings[i][1]
+    preprocessed_text = preprocess(review)
+    corpus.append(preprocessed_text)
+# Convert to vector representation
+vectorizer = TfidfVectorizer(max_features=10000)
+X = vectorizer.fit_transform(corpus).toarray()
+y = [r[1] for r in review_ratings]
+# Generate synthetic samples as 5 star rating reviews are overbalanced
+smote = SMOTE(random_state=42)
+X_resampled, y_resampled = smote.fit_resample(X, y)
+X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)
+# Create model and fit
+model = MultinomialNB()
+model.fit(X_train, y_train)
+y_predict = model.predict(X_test)
+print("Accuracy", accuracy_score(y_test, y_predict))
+def predict_rating(review):
+    preprocessed_text = preprocess(review)
+    vectorized = vectorizer.transform([preprocessed_text]).toarray()
+    return model.predict(vectorized)

README.md CHANGED Viewed

@@ -1,12 +1,12 @@
----
-title: AmazonRatingPredictor
-emoji: ⚡
-colorFrom: blue
-colorTo: gray
-sdk: gradio
-sdk_version: 4.41.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+---
+title: AmazonRatingPrediction
+emoji: 🌍
+colorFrom: yellow
+colorTo: pink
+sdk: gradio
+sdk_version: 4.41.0
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

amazon_reviews.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

app.py ADDED Viewed

	@@ -0,0 +1,60 @@

+from MultinominalModel import predict_rating
+from bs4 import BeautifulSoup
+import requests
+import gradio as gr
+max_review_count = 5
+example_urls = [
+    "https://www.amazon.co.uk/Trintion-Scratching-Scratcher-Activity-Dangling/dp/B08FT54NRM",
+    "https://www.amazon.co.uk/Indoor-Hanging-playing-sleeping-suitable/dp/B0BTVW7G66",
+    "https://www.amazon.co.uk/PlayStation-5-Digital-Console-Slim/dp/B0CM9VKQ5N",
+    "https://www.amazon.co.uk/Celebrations-Chocolate-Chocolates-Centerpiece-Maltesers/dp/B07L8D6XM8",
+    "https://www.amazon.co.uk/HyRich-SIM-Free-Unlocked-Smartphone-Bluetooth-Note-80-Black/dp/B0BG5KBMYK",
+    "https://www.amazon.co.uk/Hama-HS-P350-headset-Binaural-Plastic/dp/B07ZR24KQZ",
+    "https://www.amazon.co.uk/Skinapeel-Sonic-Facial-Cleanser-Replaceable/dp/B011V6FUG0",
+    "https://www.amazon.co.uk/dp/B0BX47X1K9/"
+]
+def scrape_amazon_reviews(url):
+    headers = { "accept-language": "en-GB,en;q=0.9",
+        "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.1 Safari/605.1.15"}
+    response = requests.get(url, headers=headers)
+    soup = BeautifulSoup(response.content)
+    # Retrieve image from product page
+    image = soup.select_one('#landingImage').attrs.get('src')
+    reviews = soup.select("div.review")
+    # Extract review description, rating, and predict a rating from the model
+    output_reviews = []
+    for i in range(min(len(reviews), max_review_count)):
+        review_text = reviews[i].select_one("span.review-text").text.replace("The media could not be loaded.", "").strip("Read more").strip("\n")
+        rating = reviews[i].select_one("i.review-rating").text.replace("out of 5 stars", "")
+        predicted_rating = predict_rating(review_text)
+        output_reviews.append(review_text + "\n\nPredicted Rating: " + str(predicted_rating)[1] + ".0\nActual Rating: " + rating)
+    # If there aren't enough reviews, leave the remaining review text boxes empty
+    while(len(output_reviews)) < max_review_count:
+        output_reviews.append("")
+    output_reviews.append(image)
+    return output_reviews
+# Main gradio app
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column():
+            url = gr.Textbox(label="Amazon URL")
+            button = gr.Button(variant="primary")
+            gr.Examples(inputs=url, examples=example_urls)
+        with gr.Column():
+            reviews = [gr.Text(label="Review " + str(i + 1)) for i in range(max_review_count)]
+            image = gr.Image(label="Amazon Product Image", interactive=False)
+    button.click(fn=scrape_amazon_reviews, inputs=url, outputs=reviews + [image])
+demo.launch(share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+nltk
+scikit-learn
+imblearn
+pandas
+BeautifulSoup4