Spaces:

GouthamVarma
/

Spotify

Sleeping

App Files Files Community

Spotify / model.py

GouthamVarma

Update model.py

3403e78 verified 6 months ago

raw

history blame contribute delete

5.2 kB

	import pandas as pd
	import numpy as np
	from sklearn.decomposition import TruncatedSVD
	import time
	import gradio as gr
	from scipy.sparse import csr_matrix

	class MatrixFactorization:
	def __init__(self, n_factors=50):
	self.n_factors = n_factors
	self.model = TruncatedSVD(n_components=n_factors, random_state=42)
	self.user_title_matrix = None
	self.titles_df = None
	self.column_names = None
	self._cached_choices = None

	def fit(self, df):
	print("Training model...")
	start_time = time.time()

	# Get top 10000 songs
	top_songs = df.groupby('title')['play_count'].sum().nlargest(10000).index
	df_filtered = df[df['title'].isin(top_songs)]
	print("Filtered to 10000 most played songs")

	# Create pivot table
	pivot = pd.pivot_table(
	df_filtered,
	values='play_count',
	index='user',
	columns='title',
	fill_value=0
	)
	self.column_names = pivot.columns

	# Convert to sparse matrix
	self.user_title_matrix = csr_matrix(pivot.values)

	# Create titles dataframe
	self.titles_df = df_filtered.groupby('title').agg({
	'artist_name': 'first',
	'year': 'first',
	'play_count': 'sum',
	'release': 'first'
	})

	print("Training SVD model...")
	self.user_vectors = self.model.fit_transform(self.user_title_matrix)
	self.item_vectors = self.model.components_

	# Cache choices
	self._cached_choices = self.create_title_choices()

	print(f"Training completed in {time.time() - start_time:.2f} seconds")

	def get_recommendations(self, selected_titles):
	if not selected_titles:
	return []

	try:
	actual_titles = [title.split(" • by ")[0] for title in selected_titles]
	title_to_idx = {title: idx for idx, title in enumerate(self.column_names)}
	selected_indices = [title_to_idx[title] for title in actual_titles]

	user_vector = np.mean([self.item_vectors[:, idx] for idx in selected_indices], axis=0)
	scores = np.dot(user_vector, self.item_vectors)

	title_scores = [(title, score) for title, score in zip(self.column_names, scores)
	if title not in actual_titles]
	recommendations = sorted(title_scores, key=lambda x: x[1], reverse=True)[:5]

	results = []
	for title, score in recommendations:
	row = self.titles_df.loc[title]
	confidence = 30 + (score * 70)
	results.append([
	title,
	row['artist_name'],
	int(row['year']) if pd.notna(row['year']) else None,
	f"{min(max(confidence, 30), 100):.2f}%"
	])
	return results

	except Exception as e:
	print(f"Error in recommendations: {str(e)}")
	return []

	def create_title_choices(self):
	title_choices = []
	for title, row in self.titles_df.iterrows():
	display_text = f"{title} • by {row['artist_name']}"
	extra_info = []
	if pd.notna(row['release']):
	extra_info.append(row['release'])
	if pd.notna(row['year']):
	extra_info.append(str(int(row['year'])))
	if extra_info:
	display_text += f" [{', '.join(extra_info)}]"
	title_choices.append(display_text)
	return sorted(title_choices)

	def create_gradio_interface(mf_model):
	try:
	with gr.Blocks() as demo:
	gr.Markdown("""# 🎵 Music Recommendation System 🎶

	### Instructions:
	1. ⏳ Model loads songs (~1 min)
	2. 🔍 Search by title, artist, album, or year
	3. 🎧 Select up to 5 songs
	4. 👉 Click for recommendations
	5. 📊 View confidence scores (30-100%)
	""")

	with gr.Row():
	input_songs = gr.Dropdown(
	choices=mf_model._cached_choices,
	label="Search and select songs (up to 5)",
	info="Format: Title • by Artist [Album, Year]",
	multiselect=True,
	max_choices=5,
	filterable=True
	)

	with gr.Column():
	recommend_btn = gr.Button("Get Recommendations", size="lg")
	output_table = gr.DataFrame(
	headers=["Song", "Artist", "Year", "Confidence"],
	label="Recommended Songs"
	)

	recommend_btn.click(
	fn=mf_model.get_recommendations,
	inputs=input_songs,
	outputs=output_table
	)

	return demo
	except Exception as e:
	print(f"Error creating interface: {str(e)}")
	return None