Spaces:

wnstnb
/

gamedayspx

Sleeping

App Files Files Community

gamedayspx / app.py

wnstnb

some UI changes

a994b61 almost 2 years ago

raw

history blame

24.1 kB

	import streamlit as st
	import pandas as pd
	import numpy as np
	from sklearn.metrics import roc_auc_score, precision_score, recall_score
	from pandas.tseries.offsets import BDay

	st.set_page_config(
	page_title="Gameday Model for $SPX",
	page_icon="🎮"
	)

	st.title('🎮 Gameday Model for $SPX')
	st.markdown('PLEASE NOTE: Model should be run at or after market open. Documentation and information about model coming soon.')

	if st.button("🧹 Clear All"):
	st.cache_data.clear()
	col1, col2 = st.columns(2)

	option = st.selectbox(
	'Select a model, then run.',
	('', '🌞 At Open', '⌚ 30 Mins', '⏳ 60 Mins'))

	if option == '':
	st.write('Gotta pick one.')

	elif option == '🌞 At Open':
	if st.button('🏃🏽‍♂️ Run'):
	from model_day import *
	with st.spinner('Loading data...'):
	data, df_final, final_row = get_data()
	# st.success("✅ Historical data")

	with st.spinner("Training models..."):
	def train_models():
	res1, xgbr, seq2 = walk_forward_validation_seq(df_final.dropna(), 'Target_clf', 'Target', 100, 1)
	return res1, xgbr, seq2
	res1, xgbr, seq2 = train_models()
	# st.success("✅ Models trained")

	with st.spinner("Getting new prediction..."):

	# Get last row
	new_pred = data.loc[final_row, ['BigNewsDay',
	'Quarter',
	'Perf5Day',
	'Perf5Day_n1',
	'DaysGreen',
	'DaysRed',
	'CurrentGap',
	'RangePct',
	'RangePct_n1',
	'RangePct_n2',
	'OHLC4_VIX',
	'OHLC4_VIX_n1',
	'OHLC4_VIX_n2']]

	new_pred = pd.DataFrame(new_pred).T
	# new_pred_show = pd.DataFrame(index=[new_pred.columns], columns=[new_pred.index], data=[[v] for v in new_pred.values])
	# last_date = datetime.datetime.strptime(data.loc[final_row], '%Y-%m-%d')
	curr_date = final_row + BDay(1)
	curr_date = curr_date.strftime('%Y-%m-%d')

	new_pred['BigNewsDay'] = new_pred['BigNewsDay'].astype(float)
	new_pred['Quarter'] = new_pred['Quarter'].astype(int)
	new_pred['Perf5Day'] = new_pred['Perf5Day'].astype(bool)
	new_pred['Perf5Day_n1'] = new_pred['Perf5Day_n1'].astype(bool)
	new_pred['DaysGreen'] = new_pred['DaysGreen'].astype(float)
	new_pred['DaysRed'] = new_pred['DaysRed'].astype(float)
	new_pred['CurrentGap'] = new_pred['CurrentGap'].astype(float)
	new_pred['RangePct'] = new_pred['RangePct'].astype(float)
	new_pred['RangePct_n1'] = new_pred['RangePct_n1'].astype(float)
	new_pred['RangePct_n2'] = new_pred['RangePct_n2'].astype(float)
	new_pred['OHLC4_VIX'] = new_pred['OHLC4_VIX'].astype(float)
	new_pred['OHLC4_VIX_n1'] = new_pred['OHLC4_VIX_n1'].astype(float)
	new_pred['OHLC4_VIX_n2'] = new_pred['OHLC4_VIX_n2'].astype(float)

	st.success("✅ All done!")
	tab1, tab2, tab3, tab4 = st.tabs(["🔮 Prediction", "✨ New Data", "🗄 Historical", "📊 Performance"])

	seq_proba = seq_predict_proba(new_pred, xgbr, seq2)

	green_proba = seq_proba[0]
	red_proba = 1 - green_proba
	do_not_play = (seq_proba[0] > 0.4) and (seq_proba[0] <= 0.6)
	stdev = 0.01
	score = None
	num_obs = None
	cond = None
	historical_proba = None
	text_cond = None
	operator = None

	if do_not_play:
	text_cond = '🟨'
	operator = ''
	score = seq_proba[0]
	cond = (res1['Predicted'] > 0.4) & (res1['Predicted'] <= 0.6)
	num_obs = len(res1.loc[cond])
	historical_proba = res1.loc[cond, 'True'].mean()


	elif green_proba > red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟩'
	operator = '>='
	score = green_proba
	# How many with this score?
	cond = (res1['Predicted'] >= green_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = res1.loc[cond, 'True'].mean()
	# print(cond)

	elif green_proba <= red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟥'
	operator = '<='
	score = red_proba
	# How many with this score?
	cond = (res1['Predicted'] <= red_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = 1 - res1.loc[cond, 'True'].mean()
	# print(cond)

	score_fmt = f'{score:.1%}'

	results = pd.DataFrame(index=[
	'PrevClose',
	'Confidence Score',
	'Success Rate',
	f'NumObs {operator} {"" if do_not_play else score_fmt}',
	], data = [
	f"{data.loc[final_row,'Close']:.2f}",
	f'{text_cond} {score:.1%}',
	f'{historical_proba:.1%}',
	num_obs,
	])

	results.columns = ['Outputs']

	# st.subheader('New Prediction')

	int_labels = ['(-∞, .20]', '(.20, .40]', '(.40, .60]', '(.60, .80]', '(.80, ∞]']
	# df_probas = res1.groupby(pd.qcut(res1['Predicted'],5)).agg({'True':[np.mean,len,np.sum]})
	df_probas = res1.groupby(pd.cut(res1['Predicted'], bins = [-np.inf, 0.2, 0.4, 0.6, 0.8, np.inf], labels = int_labels)).agg({'True':[np.mean,len,np.sum]})
	df_probas.columns = ['PctGreen','NumObs','NumGreen']

	roc_auc_score_all = roc_auc_score(res1['True'].astype(int), res1['Predicted'].values)
	precision_score_all = precision_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	recall_score_all = recall_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	len_all = len(res1)

	res2_filtered = res1.loc[(res1['Predicted'] > 0.6) \| (res1['Predicted'] <= 0.4)]

	roc_auc_score_hi = roc_auc_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'].values)
	precision_score_hi = precision_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	recall_score_hi = recall_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	len_hi = len(res2_filtered)

	df_performance = pd.DataFrame(
	index=[
	'N',
	'ROC AUC',
	'Precision',
	'Recall'
	],
	columns = [
	'All',
	'High Confidence'
	],
	data = [
	[len_all, len_hi],
	[roc_auc_score_all, roc_auc_score_hi],
	[precision_score_all, precision_score_hi],
	[recall_score_all, recall_score_hi]
	]
	).round(2)

	def get_acc(t, p):
	if t == False and p <= 0.4:
	return '✅'
	elif t == True and p > 0.6:
	return '✅'
	elif t == False and p > 0.6:
	return '❌'
	elif t == True and p <= 0.4:
	return '❌'
	else:
	return '🟨'

	perf_daily = res1.copy()
	perf_daily['Accuracy'] = [get_acc(t, p) for t, p in zip(perf_daily['True'], perf_daily['Predicted'])]

	tab1.subheader(f'Pred for {curr_date} as of 6:30AM PST')
	tab1.write(results)
	tab1.write(df_probas)

	tab2.subheader('Latest Data for Pred')
	tab2.write(new_pred)

	tab3.subheader('Historical Data')
	tab3.write(df_final)

	tab4.subheader('Performance')
	tab4.write(df_performance)
	tab4.write(perf_daily)

	elif option == '⌚ 30 Mins':
	if st.button('🏃🏽‍♂️ Run'):
	from model_30m import *
	with st.spinner('Loading data...'):
	data, df_final, final_row = get_data()
	# st.success("✅ Historical data")

	with st.spinner("Training models..."):
	def train_models():
	res1, xgbr, seq2 = walk_forward_validation_seq(df_final.dropna(), 'Target_clf', 'Target', 100, 1)
	return res1, xgbr, seq2
	res1, xgbr, seq2 = train_models()
	# st.success("✅ Models trained")

	with st.spinner("Getting new prediction..."):

	# Get last row
	new_pred = data.loc[final_row, ['BigNewsDay',
	'Quarter',
	'Perf5Day',
	'Perf5Day_n1',
	'DaysGreen',
	'DaysRed',
	'CurrentHigh30toClose',
	'CurrentLow30toClose',
	'CurrentClose30toClose',
	'CurrentRange30',
	'GapFill30',
	'CurrentGap',
	'RangePct',
	'RangePct_n1',
	'RangePct_n2',
	'OHLC4_VIX',
	'OHLC4_VIX_n1',
	'OHLC4_VIX_n2']]

	new_pred = pd.DataFrame(new_pred).T
	# new_pred_show = pd.DataFrame(index=[new_pred.columns], columns=[new_pred.index], data=[[v] for v in new_pred.values])
	# last_date = datetime.datetime.strptime(data.loc[final_row], '%Y-%m-%d')
	curr_date = final_row + BDay(1)
	curr_date = curr_date.strftime('%Y-%m-%d')

	new_pred['BigNewsDay'] = new_pred['BigNewsDay'].astype(float)
	new_pred['Quarter'] = new_pred['Quarter'].astype(int)
	new_pred['Perf5Day'] = new_pred['Perf5Day'].astype(bool)
	new_pred['Perf5Day_n1'] = new_pred['Perf5Day_n1'].astype(bool)
	new_pred['DaysGreen'] = new_pred['DaysGreen'].astype(float)
	new_pred['DaysRed'] = new_pred['DaysRed'].astype(float)
	new_pred['CurrentHigh30toClose'] = new_pred['CurrentHigh30toClose'].astype(float)
	new_pred['CurrentLow30toClose'] = new_pred['CurrentLow30toClose'].astype(float)
	new_pred['CurrentClose30toClose'] = new_pred['CurrentClose30toClose'].astype(float)
	new_pred['CurrentRange30'] = new_pred['CurrentRange30'].astype(float)
	new_pred['GapFill30'] = new_pred['GapFill30'].astype(float)
	new_pred['CurrentGap'] = new_pred['CurrentGap'].astype(float)
	new_pred['RangePct'] = new_pred['RangePct'].astype(float)
	new_pred['RangePct_n1'] = new_pred['RangePct_n1'].astype(float)
	new_pred['RangePct_n2'] = new_pred['RangePct_n2'].astype(float)
	new_pred['OHLC4_VIX'] = new_pred['OHLC4_VIX'].astype(float)
	new_pred['OHLC4_VIX_n1'] = new_pred['OHLC4_VIX_n1'].astype(float)
	new_pred['OHLC4_VIX_n2'] = new_pred['OHLC4_VIX_n2'].astype(float)

	st.success("✅ All done!")
	tab1, tab2, tab3, tab4 = st.tabs(["🔮 Prediction", "✨ New Data", "🗄 Historical", "📊 Performance"])

	seq_proba = seq_predict_proba(new_pred, xgbr, seq2)

	green_proba = seq_proba[0]
	red_proba = 1 - green_proba
	do_not_play = (seq_proba[0] > 0.4) and (seq_proba[0] <= 0.6)
	stdev = 0.01
	score = None
	num_obs = None
	cond = None
	historical_proba = None
	text_cond = None
	operator = None

	if do_not_play:
	text_cond = '🟨'
	operator = ''
	score = seq_proba[0]
	cond = (res1['Predicted'] > 0.4) & (res1['Predicted'] <= 0.6)
	num_obs = len(res1.loc[cond])
	historical_proba = res1.loc[cond, 'True'].mean()


	elif green_proba > red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟩'
	operator = '>='
	score = green_proba
	# How many with this score?
	cond = (res1['Predicted'] >= green_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = res1.loc[cond, 'True'].mean()
	# print(cond)

	elif green_proba <= red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟥'
	operator = '<='
	score = red_proba
	# How many with this score?
	cond = (res1['Predicted'] <= red_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = 1 - res1.loc[cond, 'True'].mean()
	# print(cond)

	score_fmt = f'{score:.1%}'

	results = pd.DataFrame(index=[
	'PrevClose',
	'Confidence Score',
	'Success Rate',
	f'NumObs {operator} {"" if do_not_play else score_fmt}',
	], data = [
	f"{data.loc[final_row,'Close']:.2f}",
	f'{text_cond} {score:.1%}',
	f'{historical_proba:.1%}',
	num_obs,
	])

	results.columns = ['Outputs']

	# st.subheader('New Prediction')

	int_labels = ['(-∞, .20]', '(.20, .40]', '(.40, .60]', '(.60, .80]', '(.80, ∞]']
	# df_probas = res1.groupby(pd.qcut(res1['Predicted'],5)).agg({'True':[np.mean,len,np.sum]})
	df_probas = res1.groupby(pd.cut(res1['Predicted'], bins = [-np.inf, 0.2, 0.4, 0.6, 0.8, np.inf], labels = int_labels)).agg({'True':[np.mean,len,np.sum]})
	df_probas.columns = ['PctGreen','NumObs','NumGreen']

	roc_auc_score_all = roc_auc_score(res1['True'].astype(int), res1['Predicted'].values)
	precision_score_all = precision_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	recall_score_all = recall_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	len_all = len(res1)

	res2_filtered = res1.loc[(res1['Predicted'] > 0.6) \| (res1['Predicted'] <= 0.4)]

	roc_auc_score_hi = roc_auc_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'].values)
	precision_score_hi = precision_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	recall_score_hi = recall_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	len_hi = len(res2_filtered)

	df_performance = pd.DataFrame(
	index=[
	'N',
	'ROC AUC',
	'Precision',
	'Recall'
	],
	columns = [
	'All',
	'High Confidence'
	],
	data = [
	[len_all, len_hi],
	[roc_auc_score_all, roc_auc_score_hi],
	[precision_score_all, precision_score_hi],
	[recall_score_all, recall_score_hi]
	]
	).round(2)

	def get_acc(t, p):
	if t == False and p <= 0.4:
	return '✅'
	elif t == True and p > 0.6:
	return '✅'
	elif t == False and p > 0.6:
	return '❌'
	elif t == True and p <= 0.4:
	return '❌'
	else:
	return '🟨'

	perf_daily = res1.copy()
	perf_daily['Accuracy'] = [get_acc(t, p) for t, p in zip(perf_daily['True'], perf_daily['Predicted'])]

	tab1.subheader(f'Pred for {curr_date} as of 7AM PST')
	tab1.write(results)
	tab1.write(df_probas)

	tab2.subheader('Latest Data for Pred')
	tab2.write(new_pred)

	tab3.subheader('Historical Data')
	tab3.write(df_final)

	tab4.subheader('Performance')
	tab4.write(df_performance)
	tab4.write(perf_daily.sort_index(ascending=False))

	elif option == '⏳ 60 Mins':
	if st.button('🏃🏽‍♂️ Run'):
	from model_1h import *
	with st.spinner('Loading data...'):
	data, df_final, final_row = get_data()
	# st.success("✅ Historical data")

	with st.spinner("Training models..."):
	def train_models():
	res1, xgbr, seq2 = walk_forward_validation_seq(df_final.dropna(), 'Target_clf', 'Target', 100, 1)
	return res1, xgbr, seq2
	res1, xgbr, seq2 = train_models()
	# st.success("✅ Models trained")

	with st.spinner("Getting new prediction..."):

	# Get last row
	new_pred = data.loc[final_row, ['BigNewsDay',
	'Quarter',
	'Perf5Day',
	'Perf5Day_n1',
	'DaysGreen',
	'DaysRed',
	'CurrentHigh30toClose',
	'CurrentLow30toClose',
	'CurrentClose30toClose',
	'CurrentRange30',
	'GapFill30',
	'CurrentGap',
	'RangePct',
	'RangePct_n1',
	'RangePct_n2',
	'OHLC4_VIX',
	'OHLC4_VIX_n1',
	'OHLC4_VIX_n2']]

	new_pred = pd.DataFrame(new_pred).T
	# new_pred_show = pd.DataFrame(index=[new_pred.columns], columns=[new_pred.index], data=[[v] for v in new_pred.values])
	# last_date = datetime.datetime.strptime(data.loc[final_row], '%Y-%m-%d')
	curr_date = final_row + BDay(1)
	curr_date = curr_date.strftime('%Y-%m-%d')

	new_pred['BigNewsDay'] = new_pred['BigNewsDay'].astype(float)
	new_pred['Quarter'] = new_pred['Quarter'].astype(int)
	new_pred['Perf5Day'] = new_pred['Perf5Day'].astype(bool)
	new_pred['Perf5Day_n1'] = new_pred['Perf5Day_n1'].astype(bool)
	new_pred['DaysGreen'] = new_pred['DaysGreen'].astype(float)
	new_pred['DaysRed'] = new_pred['DaysRed'].astype(float)
	new_pred['CurrentHigh30toClose'] = new_pred['CurrentHigh30toClose'].astype(float)
	new_pred['CurrentLow30toClose'] = new_pred['CurrentLow30toClose'].astype(float)
	new_pred['CurrentClose30toClose'] = new_pred['CurrentClose30toClose'].astype(float)
	new_pred['CurrentRange30'] = new_pred['CurrentRange30'].astype(float)
	new_pred['GapFill30'] = new_pred['GapFill30'].astype(float)
	new_pred['CurrentGap'] = new_pred['CurrentGap'].astype(float)
	new_pred['RangePct'] = new_pred['RangePct'].astype(float)
	new_pred['RangePct_n1'] = new_pred['RangePct_n1'].astype(float)
	new_pred['RangePct_n2'] = new_pred['RangePct_n2'].astype(float)
	new_pred['OHLC4_VIX'] = new_pred['OHLC4_VIX'].astype(float)
	new_pred['OHLC4_VIX_n1'] = new_pred['OHLC4_VIX_n1'].astype(float)
	new_pred['OHLC4_VIX_n2'] = new_pred['OHLC4_VIX_n2'].astype(float)

	st.success("✅ All done!")
	tab1, tab2, tab3, tab4 = st.tabs(["🔮 Prediction", "✨ New Data", "🗄 Historical", "📊 Performance"])

	seq_proba = seq_predict_proba(new_pred, xgbr, seq2)

	green_proba = seq_proba[0]
	red_proba = 1 - green_proba
	do_not_play = (seq_proba[0] > 0.4) and (seq_proba[0] <= 0.6)
	stdev = 0.01
	score = None
	num_obs = None
	cond = None
	historical_proba = None
	text_cond = None
	operator = None

	if do_not_play:
	text_cond = '🟨'
	operator = ''
	score = seq_proba[0]
	cond = (res1['Predicted'] > 0.4) & (res1['Predicted'] <= 0.6)
	num_obs = len(res1.loc[cond])
	historical_proba = res1.loc[cond, 'True'].mean()


	elif green_proba > red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟩'
	operator = '>='
	score = green_proba
	# How many with this score?
	cond = (res1['Predicted'] >= green_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = res1.loc[cond, 'True'].mean()
	# print(cond)

	elif green_proba <= red_proba:
	# If the day is predicted to be green, say so
	text_cond = '🟥'
	operator = '<='
	score = red_proba
	# How many with this score?
	cond = (res1['Predicted'] <= red_proba)
	num_obs = len(res1.loc[cond])
	# How often green?
	historical_proba = 1 - res1.loc[cond, 'True'].mean()
	# print(cond)

	score_fmt = f'{score:.1%}'

	results = pd.DataFrame(index=[
	'PrevClose',
	'Confidence Score',
	'Success Rate',
	f'NumObs {operator} {"" if do_not_play else score_fmt}',
	], data = [
	f"{data.loc[final_row,'Close']:.2f}",
	f'{text_cond} {score:.1%}',
	f'{historical_proba:.1%}',
	num_obs,
	])

	results.columns = ['Outputs']

	# st.subheader('New Prediction')
	int_labels = ['(-∞, .20]', '(.20, .40]', '(.40, .60]', '(.60, .80]', '(.80, ∞]']
	# df_probas = res1.groupby(pd.qcut(res1['Predicted'],5)).agg({'True':[np.mean,len,np.sum]})
	df_probas = res1.groupby(pd.cut(res1['Predicted'], bins = [-np.inf, 0.2, 0.4, 0.6, 0.8, np.inf], labels = int_labels)).agg({'True':[np.mean,len,np.sum]})
	df_probas.columns = ['PctGreen','NumObs','NumGreen']

	roc_auc_score_all = roc_auc_score(res1['True'].astype(int), res1['Predicted'].values)
	precision_score_all = precision_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	recall_score_all = recall_score(res1['True'].astype(int), res1['Predicted'] > 0.5)
	len_all = len(res1)

	res2_filtered = res1.loc[(res1['Predicted'] > 0.6) \| (res1['Predicted'] <= 0.4)]

	roc_auc_score_hi = roc_auc_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'].values)
	precision_score_hi = precision_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	recall_score_hi = recall_score(res2_filtered['True'].astype(int), res2_filtered['Predicted'] > 0.5)
	len_hi = len(res2_filtered)

	df_performance = pd.DataFrame(
	index=[
	'N',
	'ROC AUC',
	'Precision',
	'Recall'
	],
	columns = [
	'All',
	'High Confidence'
	],
	data = [
	[len_all, len_hi],
	[roc_auc_score_all, roc_auc_score_hi],
	[precision_score_all, precision_score_hi],
	[recall_score_all, recall_score_hi]
	]
	).round(2)

	def get_acc(t, p):
	if t == False and p <= 0.4:
	return '✅'
	elif t == True and p > 0.6:
	return '✅'
	elif t == False and p > 0.6:
	return '❌'
	elif t == True and p <= 0.4:
	return '❌'
	else:
	return '🟨'

	perf_daily = res1.copy()
	perf_daily['Accuracy'] = [get_acc(t, p) for t, p in zip(perf_daily['True'], perf_daily['Predicted'])]

	tab1.subheader(f'Pred for {curr_date} as of 7:30AM PST')
	tab1.write(results)
	tab1.write(df_probas)

	tab2.subheader('Latest Data for Pred')
	tab2.write(new_pred)

	tab3.subheader('Historical Data')
	tab3.write(df_final)

	tab4.subheader('Performance')
	tab4.write(df_performance)
	tab4.write(perf_daily)