Spaces:

Yerzhxn
/

test_space_new

Sleeping

App Files Files Community

test_space_new / app.py

Yerzhxn

Update app.py

52b2523 verified 4 months ago

raw

history blame

3.92 kB

	import pandas as pd
	import streamlit as st
	import numpy as np
	from scipy.stats import pearsonr

	# Загрузка данных из Excel файлов
	vacancy = 'vacancy_new_new.xlsx'
	resume = 'resume_new_new.xlsx'
	file_nkz = 'label_NKZ.xlsx'
	file_skills = 'label_skills_new.xlsx'

	df_vacancy = pd.read_excel(vacancy)
	df_resume = pd.read_excel(resume)
	df_nkz = pd.read_excel(file_nkz)
	df_skills = pd.read_excel(file_skills)

	# Проверка, что в файлах есть нужные колонки
	required_columns = {'skills', 'name', 'NKZ', 'id'}
	for df, fname in zip([df_vacancy, df_resume, df_nkz, df_skills], [vacancy, resume, file_nkz, file_skills]):
	if not required_columns.intersection(df.columns):
	raise ValueError(f"Файл {fname} должен содержать колонки {required_columns}")

	# Streamlit интерфейс
	st.title("Поиск совпадений по навыкам")

	# Ввод текста для добавления в колонку 'name'
	new_name = st.text_input("Введите название")

	# Выбор из колонки 'NKZ' из файла label_NKZ
	nkz_options = df_nkz['name'].unique().tolist()
	selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)

	# Множественный выбор из колонки 'skills' из файла label_skills
	skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
	selected_skills = st.multiselect("Выберите навыки", skills_options)

	# Выбор файла для поиска совпадений
	file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))

	# Кнопки для добавления новой записи и запуска поиска совпадений
	if st.button("Найти совпадения"):
	if new_name and selected_skills:
	# Определение DataFrame для поиска совпадений
	df_to_search = df_vacancy if file_option == "Вакансия" else df_resume
	skills_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].values

	# Преобразование в array для поиска
	selected_skills_array = np.array(skills_ids, dtype=int)

	# Поиск совпадений по методу correlation
	matching_results = []
	for index, row in df_to_search.iterrows():
	if 'arr' in row and isinstance(row['arr'], str):
	arr_values = np.array([int(x) for x in row['arr'].split(',')], dtype=int)
	correlation, _ = pearsonr(selected_skills_array, arr_values)
	if correlation > 0.5:
	matching_results.append({
	'Name': row['name'],
	'Correlation': correlation
	})

	# Вывод результатов, где совпадение больше 50%
	st.write("Результаты с совпадением более 50%:")
	if matching_results:
	for result in matching_results:
	st.markdown(
	f"""
	<div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
	<h4 style="margin: 0;">{result['Name']}</h4>
	<p><strong>Коэффициент совпадения:</strong> {result['Correlation']:.2f}</p>
	</div>
	""",
	unsafe_allow_html=True
	)
	else:
	st.write("Нет совпадений с коэффициентом совпадения более 50%.")
	else:
	st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")