Spaces:
Sleeping
Sleeping
import pandas as pd | |
import streamlit as st | |
import numpy as np | |
from scipy.stats import pearsonr | |
# Загрузка данных из Excel файлов | |
vacancy = 'vacancy_new_new.xlsx' | |
resume = 'resume_new_new.xlsx' | |
file_nkz = 'label_NKZ.xlsx' | |
file_skills = 'label_skills_new.xlsx' | |
df_vacancy = pd.read_excel(vacancy) | |
df_resume = pd.read_excel(resume) | |
df_nkz = pd.read_excel(file_nkz) | |
df_skills = pd.read_excel(file_skills) | |
# Проверка, что в файлах есть нужные колонки | |
required_columns = {'skills', 'name', 'NKZ', 'id'} | |
for df, fname in zip([df_vacancy, df_resume, df_nkz, df_skills], [vacancy, resume, file_nkz, file_skills]): | |
if not required_columns.intersection(df.columns): | |
raise ValueError(f"Файл {fname} должен содержать колонки {required_columns}") | |
# Streamlit интерфейс | |
st.title("Поиск совпадений по навыкам") | |
# Ввод текста для добавления в колонку 'name' | |
new_name = st.text_input("Введите название") | |
# Выбор из колонки 'NKZ' из файла label_NKZ | |
nkz_options = df_nkz['name'].unique().tolist() | |
selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options) | |
# Множественный выбор из колонки 'skills' из файла label_skills | |
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist()) | |
selected_skills = st.multiselect("Выберите навыки", skills_options) | |
# Выбор файла для поиска совпадений | |
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме")) | |
# Кнопки для добавления новой записи и запуска поиска совпадений | |
if st.button("Найти совпадения"): | |
if new_name and selected_skills: | |
# Определение DataFrame для поиска совпадений | |
df_to_search = df_vacancy if file_option == "Вакансия" else df_resume | |
skills_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].values | |
# Преобразование в array для поиска | |
selected_skills_array = np.array(skills_ids, dtype=int) | |
# Поиск совпадений по методу correlation | |
matching_results = [] | |
for index, row in df_to_search.iterrows(): | |
if 'arr' in row and isinstance(row['arr'], str): | |
arr_values = np.array([int(x) for x in row['arr'].split(',')], dtype=int) | |
correlation, _ = pearsonr(selected_skills_array, arr_values) | |
if correlation > 0.5: | |
matching_results.append({ | |
'Name': row['name'], | |
'Correlation': correlation | |
}) | |
# Вывод результатов, где совпадение больше 50% | |
st.write("Результаты с совпадением более 50%:") | |
if matching_results: | |
for result in matching_results: | |
st.markdown( | |
f""" | |
<div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;"> | |
<h4 style="margin: 0;">{result['Name']}</h4> | |
<p><strong>Коэффициент совпадения:</strong> {result['Correlation']:.2f}</p> | |
</div> | |
""", | |
unsafe_allow_html=True | |
) | |
else: | |
st.write("Нет совпадений с коэффициентом совпадения более 50%.") | |
else: | |
st.error("Пожалуйста, введите имя и выберите навыки для сравнения.") | |