Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -1,8 +1,9 @@
|
|
1 |
import pandas as pd
|
2 |
import streamlit as st
|
3 |
import numpy as np
|
|
|
4 |
|
5 |
-
# Загрузка данных из
|
6 |
vacancy = 'vacancy_new_new.xlsx'
|
7 |
resume = 'resume_new_new.xlsx'
|
8 |
file_nkz = 'label_NKZ.xlsx'
|
@@ -14,7 +15,10 @@ df_nkz = pd.read_excel(file_nkz)
|
|
14 |
df_skills = pd.read_excel(file_skills)
|
15 |
|
16 |
# Проверка, что в файлах есть нужные колонки
|
17 |
-
|
|
|
|
|
|
|
18 |
|
19 |
# Streamlit интерфейс
|
20 |
st.title("Поиск совпадений по навыкам")
|
@@ -27,58 +31,48 @@ nkz_options = df_nkz['name'].unique().tolist()
|
|
27 |
selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)
|
28 |
|
29 |
# Множественный выбор из колонки 'skills' из файла label_skills
|
30 |
-
|
31 |
-
|
32 |
-
selected_skills = st.multiselect("Выберите навыки", sorted(skills_options))
|
33 |
-
else:
|
34 |
-
selected_skills = []
|
35 |
|
36 |
# Выбор файла для поиска совпадений
|
37 |
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
|
38 |
|
39 |
-
# Выбор файла для записи новой записи
|
40 |
-
write_option = "resume" if file_option == "Вакансия" else "vacancy"
|
41 |
-
|
42 |
# Кнопки для добавления новой записи и запуска поиска совпадений
|
43 |
-
add_entry = st.button("Добавить новую запись")
|
44 |
-
if add_entry:
|
45 |
-
if new_name and selected_skills:
|
46 |
-
new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [', '.join(selected_skills)]})
|
47 |
-
if write_option == "vacancy":
|
48 |
-
df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
|
49 |
-
df_vacancy.to_excel(vacancy, index=False)
|
50 |
-
else:
|
51 |
-
df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
|
52 |
-
df_resume.to_excel(resume, index=False)
|
53 |
-
st.success("Новая запись была успешно добавлена.")
|
54 |
-
else:
|
55 |
-
st.error("Пожалуйста, введите имя и выберите навыки для добавления записи.")
|
56 |
-
|
57 |
if st.button("Найти совпадения"):
|
58 |
if new_name and selected_skills:
|
59 |
# Определение DataFrame для поиска совпадений
|
60 |
-
if file_option == "Вакансия"
|
61 |
-
|
62 |
-
|
63 |
-
|
|
|
64 |
|
65 |
-
# Поиск совпадений по
|
66 |
matching_results = []
|
67 |
-
for
|
68 |
-
|
69 |
-
|
70 |
-
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
|
77 |
-
# Вывод
|
|
|
78 |
if matching_results:
|
79 |
-
|
80 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
81 |
else:
|
82 |
-
st.write("Нет совпадений с
|
83 |
else:
|
84 |
st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
|
|
|
1 |
import pandas as pd
|
2 |
import streamlit as st
|
3 |
import numpy as np
|
4 |
+
from scipy.stats import pearsonr
|
5 |
|
6 |
+
# Загрузка данных из Excel файлов
|
7 |
vacancy = 'vacancy_new_new.xlsx'
|
8 |
resume = 'resume_new_new.xlsx'
|
9 |
file_nkz = 'label_NKZ.xlsx'
|
|
|
15 |
df_skills = pd.read_excel(file_skills)
|
16 |
|
17 |
# Проверка, что в файлах есть нужные колонки
|
18 |
+
required_columns = {'skills', 'name', 'NKZ', 'id'}
|
19 |
+
for df, fname in zip([df_vacancy, df_resume, df_nkz, df_skills], [vacancy, resume, file_nkz, file_skills]):
|
20 |
+
if not required_columns.intersection(df.columns):
|
21 |
+
raise ValueError(f"Файл {fname} должен содержать колонки {required_columns}")
|
22 |
|
23 |
# Streamlit интерфейс
|
24 |
st.title("Поиск совпадений по навыкам")
|
|
|
31 |
selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)
|
32 |
|
33 |
# Множественный выбор из колонки 'skills' из файла label_skills
|
34 |
+
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
|
35 |
+
selected_skills = st.multiselect("Выберите навыки", skills_options)
|
|
|
|
|
|
|
36 |
|
37 |
# Выбор файла для поиска совпадений
|
38 |
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
|
39 |
|
|
|
|
|
|
|
40 |
# Кнопки для добавления новой записи и запуска поиска совпадений
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
41 |
if st.button("Найти совпадения"):
|
42 |
if new_name and selected_skills:
|
43 |
# Определение DataFrame для поиска совпадений
|
44 |
+
df_to_search = df_vacancy if file_option == "Вакансия" else df_resume
|
45 |
+
skills_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].values
|
46 |
+
|
47 |
+
# Преобразование в array для поиска
|
48 |
+
selected_skills_array = np.array(skills_ids, dtype=int)
|
49 |
|
50 |
+
# Поиск совпадений по методу correlation
|
51 |
matching_results = []
|
52 |
+
for index, row in df_to_search.iterrows():
|
53 |
+
if 'arr' in row and isinstance(row['arr'], str):
|
54 |
+
arr_values = np.array([int(x) for x in row['arr'].split(',')], dtype=int)
|
55 |
+
correlation, _ = pearsonr(selected_skills_array, arr_values)
|
56 |
+
if correlation > 0.5:
|
57 |
+
matching_results.append({
|
58 |
+
'Name': row['name'],
|
59 |
+
'Correlation': correlation
|
60 |
+
})
|
61 |
|
62 |
+
# Вывод результатов, где совпадение больше 50%
|
63 |
+
st.write("Результаты с совпадением более 50%:")
|
64 |
if matching_results:
|
65 |
+
for result in matching_results:
|
66 |
+
st.markdown(
|
67 |
+
f"""
|
68 |
+
<div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
|
69 |
+
<h4 style="margin: 0;">{result['Name']}</h4>
|
70 |
+
<p><strong>Коэффициент совпадения:</strong> {result['Correlation']:.2f}</p>
|
71 |
+
</div>
|
72 |
+
""",
|
73 |
+
unsafe_allow_html=True
|
74 |
+
)
|
75 |
else:
|
76 |
+
st.write("Нет совпадений с коэффициентом совпадения более 50%.")
|
77 |
else:
|
78 |
st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
|