Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -1,12 +1,21 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
import pandas as pd
|
2 |
import streamlit as st
|
3 |
-
import numpy as np
|
4 |
|
5 |
# Загрузка данных из четырех Excel файлов
|
6 |
vacancy = 'vacancy_new_new.xlsx'
|
7 |
resume = 'resume_new_new.xlsx'
|
8 |
file_nkz = 'label_NKZ.xlsx'
|
9 |
-
file_skills = '
|
10 |
|
11 |
df_vacancy = pd.read_excel(vacancy)
|
12 |
df_resume = pd.read_excel(resume)
|
@@ -14,11 +23,11 @@ df_nkz = pd.read_excel(file_nkz)
|
|
14 |
df_skills = pd.read_excel(file_skills)
|
15 |
|
16 |
# Проверка, что в файлах есть нужные колонки
|
17 |
-
if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns
|
18 |
-
raise ValueError("Файлы должны содержать колонки 'skills', 'name'
|
19 |
|
20 |
# Streamlit интерфейс
|
21 |
-
st.title("Поиск совпадений по навыкам
|
22 |
|
23 |
# Ввод текста для добавления в колонку 'name'
|
24 |
new_name = st.text_input("Введите название")
|
@@ -29,52 +38,80 @@ selected_nkz = st.selectbox("Выберите профессию по НКЗ", n
|
|
29 |
|
30 |
# Множественный выбор из колонки 'skills' из файла label_skills
|
31 |
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
|
32 |
-
selected_skills = st.multiselect("Выберите навыки", skills_options)
|
33 |
|
34 |
-
|
35 |
if selected_skills:
|
36 |
selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
|
37 |
else:
|
38 |
selected_ids = []
|
39 |
-
|
40 |
# Выбор файла для поиска совпадений
|
41 |
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
|
42 |
|
43 |
-
#
|
44 |
-
if file_option == "Вакансия"
|
45 |
-
|
46 |
-
|
47 |
-
|
48 |
-
|
49 |
-
|
50 |
-
|
51 |
-
|
52 |
-
|
53 |
-
|
54 |
-
for i, ids_array in enumerate(ids_to_compare):
|
55 |
-
min_len = min(len(selected_ids), len(ids_array))
|
56 |
-
if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента
|
57 |
-
correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
|
58 |
else:
|
59 |
-
|
60 |
-
|
61 |
-
|
62 |
-
|
63 |
-
|
64 |
-
|
65 |
-
|
66 |
-
|
67 |
-
|
68 |
-
|
69 |
-
|
70 |
-
|
71 |
-
|
72 |
-
|
73 |
-
|
74 |
-
|
75 |
-
|
76 |
-
|
77 |
-
|
78 |
-
|
79 |
-
|
80 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
|
3 |
+
|
4 |
+
|
5 |
+
|
6 |
+
|
7 |
+
|
8 |
+
|
9 |
+
|
10 |
+
|
11 |
import pandas as pd
|
12 |
import streamlit as st
|
|
|
13 |
|
14 |
# Загрузка данных из четырех Excel файлов
|
15 |
vacancy = 'vacancy_new_new.xlsx'
|
16 |
resume = 'resume_new_new.xlsx'
|
17 |
file_nkz = 'label_NKZ.xlsx'
|
18 |
+
file_skills = 'label_skills.xlsx'
|
19 |
|
20 |
df_vacancy = pd.read_excel(vacancy)
|
21 |
df_resume = pd.read_excel(resume)
|
|
|
23 |
df_skills = pd.read_excel(file_skills)
|
24 |
|
25 |
# Проверка, что в файлах есть нужные колонки
|
26 |
+
if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns:
|
27 |
+
raise ValueError("Файлы должны содержать колонки 'skills', 'name' и 'NKZ'")
|
28 |
|
29 |
# Streamlit интерфейс
|
30 |
+
st.title("Поиск совпадений по навыкам")
|
31 |
|
32 |
# Ввод текста для добавления в колонку 'name'
|
33 |
new_name = st.text_input("Введите название")
|
|
|
38 |
|
39 |
# Множественный выбор из колонки 'skills' из файла label_skills
|
40 |
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
|
|
|
41 |
|
42 |
+
selected_skills = st.multiselect("Выберите навыки", skills_options)
|
43 |
if selected_skills:
|
44 |
selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
|
45 |
else:
|
46 |
selected_ids = []
|
|
|
47 |
# Выбор файла для поиска совпадений
|
48 |
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
|
49 |
|
50 |
+
# Выбор файла для записи новой записи
|
51 |
+
write_option = "resume" if file_option == "Вакансия" else "vacancy"
|
52 |
+
|
53 |
+
# Кнопки для добавления новой записи и запуска поиска совпадений
|
54 |
+
add_entry = st.button("Добавить новую запись")
|
55 |
+
if add_entry:
|
56 |
+
if new_name and selected_skills:
|
57 |
+
new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
|
58 |
+
if write_option == "vacancy":
|
59 |
+
df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
|
60 |
+
df_vacancy.to_excel(vacancy, index=False)
|
|
|
|
|
|
|
|
|
61 |
else:
|
62 |
+
df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
|
63 |
+
df_resume.to_excel(resume, index=False)
|
64 |
+
st.success("Новая запись была успешно добавлена.")
|
65 |
+
else:
|
66 |
+
st.error("Пожалуйста, введите имя и выберите навыки для добавления записи.")
|
67 |
+
|
68 |
+
if st.button("Найти совпадения"):
|
69 |
+
if new_name and selected_skills:
|
70 |
+
# Добавление новой записи в противоположный файл
|
71 |
+
new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
|
72 |
+
if write_option == "vacancy":
|
73 |
+
df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
|
74 |
+
df_vacancy.to_excel(vacancy, index=False)
|
75 |
+
else:
|
76 |
+
df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
|
77 |
+
df_resume.to_excel(resume, index=False)
|
78 |
+
|
79 |
+
# Определение DataFrame для поиска совпадений
|
80 |
+
if file_option == "Вакансия":
|
81 |
+
ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
|
82 |
+
names_to_compare = df_vacancy['name'].tolist()
|
83 |
+
else:
|
84 |
+
ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
|
85 |
+
names_to_compare = df_resume['name'].tolist()
|
86 |
+
|
87 |
+
# Поиск совпадений по навыкам
|
88 |
+
matching_results = []
|
89 |
+
for i, skills_text in enumerate(skills_to_compare):
|
90 |
+
match_count = sum(skill in skills_text for skill in selected_skills)
|
91 |
+
if match_count >= len(selected_skills) / 2:
|
92 |
+
matching_results.append({
|
93 |
+
'Name': names_to_compare[i],
|
94 |
+
'Matching Skills': [skill for skill in selected_skills if skill in skills_text],
|
95 |
+
'Match Count': match_count
|
96 |
+
})
|
97 |
+
|
98 |
+
# Вывод результатов, где совпадение как минимум половины выбранных навыков
|
99 |
+
st.write("Результаты с совпадением как минимум половины выбранных навыков:")
|
100 |
+
matching_results = []
|
101 |
+
if selected_ids:
|
102 |
+
for i, ids_array in enumerate(ids_to_compare):
|
103 |
+
min_len = min(len(selected_ids), len(ids_array))
|
104 |
+
if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента
|
105 |
+
correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
|
106 |
+
else:
|
107 |
+
correlation = 0
|
108 |
+
if correlation > 0.5:
|
109 |
+
matching_results.append({
|
110 |
+
'Name': names_to_compare[i],
|
111 |
+
'Correlation': correlation
|
112 |
+
})
|
113 |
+
else:
|
114 |
+
st.write("Нет совпадений с как минимум половиной выбранных навыков.")
|
115 |
+
else:
|
116 |
+
st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
|
117 |
+
|