Yerzhxn commited on
Commit
9ec1240
·
verified ·
1 Parent(s): e5b990e

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +82 -45
app.py CHANGED
@@ -1,12 +1,21 @@
 
 
 
 
 
 
 
 
 
 
1
  import pandas as pd
2
  import streamlit as st
3
- import numpy as np
4
 
5
  # Загрузка данных из четырех Excel файлов
6
  vacancy = 'vacancy_new_new.xlsx'
7
  resume = 'resume_new_new.xlsx'
8
  file_nkz = 'label_NKZ.xlsx'
9
- file_skills = 'label_skills_new.xlsx'
10
 
11
  df_vacancy = pd.read_excel(vacancy)
12
  df_resume = pd.read_excel(resume)
@@ -14,11 +23,11 @@ df_nkz = pd.read_excel(file_nkz)
14
  df_skills = pd.read_excel(file_skills)
15
 
16
  # Проверка, что в файлах есть нужные колонки
17
- if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns or 'id' not in df_skills.columns:
18
- raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
19
 
20
  # Streamlit интерфейс
21
- st.title("Поиск совпадений по навыкам на основе корреляции")
22
 
23
  # Ввод текста для добавления в колонку 'name'
24
  new_name = st.text_input("Введите название")
@@ -29,52 +38,80 @@ selected_nkz = st.selectbox("Выберите профессию по НКЗ", n
29
 
30
  # Множественный выбор из колонки 'skills' из файла label_skills
31
  skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
32
- selected_skills = st.multiselect("Выберите навыки", skills_options)
33
 
34
- # Преобразование выбранных навыков в массив числовых значений
35
  if selected_skills:
36
  selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
37
  else:
38
  selected_ids = []
39
-
40
  # Выбор файла для поиска совпадений
41
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
42
 
43
- # Определение DataFrame для поиска совпадений
44
- if file_option == "Вакансия":
45
- ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
46
- names_to_compare = df_vacancy['name'].tolist()
47
- else:
48
- ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
49
- names_to_compare = df_resume['name'].tolist()
50
-
51
- # Вычисление корреляции для поиска сходства
52
- matching_results = []
53
- if selected_ids:
54
- for i, ids_array in enumerate(ids_to_compare):
55
- min_len = min(len(selected_ids), len(ids_array))
56
- if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента
57
- correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
58
  else:
59
- correlation = 0
60
- if correlation > 0.5:
61
- matching_results.append({
62
- 'Name': names_to_compare[i],
63
- 'Correlation': correlation
64
- })
65
-
66
- # Вывод результатов
67
- st.write("Результаты поиска на основе корреляции:")
68
- if matching_results:
69
- for result in matching_results:
70
- st.markdown(
71
- f"""
72
- <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
73
- <h4 style="margin: 0;">{result['Name']}</h4>
74
- <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
75
- </div>
76
- """,
77
- unsafe_allow_html=True
78
- )
79
- else:
80
- st.write("Нет совпадений на основе корреляции с выбранными навыками.")
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+
3
+
4
+
5
+
6
+
7
+
8
+
9
+
10
+
11
  import pandas as pd
12
  import streamlit as st
 
13
 
14
  # Загрузка данных из четырех Excel файлов
15
  vacancy = 'vacancy_new_new.xlsx'
16
  resume = 'resume_new_new.xlsx'
17
  file_nkz = 'label_NKZ.xlsx'
18
+ file_skills = 'label_skills.xlsx'
19
 
20
  df_vacancy = pd.read_excel(vacancy)
21
  df_resume = pd.read_excel(resume)
 
23
  df_skills = pd.read_excel(file_skills)
24
 
25
  # Проверка, что в файлах есть нужные колонки
26
+ if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns:
27
+ raise ValueError("Файлы должны содержать колонки 'skills', 'name' и 'NKZ'")
28
 
29
  # Streamlit интерфейс
30
+ st.title("Поиск совпадений по навыкам")
31
 
32
  # Ввод текста для добавления в колонку 'name'
33
  new_name = st.text_input("Введите название")
 
38
 
39
  # Множественный выбор из колонки 'skills' из файла label_skills
40
  skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
 
41
 
42
+ selected_skills = st.multiselect("Выберите навыки", skills_options)
43
  if selected_skills:
44
  selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
45
  else:
46
  selected_ids = []
 
47
  # Выбор файла для поиска совпадений
48
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
49
 
50
+ # Выбор файла для записи новой записи
51
+ write_option = "resume" if file_option == "Вакансия" else "vacancy"
52
+
53
+ # Кнопки для добавления новой записи и запуска поиска совпадений
54
+ add_entry = st.button("Добавить новую запись")
55
+ if add_entry:
56
+ if new_name and selected_skills:
57
+ new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
58
+ if write_option == "vacancy":
59
+ df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
60
+ df_vacancy.to_excel(vacancy, index=False)
 
 
 
 
61
  else:
62
+ df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
63
+ df_resume.to_excel(resume, index=False)
64
+ st.success("Новая запись была успешно добавлена.")
65
+ else:
66
+ st.error("Пожалуйста, введите имя и выберите навыки для добавления записи.")
67
+
68
+ if st.button("Найти совпадения"):
69
+ if new_name and selected_skills:
70
+ # Добавление новой записи в противоположный файл
71
+ new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
72
+ if write_option == "vacancy":
73
+ df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
74
+ df_vacancy.to_excel(vacancy, index=False)
75
+ else:
76
+ df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
77
+ df_resume.to_excel(resume, index=False)
78
+
79
+ # Определение DataFrame для поиска совпадений
80
+ if file_option == "Вакансия":
81
+ ids_to_compare = df_vacancy['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
82
+ names_to_compare = df_vacancy['name'].tolist()
83
+ else:
84
+ ids_to_compare = df_resume['arr'].apply(lambda x: [int(i) for i in x.split(',') if i.strip().isdigit()]).tolist()
85
+ names_to_compare = df_resume['name'].tolist()
86
+
87
+ # Поиск совпадений по навыкам
88
+ matching_results = []
89
+ for i, skills_text in enumerate(skills_to_compare):
90
+ match_count = sum(skill in skills_text for skill in selected_skills)
91
+ if match_count >= len(selected_skills) / 2:
92
+ matching_results.append({
93
+ 'Name': names_to_compare[i],
94
+ 'Matching Skills': [skill for skill in selected_skills if skill in skills_text],
95
+ 'Match Count': match_count
96
+ })
97
+
98
+ # Вывод результатов, где совпадение как минимум половины выбранных навыков
99
+ st.write("Результаты с совпадением как минимум половины выбранных навыков:")
100
+ matching_results = []
101
+ if selected_ids:
102
+ for i, ids_array in enumerate(ids_to_compare):
103
+ min_len = min(len(selected_ids), len(ids_array))
104
+ if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента
105
+ correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
106
+ else:
107
+ correlation = 0
108
+ if correlation > 0.5:
109
+ matching_results.append({
110
+ 'Name': names_to_compare[i],
111
+ 'Correlation': correlation
112
+ })
113
+ else:
114
+ st.write("Нет совпадений с как минимум половиной выбранных навыков.")
115
+ else:
116
+ st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
117
+