Yerzhxn commited on
Commit
52b2523
·
verified ·
1 Parent(s): b3b575b

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +36 -42
app.py CHANGED
@@ -1,8 +1,9 @@
1
  import pandas as pd
2
  import streamlit as st
3
  import numpy as np
 
4
 
5
- # Загрузка данных из четырех Excel файлов
6
  vacancy = 'vacancy_new_new.xlsx'
7
  resume = 'resume_new_new.xlsx'
8
  file_nkz = 'label_NKZ.xlsx'
@@ -14,7 +15,10 @@ df_nkz = pd.read_excel(file_nkz)
14
  df_skills = pd.read_excel(file_skills)
15
 
16
  # Проверка, что в файлах есть нужные колонки
17
-
 
 
 
18
 
19
  # Streamlit интерфейс
20
  st.title("Поиск совпадений по навыкам")
@@ -27,58 +31,48 @@ nkz_options = df_nkz['name'].unique().tolist()
27
  selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)
28
 
29
  # Множественный выбор из колонки 'skills' из файла label_skills
30
- if selected_nkz:
31
- skills_options = df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist()
32
- selected_skills = st.multiselect("Выберите навыки", sorted(skills_options))
33
- else:
34
- selected_skills = []
35
 
36
  # Выбор файла для поиска совпадений
37
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
38
 
39
- # Выбор файла для записи новой записи
40
- write_option = "resume" if file_option == "Вакансия" else "vacancy"
41
-
42
  # Кнопки для добавления новой записи и запуска поиска совпадений
43
- add_entry = st.button("Добавить новую запись")
44
- if add_entry:
45
- if new_name and selected_skills:
46
- new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [', '.join(selected_skills)]})
47
- if write_option == "vacancy":
48
- df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
49
- df_vacancy.to_excel(vacancy, index=False)
50
- else:
51
- df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
52
- df_resume.to_excel(resume, index=False)
53
- st.success("Новая запись была успешно добавлена.")
54
- else:
55
- st.error("Пожалуйста, введите имя и выберите навыки для добавления записи.")
56
-
57
  if st.button("Найти совпадения"):
58
  if new_name and selected_skills:
59
  # Определение DataFrame для поиска совпадений
60
- if file_option == "Вакансия":
61
- df_to_compare = df_vacancy
62
- else:
63
- df_to_compare = df_resume
 
64
 
65
- # Поиск совпадений по навыкам
66
  matching_results = []
67
- for i, row in df_to_compare.iterrows():
68
- existing_skills = row['skills'].split(', ')
69
- match_count = sum(skill in existing_skills for skill in selected_skills)
70
- if match_count >= len(selected_skills) / 2:
71
- matching_results.append({
72
- 'Name': row['name'],
73
- 'Matching Skills': [skill for skill in selected_skills if skill in existing_skills],
74
- 'Match Count': match_count
75
- })
76
 
77
- # Вывод результатов
 
78
  if matching_results:
79
- st.write("Результаты с совпадением как минимум половины выбранных навыков:")
80
- st.write(pd.DataFrame(matching_results))
 
 
 
 
 
 
 
 
81
  else:
82
- st.write("Нет совпадений с как минимум половиной выбранных навыков.")
83
  else:
84
  st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
 
1
  import pandas as pd
2
  import streamlit as st
3
  import numpy as np
4
+ from scipy.stats import pearsonr
5
 
6
+ # Загрузка данных из Excel файлов
7
  vacancy = 'vacancy_new_new.xlsx'
8
  resume = 'resume_new_new.xlsx'
9
  file_nkz = 'label_NKZ.xlsx'
 
15
  df_skills = pd.read_excel(file_skills)
16
 
17
  # Проверка, что в файлах есть нужные колонки
18
+ required_columns = {'skills', 'name', 'NKZ', 'id'}
19
+ for df, fname in zip([df_vacancy, df_resume, df_nkz, df_skills], [vacancy, resume, file_nkz, file_skills]):
20
+ if not required_columns.intersection(df.columns):
21
+ raise ValueError(f"Файл {fname} должен содержать колонки {required_columns}")
22
 
23
  # Streamlit интерфейс
24
  st.title("Поиск совпадений по навыкам")
 
31
  selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)
32
 
33
  # Множественный выбор из колонки 'skills' из файла label_skills
34
+ skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
35
+ selected_skills = st.multiselect("Выберите навыки", skills_options)
 
 
 
36
 
37
  # Выбор файла для поиска совпадений
38
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
39
 
 
 
 
40
  # Кнопки для добавления новой записи и запуска поиска совпадений
 
 
 
 
 
 
 
 
 
 
 
 
 
 
41
  if st.button("Найти совпадения"):
42
  if new_name and selected_skills:
43
  # Определение DataFrame для поиска совпадений
44
+ df_to_search = df_vacancy if file_option == "Вакансия" else df_resume
45
+ skills_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].values
46
+
47
+ # Преобразование в array для поиска
48
+ selected_skills_array = np.array(skills_ids, dtype=int)
49
 
50
+ # Поиск совпадений по методу correlation
51
  matching_results = []
52
+ for index, row in df_to_search.iterrows():
53
+ if 'arr' in row and isinstance(row['arr'], str):
54
+ arr_values = np.array([int(x) for x in row['arr'].split(',')], dtype=int)
55
+ correlation, _ = pearsonr(selected_skills_array, arr_values)
56
+ if correlation > 0.5:
57
+ matching_results.append({
58
+ 'Name': row['name'],
59
+ 'Correlation': correlation
60
+ })
61
 
62
+ # Вывод результатов, где совпадение больше 50%
63
+ st.write("Результаты с совпадением более 50%:")
64
  if matching_results:
65
+ for result in matching_results:
66
+ st.markdown(
67
+ f"""
68
+ <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
69
+ <h4 style="margin: 0;">{result['Name']}</h4>
70
+ <p><strong>Коэффициент совпадения:</strong> {result['Correlation']:.2f}</p>
71
+ </div>
72
+ """,
73
+ unsafe_allow_html=True
74
+ )
75
  else:
76
+ st.write("Нет совпадений с коэффициентом совпадения более 50%.")
77
  else:
78
  st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")