Yerzhxn commited on
Commit
ba6bed9
·
verified ·
1 Parent(s): 419d1a3

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +47 -70
app.py CHANGED
@@ -1,9 +1,10 @@
1
  import pandas as pd
2
  import streamlit as st
 
3
 
4
  # Загрузка данных из четырех Excel файлов
5
- vacancy = 'vacancy_new_new.xlsx'
6
- resume = 'resume_new_new.xlsx'
7
  file_nkz = 'label_NKZ.xlsx'
8
  file_skills = 'label_skills_new.xlsx'
9
 
@@ -13,11 +14,11 @@ df_nkz = pd.read_excel(file_nkz)
13
  df_skills = pd.read_excel(file_skills)
14
 
15
  # Проверка, что в файлах есть нужные колонки
16
- if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns:
17
- raise ValueError("Файлы должны содержать колонки 'skills', 'name' и 'NKZ'")
18
 
19
  # Streamlit интерфейс
20
- st.title("Поиск совпадений по навыкам")
21
 
22
  # Ввод текста для добавления в колонку 'name'
23
  new_name = st.text_input("Введите название")
@@ -28,76 +29,52 @@ selected_nkz = st.selectbox("Выберите профессию по НКЗ", n
28
 
29
  # Множественный выбор из колонки 'skills' из файла label_skills
30
  skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
31
-
32
  selected_skills = st.multiselect("Выберите навыки", skills_options)
33
 
 
 
 
 
 
 
34
  # Выбор файла для поиска совпадений
35
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
36
 
37
- # Выбор файла для записи новой записи
38
- write_option = "resume" if file_option == "Вакансия" else "vacancy"
 
 
 
 
 
39
 
40
- # Кнопки для добавления новой записи и запуска поиска совпадений
41
- add_entry = st.button("Добавить новую запись")
42
- if add_entry:
43
- if new_name and selected_skills:
44
- new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
45
- if write_option == "vacancy":
46
- df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
47
- df_vacancy.to_excel(vacancy, index=False)
48
  else:
49
- df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
50
- df_resume.to_excel(resume, index=False)
51
- st.success("Новая запись была успешно добавлена.")
52
- else:
53
- st.error("Пожалуйста, введите имя и выберите навыки для добавления записи.")
 
54
 
55
- if st.button("Найти совпадения"):
56
- if new_name and selected_skills:
57
- # Добавление новой записи в противоположный файл
58
- new_entry = pd.DataFrame({'name': [new_name], 'NKZ': [selected_nkz], 'skills': [' '.join(selected_skills)]})
59
- if write_option == "vacancy":
60
- df_vacancy = pd.concat([df_vacancy, new_entry], ignore_index=True)
61
- df_vacancy.to_excel(vacancy, index=False)
62
- else:
63
- df_resume = pd.concat([df_resume, new_entry], ignore_index=True)
64
- df_resume.to_excel(resume, index=False)
65
-
66
- # Определение DataFrame для поиска совпадений
67
- if file_option == "Вакансия":
68
- skills_to_compare = df_vacancy['skills'].tolist()
69
- names_to_compare = df_vacancy['name'].tolist()
70
- else:
71
- skills_to_compare = df_resume['skills'].tolist()
72
- names_to_compare = df_resume['name'].tolist()
73
-
74
- # Поиск совпадений по навыкам
75
- matching_results = []
76
- for i, skills_text in enumerate(skills_to_compare):
77
- match_count = sum(skill in skills_text for skill in selected_skills)
78
- if match_count >= len(selected_skills) / 2:
79
- matching_results.append({
80
- 'Name': names_to_compare[i],
81
- 'Matching Skills': [skill for skill in selected_skills if skill in skills_text],
82
- 'Match Count': match_count
83
- })
84
-
85
- # Вывод результатов, где совпадение как минимум половины выбранных навыков
86
- st.write("Результаты с совпадением как минимум половины выбранных навыков:")
87
- if matching_results:
88
- for result in matching_results:
89
- st.markdown(
90
- f"""
91
- <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
92
- <h4 style="margin: 0;">{result['Name']}</h4>
93
- <p><strong>Совпадающие навыки:</strong><br>
94
- {'<br>'.join(['• ' + skill for skill in result['Matching Skills']])}</p>
95
- <p><strong>Количество совпадений:</strong> {result['Match Count']}</p>
96
- </div>
97
- """,
98
- unsafe_allow_html=True
99
- )
100
- else:
101
- st.write("Нет совпадений с как минимум половиной выбранных навыков.")
102
- else:
103
- st.error("Пожалуйста, введите имя и выберите навыки для сравнения.")
 
1
  import pandas as pd
2
  import streamlit as st
3
+ import numpy as np
4
 
5
  # Загрузка данных из четырех Excel файлов
6
+ vacancy = 'vacancy_new.xlsx'
7
+ resume = 'resume_new.xlsx'
8
  file_nkz = 'label_NKZ.xlsx'
9
  file_skills = 'label_skills_new.xlsx'
10
 
 
14
  df_skills = pd.read_excel(file_skills)
15
 
16
  # Проверка, что в файлах есть нужные колонки
17
+ if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns or 'id' not in df_skills.columns:
18
+ raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")
19
 
20
  # Streamlit интерфейс
21
+ st.title("Поиск совпадений по навыкам на основе корреляции")
22
 
23
  # Ввод текста для добавления в колонку 'name'
24
  new_name = st.text_input("Введите название")
 
29
 
30
  # Множественный выбор из колонки 'skills' из файла label_skills
31
  skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
 
32
  selected_skills = st.multiselect("Выберите навыки", skills_options)
33
 
34
+ # Преобразование выбранных навыков в массив числовых значений
35
+ if selected_skills:
36
+ selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
37
+ else:
38
+ selected_ids = []
39
+
40
  # Выбор файла для поиска совпадений
41
  file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))
42
 
43
+ # Определение DataFrame для поиска совпадений
44
+ if file_option == "Вакансия":
45
+ ids_to_compare = df_vacancy['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
46
+ names_to_compare = df_vacancy['name'].tolist()
47
+ else:
48
+ ids_to_compare = df_resume['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
49
+ names_to_compare = df_resume['name'].tolist()
50
 
51
+ # Вычисление корреляции для поиска сходства
52
+ matching_results = []
53
+ if selected_ids:
54
+ for i, ids_array in enumerate(ids_to_compare):
55
+ min_len = min(len(selected_ids), len(ids_array))
56
+ if min_len > 1: # Для вычисления корреляции необходимо как минимум два элемента
57
+ correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
 
58
  else:
59
+ correlation = 0
60
+ if correlation > 0.5:
61
+ matching_results.append({
62
+ 'Name': names_to_compare[i],
63
+ 'Correlation': correlation
64
+ })
65
 
66
+ # Вывод результатов
67
+ st.write("Результаты поиска на основе корреляции:")
68
+ if matching_results:
69
+ for result in matching_results:
70
+ st.markdown(
71
+ f"""
72
+ <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
73
+ <h4 style="margin: 0;">{result['Name']}</h4>
74
+ <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
75
+ </div>
76
+ """,
77
+ unsafe_allow_html=True
78
+ )
79
+ else:
80
+ st.write("Нет совпадений на основе корреляции с выбранными навыками.")