Spaces:

Yerzhxn
/

test_space_new

Sleeping

File size: 3,830 Bytes

561c472
 
ba6bed9
561c472
 
ba6bed9
 
561c472
419d1a3
561c472
 
 
 
 
 
 
ba6bed9
 
561c472
 
ba6bed9
561c472
 
 
 
 
 
 
 
 
 
 
 
ba6bed9
 
 
 
 
 
561c472
 
 
ba6bed9
 
 
 
 
 
 
561c472
ba6bed9
 
 
 
 
 
 
561c472
ba6bed9
 
 
 
 
 
561c472
ba6bed9

import pandas as pd
import streamlit as st
import numpy as np

# Загрузка данных из четырех Excel файлов
vacancy = 'vacancy_new.xlsx'
resume = 'resume_new.xlsx'
file_nkz = 'label_NKZ.xlsx'
file_skills = 'label_skills_new.xlsx'

df_vacancy = pd.read_excel(vacancy)
df_resume = pd.read_excel(resume)
df_nkz = pd.read_excel(file_nkz)
df_skills = pd.read_excel(file_skills)

# Проверка, что в файлах есть нужные колонки
if 'skills' not in df_vacancy.columns or 'skills' not in df_resume.columns or 'name' not in df_vacancy.columns or 'name' not in df_resume.columns or 'NKZ' not in df_nkz.columns or 'skills' not in df_skills.columns or 'id' not in df_skills.columns:
    raise ValueError("Файлы должны содержать колонки 'skills', 'name', 'NKZ' и 'id'")

# Streamlit интерфейс
st.title("Поиск совпадений по навыкам на основе корреляции")

# Ввод текста для добавления в колонку 'name'
new_name = st.text_input("Введите название")

# Выбор из колонки 'NKZ' из файла label_NKZ
nkz_options = df_nkz['name'].unique().tolist()
selected_nkz = st.selectbox("Выберите профессию по НКЗ", nkz_options)

# Множественный выбор из колонки 'skills' из файла label_skills
skills_options = sorted(df_skills[df_skills['NKZ'] == df_nkz[df_nkz['name'] == selected_nkz]['NKZ'].values[0]]['skills'].unique().tolist())
selected_skills = st.multiselect("Выберите навыки", skills_options)

# Преобразование выбранных навыков в массив числовых значений
if selected_skills:
    selected_ids = df_skills[df_skills['skills'].isin(selected_skills)]['id'].tolist()
else:
    selected_ids = []

# Выбор файла для поиска совпадений
file_option = st.selectbox("Выберите тип", ("Вакансия", "Резюме"))

# Определение DataFrame для поиска совпадений
if file_option == "Вакансия":
    ids_to_compare = df_vacancy['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
    names_to_compare = df_vacancy['name'].tolist()
else:
    ids_to_compare = df_resume['skills'].apply(lambda x: [int(i) for i in x.split(',')]).tolist()
    names_to_compare = df_resume['name'].tolist()

# Вычисление корреляции для поиска сходства
matching_results = []
if selected_ids:
    for i, ids_array in enumerate(ids_to_compare):
        min_len = min(len(selected_ids), len(ids_array))
        if min_len > 1:  # Для вычисления корреляции необходимо как минимум два элемента
            correlation = np.corrcoef(selected_ids[:min_len], ids_array[:min_len])[0, 1]
        else:
            correlation = 0
        if correlation > 0.5:
            matching_results.append({
                'Name': names_to_compare[i],
                'Correlation': correlation
            })

# Вывод результатов
st.write("Результаты поиска на основе корреляции:")
if matching_results:
    for result in matching_results:
        st.markdown(
            f"""
            <div style="border: 1px solid #ddd; padding: 10px; border-radius: 5px; margin-bottom: 10px;">
                <h4 style="margin: 0;">{result['Name']}</h4>
                <p><strong>Корреляция:</strong> {result['Correlation']:.2f}</p>
            </div>
            """,
            unsafe_allow_html=True
        )
else:
    st.write("Нет совпадений на основе корреляции с выбранными навыками.")