word2vec

Running

App Files Files Community

word2vec / app.py

Ridealist

Update app.py

0131a54 verified 5 months ago

raw

history blame

7.55 kB

	import numpy as np
	import pandas as pd
	import random
	from gensim.models import Word2Vec
	import gradio as gr
	from sklearn.decomposition import PCA
	import plotly.graph_objects as go
	import nltk
	from nltk.tokenize import word_tokenize
	from nltk.corpus import stopwords
	from nltk.stem import PorterStemmer, WordNetLemmatizer
	from nltk.tag import pos_tag

	from docs import NOVEL_TEXT

	def download_nltk_library():
	try:
	nltk.download('punkt')
	nltk.download('stopwords')
	nltk.download('wordnet')
	nltk.download('averaged_perceptron_tagger')
	nltk.download('punkt_tab')
	return True
	except:
	return False

	# Function to process each sentence
	def process_text(text):

	lemmatizer = WordNetLemmatizer()
	stop_words = set(stopwords.words('english'))

	# Tokenization
	tokens = word_tokenize(text.lower())

	# Remove stop words and apply lemmatization
	processed_tokens = [
	lemmatizer.lemmatize(token)
	for token in tokens if token.isalnum() and token not in stop_words
	]

	return processed_tokens

	# Word2Vec 모델 학습 함수
	def train_word2vec(sentences):
	model = Word2Vec(sentences, vector_size=100, window=3, min_count=2, workers=4, sg=0, epochs=100)
	return model

	# def preprocess_text(file_path):
	# with open(file_path, 'r', encoding='utf-8') as file:
	# text = file.read()

	# # 토큰화 및 품사 태깅
	# tokens = word_tokenize(text)
	# tagged = pos_tag(tokens)

	# # 명사만 추출 (NN, NNS, NNP, NNPS)
	# nouns = [word.lower() for word, pos in tagged if pos.startswith('NN')]

	# # 중복 제거 및 정렬
	# unique_nouns = sorted(set(nouns))

	# # 간단한 문장 생성 (각 명사를 개별 문장으로 취급)
	# sentences = [[noun] for noun in unique_nouns]

	# return sentences, unique_nouns

	def apply_pca(word_vectors):
	pca = PCA(n_components=3)
	return pca.fit_transform(word_vectors)

	# def process_text(file_path, target_word):

	def get_unique(model):
	vocablist1=list(model.wv.index_to_key)
	vocablist =[]
	for i in vocablist1:
	vocablist.append(i)
	return vocablist

	def train_model(sentence):
	# 전처리
	sentences=sentence

	# Word2Vec 모델 학습
	model = train_word2vec(sentences)
	unique_words = get_unique(model)

	return model, unique_words

	def process_model(target_word):

	# Word2Vec 모델 로드
	model = Word2Vec.load("word2vec.model")
	unique_words = get_unique(model)

	# 각 단어의 임베딩 벡터 추출
	word_vectors = np.array([model.wv[word] for word in unique_words])

	# PCA로 차원 축소
	word_vectors_3d = apply_pca(word_vectors)

	# 색상 설정 (투명도 추가)
	colors = ['rgba(255, 255, 255, 0.15)' if word != target_word else 'rgba(255, 20, 147, 0.9)' for word in unique_words]

	# 가장 가까운 단어 10개 찾기
	if target_word in model.wv:
	similar_words = model.wv.most_similar(target_word, topn=10)
	similar_word_indices = [unique_words.index(word) for word, _ in similar_words]
	for idx in similar_word_indices:
	colors[idx] = 'rgba(255, 165, 0, 1)' # 가까운 단어들을 주황색으로 표시

	# 가장 먼 단어 10개 찾기
	if target_word in model.wv:
	all_words = model.wv.index_to_key # 모델에 포함된 모든 단어 리스트
	dissimilar_words = sorted(
	[(word, model.wv.similarity(target_word, word)) for word in all_words if word != target_word],
	key=lambda x: x[1]
	)[:10] # 유사도가 가장 낮은 10개 단어 선택

	dissimilar_word_indices = [unique_words.index(word) for word, _ in dissimilar_words]
	for idx in dissimilar_word_indices:
	colors[idx] = 'rgba(138, 43, 226, 0.8)' # 가장 먼 단어들을 보라색으로 표시

	# Plotly를 사용한 3D 산점도 생성
	fig = go.Figure(data=[go.Scatter3d(
	x=word_vectors_3d[:, 0],
	y=word_vectors_3d[:, 1],
	z=word_vectors_3d[:, 2],
	mode='markers+text',
	text=unique_words,
	textposition="top center",
	marker=dict(
	size=4,
	color=colors,
	)
	)])

	fig.update_layout(
	title="Word Embeddings 3D Visualization",
	scene=dict(
	xaxis_title="X",
	yaxis_title="Y",
	zaxis_title="Z"
	),
	width=800,
	height=800
	)

	# 가장 가까운 단어 10개 목록 생성
	similar_words_text = ""
	if target_word in model.wv:
	similar_words_text = "가장 가까운 단어 10개:\n" + "\n".join([f"{word}: {score:.4f}" for word, score in similar_words])

	dissimilar_words_text = ""
	if target_word in model.wv:
	dissimilar_words_text = "가장 먼 단어 10개:\n" + "\n".join([f"{word}: {score:.4f}" for word, score in dissimilar_words])

	return fig, similar_words_text, dissimilar_words_text

	def change_button_state_true():
	# If the first button is clicked, enable or disable the second button based on its state
	return gr.update(interactive=True)

	def change_button_state_false():
	# If the first button is clicked, enable or disable the second button based on its state
	return gr.update(interactive=False)


	# Gradio 인터페이스 수정
	with gr.Blocks(css=".plot-box {width: 70%; height: 500px;}") as iface:
	gr.Markdown("# Word Embedding 3D 시각화")
	gr.Markdown("단어를 입력하세요. Word2Vec과 PCA를 사용하여 단어 임베딩을 3D로 시각화합니다. 입력한 단어는 빨간색으로, 가장 유사한 10개 단어는 초록색, 가장 먼 단어는 보라색으로 강조됩니다. 유사한 단어 목록은 그래프 아래에 표시됩니다.")

	download_nltk_library()

	with gr.Row():
	word_input = gr.Textbox(label="강조할 단어 입력", elem_id="input-box", placeholder="단어를 입력하세요", lines=1, interactive=False)
	with gr.Column(scale=1):
	# 사용자 입력 박스를 강조하기 위해 스타일을 변경
	# word_input = gr.Textbox(label="강조할 단어 입력", elem_id="input-box", placeholder="단어를 입력하세요", lines=1)
	load_btn = gr.Button("모델 로링", elem_id="submit-btn")
	submit_btn = gr.Button("단어 입력", elem_id="submit-btn", interactive=False)

	with gr.Row():
	# 시각화 화면의 크기를 CSS로 증가
	plot_output = gr.Plot(label="Word Embedding 3D 시각화", elem_id="plot-box")

	with gr.Column(scale=0.3): # 컬럼의 너비를 줄이기 위해 scale 값을 낮춤
	similar_words_output = gr.Textbox(label="유사한 단어", interactive=False, lines=5)
	dissimilar_words_output = gr.Textbox(label="유사하지 않은 단어", interactive=False, lines=5)

	load_btn.click(
	fn=process_model,
	inputs=[word_input],
	outputs=[plot_output, similar_words_output, dissimilar_words_output]
	)
	load_btn.click(
	fn=change_button_state_true,
	outputs=submit_btn
	)
	load_btn.click(
	fn=change_button_state_true,
	outputs=word_input
	)
	submit_btn.click(
	fn=process_model,
	inputs=[word_input],
	outputs=[plot_output, similar_words_output, dissimilar_words_output]
	)
	submit_btn.click(
	fn=change_button_state_false,
	outputs=load_btn
	)


	if __name__ == "__main__":
	iface.launch()