Spaces:

spark-nlp
/

Hebrew-NER

Sleeping

App Files Files Community

Hebrew-NER / Demo.py

abdullahmubeen10

Upload 10 files

6362d22 verified 11 months ago

raw

history blame contribute delete

8.22 kB

	import streamlit as st
	import sparknlp
	import os
	import pandas as pd

	from sparknlp.base import *
	from sparknlp.annotator import *
	from pyspark.ml import Pipeline
	from sparknlp.pretrained import PretrainedPipeline
	from annotated_text import annotated_text

	# Page configuration
	st.set_page_config(
	layout="wide",
	initial_sidebar_state="auto"
	)

	# CSS for styling
	st.markdown("""
	<style>
	.main-title {
	font-size: 36px;
	color: #4A90E2;
	font-weight: bold;
	text-align: center;
	}
	.section {
	background-color: #f9f9f9;
	padding: 10px;
	border-radius: 10px;
	margin-top: 10px;
	}
	.section p, .section ul {
	color: #666666;
	}
	</style>
	""", unsafe_allow_html=True)

	@st.cache_resource
	def init_spark():
	return sparknlp.start()

	@st.cache_resource
	def create_pipeline(model):
	documentAssembler = DocumentAssembler() \
	.setInputCol("text") \
	.setOutputCol("document")

	sentence_detector = SentenceDetector() \
	.setInputCols(["document"]) \
	.setOutputCol("sentence")

	tokenizer = Tokenizer() \
	.setInputCols(["sentence"]) \
	.setOutputCol("token")

	word_embeddings = WordEmbeddingsModel.pretrained("hebrew_cc_300d", "he") \
	.setInputCols(["sentence", "token"]) \
	.setOutputCol("embeddings")

	ner = NerDLModel.pretrained("hebrewner_cc_300d", "he") \
	.setInputCols(["sentence", "token", "embeddings"]) \
	.setOutputCol("ner")

	ner_converter = NerConverter().setInputCols(["sentence", "token", "ner"]).setOutputCol("ner_chunk")

	pipeline = Pipeline(stages=[documentAssembler, sentence_detector, tokenizer, word_embeddings, ner, ner_converter])
	return pipeline

	def fit_data(pipeline, data):
	empty_df = spark.createDataFrame([['']]).toDF('text')
	pipeline_model = pipeline.fit(empty_df)
	model = LightPipeline(pipeline_model)
	result = model.fullAnnotate(data)
	return result

	def annotate(data):
	document, chunks, labels = data["Document"], data["NER Chunk"], data["NER Label"]
	annotated_words = []
	for chunk, label in zip(chunks, labels):
	parts = document.split(chunk, 1)
	if parts[0]:
	annotated_words.append(parts[0])
	annotated_words.append((chunk, label))
	document = parts[1]
	if document:
	annotated_words.append(document)
	annotated_text(*annotated_words)

	# Set up the page layout
	st.markdown('<div class="main-title">Recognize entities in Persian text</div>', unsafe_allow_html=True)
	st.markdown("""
	<div class="section">
	<p>Named Entity Recognition (NER) models identify and categorize important entities in a text. This page details a word embeddings-based NER model for Hebrew texts, using the <code>hebrew_cc_300d</code> word embeddings. The model is pretrained and available for use with Spark NLP.</p>
	</div>
	""", unsafe_allow_html=True)

	# Sidebar content
	model = st.sidebar.selectbox(
	"Choose the pretrained model",
	["hebrewner_cc_300d"],
	help="For more info about the models visit: https://sparknlp.org/models"
	)

	# Reference notebook link in sidebar
	link = """
	<a href="https://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/streamlit_notebooks/public/NER_HE.ipynb">
	<img src="https://colab.research.google.com/assets/colab-badge.svg" style="zoom: 1.3" alt="Open In Colab"/>
	</a>
	"""
	st.sidebar.markdown('Reference notebook:')
	st.sidebar.markdown(link, unsafe_allow_html=True)

	# Load examples
	examples = [
	"""והתוצאה : ספרו הפך לרב מכר ענק ובסיס לוויכוחים תיאולוגיים ודיונים נזעמים , כמו גם התקפות והאשמות כלפי בראון מחוגי הכנסייה כפי שמעולם לא התעוררו כתוצאה מספריהם של וואלאס או לאדלום , ואף גרם לסופר מצליח בזכות עצמו , דן בורסטין , לערוך את הספר " הסודות שמאחורי צופן דה וינצ'י " , שבו הוא בודק אחת לאחת את העובדות וההנחות שעליהן מסתמך בראון על ידי שפע של מאמרים , חלקם מקוריים וחלקם לקוחים מספרים , כתבי עת וראיונות עם חוקרים שונים .""",
	"""בגלל קוצר היריעה לא נתעסק כאן בכל הנושאים המגוונים שבהם דן הספר , כמו למשל דמותה של מרים המגדלית , הדעות האזוטריות של ליאונרדו דה וינצי וכן הלאה , אלא נתמקד בנושא אחד - באגודת הסתר " מסדר ציון " - מסדר חשאי הקיים כביכול מזה אלף שנה , ותפקידו להגן על צאצאי השושלת המ ֶרוב ּינגית הקדומה של צרפת , שהם למעשה צאצאי ישוע ומרים המגדלית , ולפיכך הם , לדעת חברי המסדר , השושלת המלכותית הלגיטימית של צרפת , מה שאומר כמובן שמלכי צרפת הם ממוצא יהודי .""",
	"""ב 32 באוקטובר התפעלה ממנו בעלת טור בעיתון " בוסטון גלוב " במלים היאות למעריצה בת 21 : " הוא עשה בחודשים אחדים למען צחות הדיבור מה שלקח לחברה שנים כדי לעשות למען טלוויזיה צבעונית ... אם דיבור היה ספורט אולימפי , הוא היה זוכה במדליית הזהב ... סילבר כה טוב , עד שהוא גורם לאנגלית להישמע כמו צרפתית ... אם ייבחר , תהיה לכולנו ההזדמנות ללמוד ממנו להיות סטודנטים בכיתתו הענקית , הנקראת מסצוסטס " .""",
	"""לא מינה ולא מקצתה ! הרי שם סיפרתי על ההגעה בקרונות החנק , על המתים שטואטאו מהקרונות , על " קומנדו קנדה " , על אנשי הס"ס וכלביהם האמתניים , על אלומות האור מנקרות העיניים ששלחו הזרקורים , על בכי ילדים שנקרעו מזרועות אמותיהם , ולעתים נשארו האמהות הצעירות בחיים , ואתה מותיר רק מלים בודדות על ה"סלקציה " .""",
	"""שוויד חושף את תמחורי המוצרים היציבים של החברה: " המחירים נותרו זהים : 70 דולר לאבטחת עסק קטן , 300 דולר לאבטחת רשת בעסק קטן , בין 1,500 ל - 3,500 דולר לאבטחת חברות גדולות עם אתר ראשי ועד 500 מחשבים , באמצעות מוצרי הצ'ק פוינט אקספרס , ובין 15,000 ל - 20,000 דולר לעסק עם 3 עד 4 אתרים , חברות גדולות עם מחזורי מכירות משמעותיים ."""
	]

	selected_text = st.selectbox("Select an example", examples)
	custom_input = st.text_input("Try it with your own Sentence!")

	text_to_analyze = custom_input if custom_input else selected_text

	st.subheader('Full example text')
	HTML_WRAPPER = """<div class="scroll entities" style="overflow-x: auto; border: 1px solid #e6e9ef; border-radius: 0.25rem; padding: 1rem; margin-bottom: 2.5rem; white-space:pre-wrap">{}</div>"""
	st.markdown(HTML_WRAPPER.format(text_to_analyze), unsafe_allow_html=True)

	# Initialize Spark and create pipeline
	spark = init_spark()
	pipeline = create_pipeline(model)
	output = fit_data(pipeline, text_to_analyze)

	# Display matched sentence
	st.subheader("Processed output:")

	results = {
	'Document': output[0]['document'][0].result,
	'NER Chunk': [n.result for n in output[0]['ner_chunk']],
	"NER Label": [n.metadata['entity'] for n in output[0]['ner_chunk']]
	}

	annotate(results)

	with st.expander("View DataFrame"):
	df = pd.DataFrame({'NER Chunk': results['NER Chunk'], 'NER Label': results['NER Label']})
	df.index += 1
	st.dataframe(df)