Spaces:

spark-nlp
/

Persian-NER

Sleeping

App Files Files Community

abdullahmubeen10 commited on Jul 30, 2024

Commit

68747de

verified ·

1 Parent(s): 78843a7

Upload 5 files

Browse files

Files changed (5) hide show

.streamlit/config.toml +3 -0
Demo.py +156 -0
Dockerfile +70 -0
pages/Workflow & Model Overview.py +215 -0
requirements.txt +6 -0

.streamlit/config.toml ADDED Viewed

	@@ -0,0 +1,3 @@

+[theme]
+base="light"
+primaryColor="#29B4E8"

Demo.py ADDED Viewed

	@@ -0,0 +1,156 @@

+import streamlit as st
+import sparknlp
+import os
+import pandas as pd
+from sparknlp.base import *
+from sparknlp.annotator import *
+from pyspark.ml import Pipeline
+from sparknlp.pretrained import PretrainedPipeline
+from annotated_text import annotated_text
+# Page configuration
+st.set_page_config(
+    layout="wide",
+    initial_sidebar_state="auto"
+)
+# CSS for styling
+st.markdown("""
+    <style>
+        .main-title {
+            font-size: 36px;
+            color: #4A90E2;
+            font-weight: bold;
+            text-align: center;
+        }
+        .section {
+            background-color: #f9f9f9;
+            padding: 10px;
+            border-radius: 10px;
+            margin-top: 10px;
+        }
+        .section p, .section ul {
+            color: #666666;
+        }
+    </style>
+""", unsafe_allow_html=True)
+@st.cache_resource
+def init_spark():
+    return sparknlp.start()
+@st.cache_resource
+def create_pipeline(model):
+    documentAssembler = DocumentAssembler() \
+        .setInputCol("text") \
+        .setOutputCol("document")
+    sentenceDetector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \
+        .setInputCols(["document"]) \
+        .setOutputCol("sentence")
+    tokenizer = Tokenizer() \
+        .setInputCols(["sentence"]) \
+        .setOutputCol("token")
+    word_embeddings = WordEmbeddingsModel.pretrained("persian_w2v_cc_300d", "fa") \
+        .setInputCols(["document", "token"]) \
+        .setOutputCol("embeddings")
+    ner = NerDLModel.pretrained("personer_cc_300d", "fa") \
+        .setInputCols(["sentence", "token", "embeddings"]) \
+        .setOutputCol("ner")
+    ner_converter = NerConverter().setInputCols(["sentence", "token", "ner"]).setOutputCol("ner_chunk")
+    pipeline = Pipeline(stages=[documentAssembler, sentenceDetector, tokenizer, word_embeddings, ner, ner_converter])
+    return pipeline
+def fit_data(pipeline, data):
+  empty_df = spark.createDataFrame([['']]).toDF('text')
+  pipeline_model = pipeline.fit(empty_df)
+  model = LightPipeline(pipeline_model)
+  result = model.fullAnnotate(data)
+  return result
+def annotate(data):
+    document, chunks, labels = data["Document"], data["NER Chunk"], data["NER Label"]
+    annotated_words = []
+    for chunk, label in zip(chunks, labels):
+        parts = document.split(chunk, 1)
+        if parts[0]:
+            annotated_words.append(parts[0])
+        annotated_words.append((chunk, label))
+        document = parts[1]
+    if document:
+        annotated_words.append(document)
+    annotated_text(*annotated_words)
+# Set up the page layout
+st.markdown('<div class="main-title">Recognize entities in Persian text</div>', unsafe_allow_html=True)
+st.markdown('<div class="section"><p>The <code>personer_cc_300d</code> model uses Persian word embeddings to find 6 different types of entities in Persian text. It is trained using <code>persian_w2v_cc_300d</code> word embeddings</p></div>', unsafe_allow_html=True)
+# Sidebar content
+model = st.sidebar.selectbox(
+    "Choose the pretrained model",
+    ["personer_cc_300d"],
+    help="For more info about the models visit: https://sparknlp.org/models"
+)
+# Reference notebook link in sidebar
+link = """
+<a href="https://colab.research.google.com/github/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/streamlit_notebooks/public/NER.ipynb">
+    <img src="https://colab.research.google.com/assets/colab-badge.svg" style="zoom: 1.3" alt="Open In Colab"/>
+</a>
+"""
+st.sidebar.markdown('Reference notebook:')
+st.sidebar.markdown(link, unsafe_allow_html=True)
+# Load examples
+examples =  [
+    "ویلیام هنری گیتس سوم (متولد 28 اکتبر 1955) یک تاجر آمریکایی، توسعه دهنده نرم افزار، سرمایه گذار و نیکوکار است. او بیشتر به عنوان یکی از بنیانگذاران شرکت مایکروسافت شناخته می‌شود. در طول دوران حرفه‌ای خود در مایکروسافت، گیتس در سمت‌های رئیس هیئت مدیره، مدیرعامل (CEO)، رئیس و معمار ارشد نرم‌افزار فعالیت داشته و تا ماه مه 2014 بزرگترین سهامدار فردی بوده است. او یکی از کارآفرینان و پیشگامان مشهور انقلاب میکروکامپیوترهای دهه 1970 و 1980 است. گیتس که در سیاتل، واشنگتن به دنیا آمده و بزرگ شده است، در سال 1975 به همراه دوست دوران کودکی خود، پل آلن، مایکروسافت را در آلبوکرکی، نیومکزیکو تأسیس کرد. این شرکت به بزرگترین شرکت نرم‌افزاری کامپیوتر شخصی جهان تبدیل شد. گیتس تا ژانویه 2000 به عنوان رئیس هیئت مدیره و مدیرعامل شرکت را رهبری کرد، اما به عنوان رئیس هیئت مدیره باقی ماند و معمار ارشد نرم‌افزار شد. در اواخر دهه 1990، گیتس به دلیل تاکتیک‌های تجاری خود که ضد رقابتی تلقی می‌شدند، مورد انتقاد قرار گرفت. این نظر توسط دادگاه‌های متعدد تأیید شده است. در ژوئن 2006، گیتس اعلام کرد که به یک نقش نیمه وقت در مایکروسافت و کار تمام وقت در بنیاد خیریه خصوصی بیل و ملیندا گیتس که او و همسرش ملیندا گیتس در سال 2000 تأسیس کرده بودند، منتقل خواهد شد. او به تدریج وظایف خود را به ری اوزی و کریگ موندی منتقل کرد. او در فوریه 2014 از سمت رئیس هیئت مدیره مایکروسافت استعفا داد و به عنوان مشاور فناوری برای حمایت از مدیرعامل تازه منصوب شده ساتیا نادلا پست جدیدی را بر عهده گرفت.",
+    "مونالیزا یک نقاشی روغنی قرن شانزدهم است که توسط لئوناردو داوینچی خلق شده است. این اثر در موزه لوور در پاریس نگهداری می‌شود.",
+    "وقتی سباستین تورون در سال 2007 شروع به کار بر روی خودروهای خودران در گوگل کرد، افراد کمی خارج از شرکت او را جدی گرفتند. تورون، که اکنون یکی از بنیانگذاران و مدیرعامل استارتاپ آموزش عالی آنلاین Udacity است، در مصاحبه‌ای با Recode در اوایل این هفته گفت: «می‌توانم بگویم مدیران ارشد بسیار بالای شرکت‌های بزرگ خودروسازی آمریکایی دست من را می‌فشردند و برمی‌گشتند زیرا صحبت با من ارزش نداشت.»",
+    "فیسبوک یک سرویس شبکه اجتماعی است که در 4 فوریه 2004 با نام TheFacebook راه اندازی شد. این سرویس توسط مارک زاکربرگ و هم اتاقی‌های کالج و هم دانشگاهیانش در دانشگاه هاروارد، ادواردو ساورین، اندرو مک کولوم، داستین موسکویتز و کریس هیوز تأسیس شد. عضویت وب سایت در ابتدا توسط بنیانگذاران محدود به دانشجویان هاروارد بود، اما به دیگر کالج‌ها در منطقه بوستون، آیوی لیگ و به تدریج بیشتر دانشگاه‌های ایالات متحده و کانادا گسترش یافت.",
+    "تاریخچه پردازش زبان طبیعی به طور کلی از دهه 1950 آغاز شد، اگرچه آثاری از دوره‌های قبل نیز وجود دارد. در سال 1950، آلن تورینگ مقاله‌ای با عنوان «ماشین محاسبات و هوش» منتشر کرد که آزمونی را پیشنهاد کرد که اکنون به عنوان آزمون تورینگ به عنوان معیار هوش شناخته می‌شود.",
+    "جفری اورست هینتون یک روانشناس شناختی و دانشمند رایانه کانادایی انگلیسی است که بیشتر به خاطر کارش بر روی شبکه‌های عصبی مصنوعی شناخته می‌شود. از سال 2013 او زمان خود را بین کار برای گوگل و دانشگاه تورنتو تقسیم کرده است. در سال 2017، او هم بنیانگذار و مشاور ارشد علمی موسسه وکتور در تورنتو شد.",
+    "وقتی به جان گفتم که می‌خواهم به آلاسکا نقل مکان کنم، او به من هشدار داد که در آنجا برای پیدا کردن یک استارباکس دچار مشکل خواهم شد.",
+    "استیون پاول جابز یک تاجر آمریکایی، طراح صنعتی، سرمایه‌گذار و مالک رسانه بود. او رئیس هیئت مدیره، مدیرعامل (CEO) و یکی از بنیانگذاران شرکت اپل، رئیس هیئت مدیره و سهامدار عمده پیکسار، عضو هیئت مدیره شرکت والت دیزنی پس از خرید پیکسار و بنیانگذار، رئیس هیئت مدیره و مدیرعامل نکست بود. جابز به همراه بنیانگذار اپل، استیو وزنیاک، به عنوان یکی از پیشگامان انقلاب کامپیوترهای شخصی دهه 1970 و 1980 شناخته می‌شود. جابز در سانفرانسیسکو، کالیفرنیا به دنیا آمد و به فرزندخواندگی پذیرفته شد. او در منطقه خلیج سانفرانسیسکو بزرگ شد. در سال 1972 به کالج رید رفت، اما همان سال ترک تحصیل کرد و در سال 1974 به هند ��فر کرد تا به دنبال روشن‌بینی بگردد و به مطالعه ذن بودیسم بپردازد.",
+    "تایتانیک یک فیلم حماسی عاشقانه و فاجعه‌آمیز آمریکایی محصول سال 1997 است که توسط جیمز کامرون کارگردانی، نویسندگی، تهیه‌کنندگی و تدوین شده است. این فیلم که جنبه‌های تاریخی و داستانی را در بر می‌گیرد، بر اساس روایت‌های غرق شدن کشتی RMS تایتانیک ساخته شده و لئوناردو دی کاپریو و کیت وینسلت به عنوان اعضای طبقات اجتماعی مختلف که در طول سفر ناموفق کشتی عاشق می‌شوند، بازی می‌کنند.",
+    "علاوه بر اینکه پادشاه شمال است، جان اسنو یک پزشک انگلیسی و یکی از پیشگامان در توسعه بیهوشی و بهداشت پزشکی است. او به عنوان اولین کسی که از داده‌ها برای درمان شیوع وبا در سال 1834 استفاده کرد، شناخته می‌شود."
+]
+selected_text = st.selectbox("Select an example", examples)
+custom_input = st.text_input("Try it with your own Sentence!")
+text_to_analyze = custom_input if custom_input else selected_text
+st.subheader('Full example text')
+HTML_WRAPPER = """<div class="scroll entities" style="overflow-x: auto; border: 1px solid #e6e9ef; border-radius: 0.25rem; padding: 1rem; margin-bottom: 2.5rem; white-space:pre-wrap">{}</div>"""
+st.markdown(HTML_WRAPPER.format(text_to_analyze), unsafe_allow_html=True)
+# Initialize Spark and create pipeline
+spark = init_spark()
+pipeline = create_pipeline(model)
+output = fit_data(pipeline, text_to_analyze)
+# Display matched sentence
+st.subheader("Processed output:")
+results = {
+    'Document': output[0]['document'][0].result,
+    'NER Chunk': [n.result for n in output[0]['ner_chunk']],
+    "NER Label": [n.metadata['entity'] for n in output[0]['ner_chunk']]
+}
+annotate(results)
+with st.expander("View DataFrame"):
+    df = pd.DataFrame({'NER Chunk': results['NER Chunk'], 'NER Label': results['NER Label']})
+    df.index += 1
+    st.dataframe(df)

Dockerfile ADDED Viewed

	@@ -0,0 +1,70 @@

+# Download base image ubuntu 18.04
+FROM ubuntu:18.04
+# Set environment variables
+ENV NB_USER jovyan
+ENV NB_UID 1000
+ENV HOME /home/${NB_USER}
+# Install required packages
+RUN apt-get update && apt-get install -y \
+    tar \
+    wget \
+    bash \
+    rsync \
+    gcc \
+    libfreetype6-dev \
+    libhdf5-serial-dev \
+    libpng-dev \
+    libzmq3-dev \
+    python3 \
+    python3-dev \
+    python3-pip \
+    unzip \
+    pkg-config \
+    software-properties-common \
+    graphviz \
+    openjdk-8-jdk \
+    ant \
+    ca-certificates-java \
+    && apt-get clean \
+    && update-ca-certificates -f;
+# Install Python 3.8 and pip
+RUN add-apt-repository ppa:deadsnakes/ppa \
+    && apt-get update \
+    && apt-get install -y python3.8 python3-pip \
+    && apt-get clean;
+# Set up JAVA_HOME
+ENV JAVA_HOME /usr/lib/jvm/java-8-openjdk-amd64/
+RUN mkdir -p ${HOME} \
+    && echo "export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/" >> ${HOME}/.bashrc \
+    && chown -R ${NB_UID}:${NB_UID} ${HOME}
+# Create a new user named "jovyan" with user ID 1000
+RUN useradd -m -u ${NB_UID} ${NB_USER}
+# Switch to the "jovyan" user
+USER ${NB_USER}
+# Set home and path variables for the user
+ENV HOME=/home/${NB_USER} \
+    PATH=/home/${NB_USER}/.local/bin:$PATH
+# Set the working directory to the user's home directory
+WORKDIR ${HOME}
+# Upgrade pip and install Python dependencies
+RUN python3.8 -m pip install --upgrade pip
+COPY requirements.txt /tmp/requirements.txt
+RUN python3.8 -m pip install -r /tmp/requirements.txt
+# Copy the application code into the container at /home/jovyan
+COPY --chown=${NB_USER}:${NB_USER} . ${HOME}
+# Expose port for Streamlit
+EXPOSE 7860
+# Define the entry point for the container
+ENTRYPOINT ["streamlit", "run", "Demo.py", "--server.port=7860", "--server.address=0.0.0.0"]

pages/Workflow & Model Overview.py ADDED Viewed

	@@ -0,0 +1,215 @@

+import streamlit as st
+import pandas as pd
+# Custom CSS for better styling
+st.markdown("""
+    <style>
+        .main-title {
+            font-size: 36px;
+            color: #4A90E2;
+            font-weight: bold;
+            text-align: center;
+        }
+        .sub-title {
+            font-size: 24px;
+            color: #4A90E2;
+            margin-top: 20px;
+        }
+        .section {
+            background-color: #f9f9f9;
+            padding: 15px;
+            border-radius: 10px;
+            margin-top: 20px;
+        }
+        .section h2 {
+            font-size: 22px;
+            color: #4A90E2;
+        }
+        .section p, .section ul {
+            color: #666666;
+        }
+        .link {
+            color: #4A90E2;
+            text-decoration: none;
+        }
+    </style>
+""", unsafe_allow_html=True)
+# Main Title
+st.markdown('<div class="main-title">Persian Named Entity Recognition - Word Embeddings-based Model</div>', unsafe_allow_html=True)
+# Introduction
+st.markdown("""
+<div class="section">
+    <p>Named Entity Recognition (NER) models identify and categorize important entities in a text. This page details a word embeddings-based NER model for Persian texts, using the <code>persian_w2v_cc_300d</code> word embeddings. The model is pretrained and available for use with Spark NLP.</p>
+</div>
+""", unsafe_allow_html=True)
+# Model Description
+st.markdown('<div class="sub-title">Description</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <p>The <code>personer_cc_300d</code> model uses Persian word embeddings to find 6 different types of entities in Persian text. It is trained using <code>persian_w2v_cc_300d</code> word embeddings, so please use the same embeddings in the pipeline. It can identify the following types of entities:</p>
+    <ul>
+        <li>PER (Persons)</li>
+        <li>FAC (Facilities)</li>
+        <li>PRO (Products)</li>
+        <li>LOC (Locations)</li>
+        <li>ORG (Organizations)</li>
+        <li>EVENT (Events)</li>
+    </ul>
+</div>
+""", unsafe_allow_html=True)
+# Setup Instructions
+st.markdown('<div class="sub-title">Setup</div>', unsafe_allow_html=True)
+st.markdown('<p>To use the model, you need Spark NLP installed. You can install it using pip:</p>', unsafe_allow_html=True)
+st.code("""
+pip install spark-nlp
+pip install pyspark
+""", language="bash")
+st.markdown("<p>Then, import Spark NLP and start a Spark session:</p>", unsafe_allow_html=True)
+st.code("""
+import sparknlp
+# Start Spark Session
+spark = sparknlp.start()
+""", language='python')
+# Example Usage
+st.markdown('<div class="sub-title">Example Usage with Persian NER Model</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <p>Below is an example of how to set up and use the <code>personer_cc_300d</code> model for named entity recognition in Persian:</p>
+</div>
+""", unsafe_allow_html=True)
+st.code('''
+from sparknlp.base import *
+from sparknlp.annotator import *
+from pyspark.ml import Pipeline
+from pyspark.sql.functions import col, expr, round, concat, lit, explode
+# Define the components of the pipeline
+documentAssembler = DocumentAssembler() \\
+    .setInputCol("text") \\
+    .setOutputCol("document")
+sentenceDetector = SentenceDetectorDLModel.pretrained("sentence_detector_dl", "xx") \\
+    .setInputCols(["document"]) \\
+    .setOutputCol("sentence")
+tokenizer = Tokenizer() \\
+    .setInputCols(["sentence"]) \\
+    .setOutputCol("token")
+word_embeddings = WordEmbeddingsModel.pretrained("persian_w2v_cc_300d", "fa") \\
+    .setInputCols(["document", "token"]) \\
+    .setOutputCol("embeddings")
+ner = NerDLModel.pretrained("personer_cc_300d", "fa") \\
+    .setInputCols(["sentence", "token", "embeddings"]) \\
+    .setOutputCol("ner")
+ner_converter = NerConverter().setInputCols(["sentence", "token", "ner"]).setOutputCol("ner_chunk")
+# Create the pipeline
+pipeline = Pipeline(stages=[documentAssembler, sentenceDetector, tokenizer, word_embeddings, ner, ner_converter])
+# Create sample data
+example = """
+به گزارش خبرنگار ایرنا ، بر اساس تصمیم این مجمع ، محمد قمی نماینده مردم پاکدشت به عنوان رئیس و علی‌اکبر موسوی خوئینی و شمس‌الدین وهابی نمایندگان مردم تهران به عنوان نواب رئیس انتخاب شدند
+"""
+data = spark.createDataFrame([[example]]).toDF("text")
+# Fit and transform data with the pipeline
+result = pipeline.fit(data).transform(data)
+# Select the result, entity
+result.select(
+    expr("explode(ner_chunk) as ner_chunk")
+).select(
+    col("ner_chunk.result").alias("chunk"),
+    col("ner_chunk.metadata").getItem("entity").alias("ner_label")
+).show(truncate=False)
+''', language="python")
+import pandas as pd
+# Create the data for the DataFrame
+data = {
+    "chunk": [
+        "خبرنگار ایرنا",
+        "محمد قمی",
+        "پاکدشت",
+        "علی‌اکبر موسوی خوئینی",
+        "شمس‌الدین وهابی",
+        "تهران"
+    ],
+    "ner_label": [
+        "ORG",
+        "PER",
+        "LOC",
+        "PER",
+        "PER",
+        "LOC"
+    ]
+}
+# Creating the DataFrame
+df = pd.DataFrame(data)
+df.index += 1
+st.dataframe(df)
+# Model Information
+st.markdown('<div class="sub-title">Model Information</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <p>The <code>personer_cc_300d</code> model details are as follows:</p>
+    <ul>
+        <li><strong>Model Name:</strong> personer_cc_300d</li>
+        <li><strong>Type:</strong> ner</li>
+        <li><strong>Compatibility:</strong> Spark NLP 2.7.0+</li>
+        <li><strong>License:</strong> Open Source</li>
+        <li><strong>Edition:</strong> Official</li>
+        <li><strong>Input Labels:</strong> [document, token, word_embeddings]</li>
+        <li><strong>Output Labels:</strong> [ner]</li>
+        <li><strong>Language:</strong> fa</li>
+        <li><strong>Dependencies:</strong> persian_w2v_cc_300d</li>
+    </ul>
+</div>
+""", unsafe_allow_html=True)
+# Summary
+st.markdown('<div class="sub-title">Summary</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <p>This page provided an overview of the <code>personer_cc_300d</code> model for Persian NER. We discussed how to set up and use the model with Spark NLP, including example code and results. We also provided details on the model's specifications and links to relevant resources for further exploration.</p>
+</div>
+""", unsafe_allow_html=True)
+# References
+st.markdown('<div class="sub-title">References</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <ul>
+        <li><a class="link" href="https://sparknlp.org/api/python/reference/autosummary/sparknlp/annotator/ner/ner_dl/index.html" target="_blank" rel="noopener">NerDLModel</a> annotator documentation</li>
+        <li>Model Used: <a class="link" href="https://sparknlp.org/2020/12/07/personer_cc_300d_fa.html" rel="noopener">personer_cc_300d_fa</a></li>
+        <li><a class="link" href="https://www.aclweb.org/anthology/C16-1319/" target="_blank" rel="noopener">Data Source</a></li>
+        <li><a class="link" href="https://nlp.johnsnowlabs.com/recognize_entitie" target="_blank" rel="noopener">Visualization demos for NER in Spark NLP</a></li>
+        <li><a class="link" href="https://www.johnsnowlabs.com/named-entity-recognition-ner-with-bert-in-spark-nlp/">Named Entity Recognition (NER) with BERT in Spark NLP</a></li>
+    </ul>
+</div>
+""", unsafe_allow_html=True)
+# Community & Support
+st.markdown('<div class="sub-title">Community & Support</div>', unsafe_allow_html=True)
+st.markdown("""
+<div class="section">
+    <ul>
+        <li><a class="link" href="https://sparknlp.org/" target="_blank">Official Website</a>: Documentation and examples</li>
+        <li><a class="link" href="https://github.com/JohnSnowLabs/spark-nlp" target="_blank">GitHub Repository</a>: Report issues or contribute</li>
+        <li><a class="link" href="https://forum.johnsnowlabs.com/" target="_blank">Community Forum</a>: Ask questions, share ideas, and get support</li>
+    </ul>
+</div>
+""", unsafe_allow_html=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+streamlit
+st-annotated-text
+pandas
+numpy
+spark-nlp
+pyspark