Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
@@ -45,8 +45,9 @@ if model == "de_fnhd_nerdh":
|
|
45 |
with st.sidebar.expander("Über das Modell"):
|
46 |
st.write("""
|
47 |
Das Modell basiert auf frühneuhochdeutschen Texten der digitalen Edition **Philipp Hainhofer: *Reiseberichte & Sammlungsbeschreibungen 1594-1636*** (https://hainhofer.hab.de/).
|
48 |
-
\n Trainiert wurde das Modell mit der Pipeline der Python Bibliothek [Spacy](https://spacy.io/)
|
49 |
-
|
|
|
50 |
\n Mehr Informationen zum Prozess des Trainings etc. gibt es [hier](https://easyh.github.io/NerDH/tut/).
|
51 |
""")
|
52 |
with st.sidebar.expander("Named Entities Labels"):
|
@@ -55,8 +56,7 @@ if model == "de_fnhd_nerdh":
|
|
55 |
\n**ORT:** Geographische Einheit, d. h. Länder, Städte, Staaten oder Flüsse.
|
56 |
\n**ORGANISATION:** Institutionen,(Ordens-)Gemeinschaften, Verbindungen, etc.
|
57 |
\n**OBJEKT:** Architektur, Gebäude, Kunst, etc.
|
58 |
-
\n**ZEIT:** Datum, Monat, Jahr, Uhrzeit
|
59 |
-
\n**LITERATUR:** Bücher mit eindeutigem Namen (z.B. Das Alte Testament)
|
60 |
""")
|
61 |
elif model == "de_core_news_sm":
|
62 |
with st.sidebar.expander("Über das Modell"):
|
@@ -64,7 +64,7 @@ elif model == "de_core_news_sm":
|
|
64 |
Das kleinste deutsche Spacy Modell mit nur 13MB. Grund dafür sind die fehlenden Worteinbettungen (Word-Vectors). Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
65 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.82).
|
66 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
67 |
-
\n Mehr Informationen zum
|
68 |
""")
|
69 |
with st.sidebar.expander("Named Entities Labels"):
|
70 |
st.write("""
|
@@ -79,7 +79,7 @@ elif model == "de_core_news_md":
|
|
79 |
Das mittlere deutsche Spacy Modell mit 42MB und 20.000 Worteinbettungen. Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
80 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.84).
|
81 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
82 |
-
\n Mehr Informationen zum
|
83 |
""")
|
84 |
with st.sidebar.expander("Named Entities Labels"):
|
85 |
st.write("""
|
@@ -94,7 +94,7 @@ else:
|
|
94 |
Das Größte von den drei deutschen Spacy Modellen mit 541MB und 500.000 Worteinbettungen. Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
95 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.85).
|
96 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
97 |
-
\n Mehr Informationen zum
|
98 |
""")
|
99 |
with st.sidebar.expander("Named Entities Labels"):
|
100 |
st.write("""
|
@@ -104,6 +104,7 @@ else:
|
|
104 |
\n**MISC:** Gemischte Kategorie (Ereignisse, Nationalitäten, Kunstgegenstände)
|
105 |
""")
|
106 |
|
|
|
107 |
#------------------------------------------------------------------------------
|
108 |
#------------------------------------------------------------------------------
|
109 |
|
@@ -132,6 +133,7 @@ with st.spinner("Text wird eingelesen..."):
|
|
132 |
text = st.text_area(" ", DEFAULT_TEXT, height=200)
|
133 |
st.success("Text ist eingelesen!")
|
134 |
|
|
|
135 |
#------------------------------------------------------------------------------
|
136 |
#------------------------------------------------------------------------------
|
137 |
|
@@ -159,6 +161,24 @@ for ent in doc.ents:
|
|
159 |
df_results = pd.DataFrame(results, columns = ['text', 'label'])
|
160 |
csv = convert_df(df_results)
|
161 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
162 |
#------------------------------------------------------------------------------
|
163 |
#------------------------------------------------------------------------------
|
164 |
|
|
|
45 |
with st.sidebar.expander("Über das Modell"):
|
46 |
st.write("""
|
47 |
Das Modell basiert auf frühneuhochdeutschen Texten der digitalen Edition **Philipp Hainhofer: *Reiseberichte & Sammlungsbeschreibungen 1594-1636*** (https://hainhofer.hab.de/).
|
48 |
+
\n Trainiert wurde das Modell mit der Pipeline der Python Bibliothek [Spacy](https://spacy.io/) und dem Text [**München 1611**](https://hainhofer.hab.de/reiseberichte/muenchen1611?v={%22view%22:%22info%22}).
|
49 |
+
\n Das Modell kann [hier](https://huggingface.co/easyh/de_fnhd_nerdh/resolve/main/de_fnhd_nerdh-any-py3-none-any.whl) (586MB) heruntergeladen und als Python-Package installiert werden.
|
50 |
+
\n F-Score: **0.92**. Dieser wurde getestet mit Texten aus der Edition.
|
51 |
\n Mehr Informationen zum Prozess des Trainings etc. gibt es [hier](https://easyh.github.io/NerDH/tut/).
|
52 |
""")
|
53 |
with st.sidebar.expander("Named Entities Labels"):
|
|
|
56 |
\n**ORT:** Geographische Einheit, d. h. Länder, Städte, Staaten oder Flüsse.
|
57 |
\n**ORGANISATION:** Institutionen,(Ordens-)Gemeinschaften, Verbindungen, etc.
|
58 |
\n**OBJEKT:** Architektur, Gebäude, Kunst, etc.
|
59 |
+
\n**ZEIT:** Datum, Monat, Jahr, Uhrzeit etc.
|
|
|
60 |
""")
|
61 |
elif model == "de_core_news_sm":
|
62 |
with st.sidebar.expander("Über das Modell"):
|
|
|
64 |
Das kleinste deutsche Spacy Modell mit nur 13MB. Grund dafür sind die fehlenden Worteinbettungen (Word-Vectors). Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
65 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.82).
|
66 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
67 |
+
\n Mehr Informationen zum Modell gibts hier [hier](https://spacy.io/models/de#de_core_news_sm).
|
68 |
""")
|
69 |
with st.sidebar.expander("Named Entities Labels"):
|
70 |
st.write("""
|
|
|
79 |
Das mittlere deutsche Spacy Modell mit 42MB und 20.000 Worteinbettungen. Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
80 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.84).
|
81 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
82 |
+
\n Mehr Informationen zum Modell gibts hier [hier](https://spacy.io/models/de#de_core_news_md).
|
83 |
""")
|
84 |
with st.sidebar.expander("Named Entities Labels"):
|
85 |
st.write("""
|
|
|
94 |
Das Größte von den drei deutschen Spacy Modellen mit 541MB und 500.000 Worteinbettungen. Trainiert wurde das Modell mit folgenden Quellen: [Tiger Corpus](), [Tiger2Dep]() und [WikiNER]().
|
95 |
Anwendungsbereich für das Modell sind haupsächtliche moderne Texte und News-Berichte (F-Score: 0.85).
|
96 |
Daher wird dieses Modell mit historischen Texten nicht wirklich gut abschneiden.
|
97 |
+
\n Mehr Informationen zum Modell gibts hier [hier](https://spacy.io/models/de#de_core_news_lg).
|
98 |
""")
|
99 |
with st.sidebar.expander("Named Entities Labels"):
|
100 |
st.write("""
|
|
|
104 |
\n**MISC:** Gemischte Kategorie (Ereignisse, Nationalitäten, Kunstgegenstände)
|
105 |
""")
|
106 |
|
107 |
+
st.markdown('---')
|
108 |
#------------------------------------------------------------------------------
|
109 |
#------------------------------------------------------------------------------
|
110 |
|
|
|
133 |
text = st.text_area(" ", DEFAULT_TEXT, height=200)
|
134 |
st.success("Text ist eingelesen!")
|
135 |
|
136 |
+
st.markdown('---')
|
137 |
#------------------------------------------------------------------------------
|
138 |
#------------------------------------------------------------------------------
|
139 |
|
|
|
161 |
df_results = pd.DataFrame(results, columns = ['text', 'label'])
|
162 |
csv = convert_df(df_results)
|
163 |
|
164 |
+
|
165 |
+
#------------------------------------------------------------------------------
|
166 |
+
#------------------------------------------------------------------------------
|
167 |
+
|
168 |
+
#Modell in Python Umgebung installieren
|
169 |
+
|
170 |
+
if model == "de_fnhd_nerdh":
|
171 |
+
st.markdown('---') #### Modell in Python installieren und laden')
|
172 |
+
st.markdown('#### Modell in Python installieren und laden')
|
173 |
+
st.markdown('''
|
174 |
+
```py
|
175 |
+
!pip install https://huggingface.co/easyh/de_fnhd_nerdh/resolve/main/de_fnhd_nerdh-any-py3-none-any.whl
|
176 |
+
|
177 |
+
import spacy
|
178 |
+
nlp = spacy.load("de_fnhd_nerdh")
|
179 |
+
```
|
180 |
+
''')
|
181 |
+
|
182 |
#------------------------------------------------------------------------------
|
183 |
#------------------------------------------------------------------------------
|
184 |
|