Spaces:
Sleeping
Sleeping
Joel
commited on
Commit
·
d5c3a23
1
Parent(s):
a56dba2
added named entity recognition
Browse files
app.py
CHANGED
@@ -5,6 +5,7 @@ gpt2_text = '<a href="https://huggingface.co/dbmdz/german-gpt2/tree/main">GPT-2<
|
|
5 |
summarization_text = '<a href="https://huggingface.co/Einmalumdiewelt/T5-Base_GNAD">T5-Base</a> </br> Hier wurde ein sogenanntes T5-Sprachmodell auf den Task der Text-Zusammenfassung spezialisiert. Das Modell versteht nur Deutsch und hat 220 Millionen Parameter.'
|
6 |
simplifaction_text = '<a href="https://huggingface.co/haining/scientific_abstract_simplification">Scientific Abstract Simplification</a> </br> Bei dieser Aufgabe geht es darum, komplexe Sachverhalte einfach zu erklären. Dieses Beispielmodell kann die Abstracts von wissenschaftlichen Publikationen so vereinfachen, dass sie auch für Laien verständlich werden. Ähnliche Methoden könnten verwendet werden, um beispielsweise Schweizer Rechtstexte zu vereinfachen. Dieses Modell funktioniert nur auf Englisch.'
|
7 |
legal_text = '<a href="https://huggingface.co/joelito/legal-german-roberta-large">Roberta German</a> </br><a href="https://huggingface.co/xlm-roberta-large">Roberta</a> </br> Hier zeigen wir ein Modell, welches an unserem Institut darauf vortrainiert wurde, die rechtliche Sprache besser zu verstehen. Dabei wird in einem Text immer ein Wort (mit dem Stichwort <mask>) maskiert, und das Modell muss das fehlende Wort voraussagen. Dadurch, dass das Modell auf die rechtliche Sprache spezifiziert wurde, sind die Voraussagen deutlich besser, wie das nachfolgende Beispiel zeigt (BGE 142 II 268 S. 271, Erwägung 4.1): Unser spezialisiertes Modell gibt richtigerweise das Wort “Verhältnismässigkeit” aus, während ein generisches XLM-RoBERTa-Modell deutlich allgemeinere Wörter wie Freiheit, Demokratie oder Öffentlichkeit voraussagt. Beide Modelle haben 354 Millionen Parameter.'
|
|
|
8 |
|
9 |
qaExamples = [["Mein Name ist Wolfgang und ich lebe in Berlin", "Wo wohne ich?"], [
|
10 |
"Der Amazonas-Regenwald, auf Englisch auch als Amazonien oder Amazonas-Dschungel bekannt, ist ein feuchter Laubwald, der den größten Teil des Amazonas-Beckens Südamerikas bedeckt. Dieses Becken umfasst 7.000.000 Quadratkilometer (2.700.000 Quadratmeilen), von denen 5.500.000 Quadratkilometer (2.100.000 Quadratmeilen) vom Regenwald bedeckt sind. Diese Region umfasst Gebiete von neun Nationen. Der größte Teil des Waldes befindet sich in Brasilien mit 60% des Regenwaldes, gefolgt von Peru mit 13%, Kolumbien mit 10% und geringen Mengen in Venezuela, Ecuador, Bolivien, Guyana, Suriname und Französisch-Guayana. Staaten oder Abteilungen in vier Nationen enthalten \"Amazonas\" in ihren Namen. Der Amazonas repräsentiert mehr als die Hälfte der verbleibenden Regenwälder des Planeten und umfasst den größten und artenreichsten tropischen Regenwald der Welt mit geschätzten 390 Milliarden Einzelbäumen, die in 16.000 Arten unterteilt sind.", "Welcher Name wird auch verwendet, um den Amazonas-Regenwald auf Englisch zu beschreiben?"]]
|
@@ -33,9 +34,11 @@ robertaGer = gr.Interface.load(
|
|
33 |
roberta = gr.Interface.load(
|
34 |
"huggingface/xlm-roberta-large", title=None, description=legal_text)
|
35 |
|
|
|
|
|
36 |
legalInterface = gr.TabbedInterface([robertaGer, roberta], ["Roberte Ger", "Roberta"])
|
37 |
|
38 |
-
demo = gr.TabbedInterface([gptInterface, legalInterface ,qaInterface, summarizationInterface, simplicationInterface], [
|
39 |
-
"GPT", "Legal", "Question Answering", "Summarization", "Simplification"])
|
40 |
|
41 |
demo.launch()
|
|
|
5 |
summarization_text = '<a href="https://huggingface.co/Einmalumdiewelt/T5-Base_GNAD">T5-Base</a> </br> Hier wurde ein sogenanntes T5-Sprachmodell auf den Task der Text-Zusammenfassung spezialisiert. Das Modell versteht nur Deutsch und hat 220 Millionen Parameter.'
|
6 |
simplifaction_text = '<a href="https://huggingface.co/haining/scientific_abstract_simplification">Scientific Abstract Simplification</a> </br> Bei dieser Aufgabe geht es darum, komplexe Sachverhalte einfach zu erklären. Dieses Beispielmodell kann die Abstracts von wissenschaftlichen Publikationen so vereinfachen, dass sie auch für Laien verständlich werden. Ähnliche Methoden könnten verwendet werden, um beispielsweise Schweizer Rechtstexte zu vereinfachen. Dieses Modell funktioniert nur auf Englisch.'
|
7 |
legal_text = '<a href="https://huggingface.co/joelito/legal-german-roberta-large">Roberta German</a> </br><a href="https://huggingface.co/xlm-roberta-large">Roberta</a> </br> Hier zeigen wir ein Modell, welches an unserem Institut darauf vortrainiert wurde, die rechtliche Sprache besser zu verstehen. Dabei wird in einem Text immer ein Wort (mit dem Stichwort <mask>) maskiert, und das Modell muss das fehlende Wort voraussagen. Dadurch, dass das Modell auf die rechtliche Sprache spezifiziert wurde, sind die Voraussagen deutlich besser, wie das nachfolgende Beispiel zeigt (BGE 142 II 268 S. 271, Erwägung 4.1): Unser spezialisiertes Modell gibt richtigerweise das Wort “Verhältnismässigkeit” aus, während ein generisches XLM-RoBERTa-Modell deutlich allgemeinere Wörter wie Freiheit, Demokratie oder Öffentlichkeit voraussagt. Beide Modelle haben 354 Millionen Parameter.'
|
8 |
+
gbert_desc = '<a href="https://huggingface.co/harshildarji/gbert-legal-ner]">GBert Legal</a> </br>Bei dieser Aufgabe geht es darum, automatisch Eigennamen oder Entitäten, engl. named entities, in einem Text zu erkennen und einer Klasse zuzuordnen. So wäre beispielsweise Max Mustermann ein Eigenname der Klasse Person; Berner Fachhochschule wäre ein Eigenname der Klasse Organisation. Das hier verwendete Beispielmodell wurde auf juristische Texte des Deutschen trainiert und erkennt Eigennamen, die für die juristischen Domäne relevant sind, wie zum Beispiel Lawyer (= Anwalt) oder Law (=Gesetz).'
|
9 |
|
10 |
qaExamples = [["Mein Name ist Wolfgang und ich lebe in Berlin", "Wo wohne ich?"], [
|
11 |
"Der Amazonas-Regenwald, auf Englisch auch als Amazonien oder Amazonas-Dschungel bekannt, ist ein feuchter Laubwald, der den größten Teil des Amazonas-Beckens Südamerikas bedeckt. Dieses Becken umfasst 7.000.000 Quadratkilometer (2.700.000 Quadratmeilen), von denen 5.500.000 Quadratkilometer (2.100.000 Quadratmeilen) vom Regenwald bedeckt sind. Diese Region umfasst Gebiete von neun Nationen. Der größte Teil des Waldes befindet sich in Brasilien mit 60% des Regenwaldes, gefolgt von Peru mit 13%, Kolumbien mit 10% und geringen Mengen in Venezuela, Ecuador, Bolivien, Guyana, Suriname und Französisch-Guayana. Staaten oder Abteilungen in vier Nationen enthalten \"Amazonas\" in ihren Namen. Der Amazonas repräsentiert mehr als die Hälfte der verbleibenden Regenwälder des Planeten und umfasst den größten und artenreichsten tropischen Regenwald der Welt mit geschätzten 390 Milliarden Einzelbäumen, die in 16.000 Arten unterteilt sind.", "Welcher Name wird auch verwendet, um den Amazonas-Regenwald auf Englisch zu beschreiben?"]]
|
|
|
34 |
roberta = gr.Interface.load(
|
35 |
"huggingface/xlm-roberta-large", title=None, description=legal_text)
|
36 |
|
37 |
+
gbert = gr.Interface.load("huggingface/harshildarji/gbert-legal-ner", title=None, description=gbert_desc)
|
38 |
+
|
39 |
legalInterface = gr.TabbedInterface([robertaGer, roberta], ["Roberte Ger", "Roberta"])
|
40 |
|
41 |
+
demo = gr.TabbedInterface([gptInterface, legalInterface ,qaInterface, summarizationInterface, simplicationInterface, gbert], [
|
42 |
+
"GPT", "Legal", "Question Answering", "Summarization", "Simplification", "Named Entity Recognition"])
|
43 |
|
44 |
demo.launch()
|