Spaces:

Rostbraten
/

Vokabellisten-Generator

Sleeping

App Files Files Community

Rostbraten commited on Jan 18

Commit

3d454c5

verified ·

1 Parent(s): 8445950

Upload navigium.py

Browse files

Files changed (1) hide show

navigium.py +28 -18

navigium.py CHANGED Viewed

@@ -61,7 +61,6 @@ def request2navigium(words=["currere"]):
             continue
         output.append(formated_answer)
         dice("Erfolgreich: Alle Informationen konnten erfolgreich extrahiert werden", word, "good")
-        time.sleep(0.1)
     return output
 def threaded_function(words, function=request2navigium, anzahl_threads=20, wordtype=None):
@@ -115,26 +114,23 @@ def sort_by_wordtype(input):
         "Subjunktionen": [],
         "Unbekannt": []
     }
     for word in input:
-        if word["wortart"].lower() == "SUBST".lower():
-            sorted["Nomen"].append(word)
-        elif word["wortart"].lower() == "VERB".lower():
-            sorted["Verben"].append(word)
-        elif word["wortart"].lower()  == "ADJ".lower():
-            sorted["Adjektive"].append(word)
-        elif word["wortart"].lower()  == "ADV".lower():
-            sorted["Adverbien"].append(word)
-        elif word["wortart"].lower()  == "PRON".lower():
-            sorted["Pronomen"].append(word)
-        elif word["wortart"].lower()  == "KONJ".lower():
-            sorted["Konjunktionen"].append(word)
-        elif word["wortart"].lower()  == "PRAEP".lower():
-            sorted["Präpositionen"].append(word)
-        elif word["wortart"].lower()  == "SUBJ".lower():
-            sorted["Subjunktionen"].append(word)
         else:
             sorted["Unbekannt"].append(word)
     return sorted
 def split_into_words(input, delete_special_characters=True):
@@ -206,6 +202,12 @@ def identify_adjectives(word, NomGen, arg, failures, plural):
                     failures -= 1
     return NomGen, failures, plural
 def advanced_formating(input):
     vocabulary = {
         "Nomen": [],#
@@ -267,6 +269,8 @@ def advanced_formating(input):
             word_properties["Dekl.-Kl."] = "unbekannt"
         word_properties["Bedeutung"] = word["bedeutungen"]
         vocabulary["Nomen"].append(word_properties)
     for word in input["Verben"]:
@@ -315,6 +319,8 @@ def advanced_formating(input):
         word_properties["Bedeutung"] = word["bedeutungen"]
         vocabulary["Verben"].append(word_properties)
     for word in input["Adjektive"]:
@@ -375,6 +381,8 @@ def advanced_formating(input):
         vocabulary["Adjektive"].append(word_properties)
     return vocabulary
 def save2json(file, data):
@@ -501,7 +509,9 @@ def save2by2(excel_file, by2_filepath):
             result_list = []
             for index, row in df.iterrows():
                 # Greife auf die zweite und dritte Spalte der Zeile zu, unabhängig von den Namen
-                if sheet == "Nomen":
                     combined_str = f"{row.iloc[0]}, {row.iloc[1]}; {row.iloc[2]}; {row.iloc[3]}:\n{row.iloc[-1]}"
                 elif sheet == "Verben":
                     combined_str = f"{row.iloc[0]}, {row.iloc[1]}, {row.iloc[2]}, {row.iloc[3]}; {row.iloc[4]}:\n{row.iloc[-1]}"

             continue
         output.append(formated_answer)
         dice("Erfolgreich: Alle Informationen konnten erfolgreich extrahiert werden", word, "good")
     return output
 def threaded_function(words, function=request2navigium, anzahl_threads=20, wordtype=None):
         "Subjunktionen": [],
         "Unbekannt": []
     }
+    wortarten_kürzel = {
+        "SUBST": "Nomen",
+        "VERB": "Verben",
+        "ADJ": "Adjektive",
+        "ADV": "Adverbien",
+        "PRON": "Pronomen",
+        "KONJ": "Konjunktionen",
+        "PREP": "Präpositionen",
+        "SUBJ": "Subjunktionen"
+    }
     for word in input:
+        if word["wortart"] in wortarten_kürzel.keys():
+            sorted[wortarten_kürzel[word["wortart"]]].append(word)
         else:
             sorted["Unbekannt"].append(word)
     return sorted
 def split_into_words(input, delete_special_characters=True):
                     failures -= 1
     return NomGen, failures, plural
+def cleanup_properties(properties):
+    for key, property in properties.items():
+        if property.replace(" ", "") == "":
+            properties[key] = "-"
+    return properties
 def advanced_formating(input):
     vocabulary = {
         "Nomen": [],#
             word_properties["Dekl.-Kl."] = "unbekannt"
         word_properties["Bedeutung"] = word["bedeutungen"]
+        word_properties = cleanup_properties(word_properties)
         vocabulary["Nomen"].append(word_properties)
     for word in input["Verben"]:
         word_properties["Bedeutung"] = word["bedeutungen"]
+        word_properties = cleanup_properties(word_properties)
         vocabulary["Verben"].append(word_properties)
     for word in input["Adjektive"]:
         vocabulary["Adjektive"].append(word_properties)
+        word_properties = cleanup_properties(word_properties)
     return vocabulary
 def save2json(file, data):
             result_list = []
             for index, row in df.iterrows():
                 # Greife auf die zweite und dritte Spalte der Zeile zu, unabhängig von den Namen
+                if row.iloc[0] == "Diese Liste basiert auf Daten von \"https://www.navigium.de/suchfunktion/_search?q={}\". © Rechteinhaber: Navigium.de":
+                    continue
+                elif sheet == "Nomen":
                     combined_str = f"{row.iloc[0]}, {row.iloc[1]}; {row.iloc[2]}; {row.iloc[3]}:\n{row.iloc[-1]}"
                 elif sheet == "Verben":
                     combined_str = f"{row.iloc[0]}, {row.iloc[1]}, {row.iloc[2]}, {row.iloc[3]}; {row.iloc[4]}:\n{row.iloc[-1]}"