Grundsätzlich sind Sprachmodelle nichts als statistische Modelle, welche die menschliche Sprache abbilden. Sie werden zunächst mit sehr zahlreichen Texten auf gewisse, sehr allgemeine Aufgaben "vortrainiert", wodurch sie die Grundstruktur der Sprache erlernen können. Solche allgemeinen Modelle werden "Foundation Models" genannt. #### GPT als Beispiel für ein Foundation Model Eine solche Aufgabe ist es zum Beispiel, das nächste Wort in einem Text vorauszusagen. Um dies lösen zu können, braucht ein Modell einerseits ein Verständnis für Grammatik. Anderseits muss es aber auch lernen, welche Wörter in einem Kontext gemeinsam vorkommen, um stets das richtige Wort voraussagen zu können. Ein Beispiel für ein solches Modell ist GPT-2, welches Sie in der nachfolgenden Demo ausprobieren können. Die vortrainierten Sprachmodelle haben also bereits ein Verständnis für Sprache und bilden daher die Basis für zahlreiche Anwendungen. #### Anwendung von Foundation Models Die Anwendung von Foundation Models kann grob in zwei Kategorien unterteilt werden: Bei der **Zero-Shot Anwendung** wird das Modell direkt dafür verwendet, um eine Aufgabe zu lösen. Wir können hierfür einfach ein Modell etwas fragen, und das Modell die Antwort generieren lassen - so wie wir es beispielsweise bei der Verwendung von ChatGPT tun. Beim **Finetuning** wird das Modell hingegen anhand von weiteren Beispielen auf eine ganz bestimmte Anwendung spezialisiert. Dies führt oft noch zu besseren Resultaten als die Zero-Shot-Verwendung, allerdings erfordert die Spezialisierung Beispieldaten für die Aufgabe und ist mit grösserem technischem Aufwand verbunden. #### Modellgrösse Die Qualität des Sprachmodells hängt stark von der Grösse des Modells und des Datensatzes ab. Während die Technologien hinter ChatGPT bereits weitestgehend bekannt waren, ist das einzige Geheimnis hinter den verblüffenden Resultaten die Modellgrösse: Das Modell hat 175 Milliarden Parameter und wurde auf über 8 Milliarden Textdokumenten trainiert. Dadurch konnte es ein so gutes Verständnis für Sprache und das Erkennen von thematischen Kontexten erlangen, dass man das Gefühl hat, man interagiere mit einem anderen Menschen. #### Über diese Demoseite Mit dieser Demoseite wollen wir eine Intuition für verschiedene Anwendungsmöglichkeiten von Foundation Models vermitteln. In den Reiter "GPT2" und "Legal" kann direkt mit Foundation Models interagiert werden. "Question Answering", "Text-Zusammenfassung" und "Named Entity Recognition" sind beispiele für Modelle, welche mittels Finetuning spezialisiert wurden. Im "Zero-Shot Interface" ist schliesslich ein Beispiel für eine Zero-Shot Verwendung aufgezeigt. Die Demoseite wurde am Institut für Public Sector Transformation der Berner Fachhochschule entwickelt.