Die Antwort basierte auf einem Workshop zu dem Thema. Hier ist eine ausführlichere Erklärung.Toni78 hat geschrieben: Mo 6. Mär 2023, 07:02 Und diese Antwort kommt auch aus ChatGPT? Könntest Du das bitte nochmal auf deutsch schreiben für die Mindergebildeten wie mich?
Generell beruhen Programme wie ChatGPT auf mathematischen Modellen, die schon seit der Mitte des 20. Jahrhunderts bekannt sind. Der Grund warum es sie erst jetzt in der Praxis gibt ist einfach die Verfügbarkeit an (GPU) Rechenpower, die man früher eben nicht hatte.
Eine Software wie ChatGPT läuft auf Computern, und der rechnet mit Zahlen. „Tokenisierung“ bedeutet, dass jedes einzelne Wort in einem Text in eine Zahl übersetzt wird, d.h. identische Wörter werden durch die gleiche Zahl repräsentiert. Diese Zahlen, ergeben dann einen vieldimensionalen Raum, in dem „ähnliche“ Wörter nah beieinander sind, und „unähnliche“ Wörter weiter voneinander entfernt. In so einem Sprachmodel wird außerdem jedem Wort eine Wahrscheinlichkeit zugewiesen wie oft es in einer menschlichen Sprache (ChatGPT funktioniert ja offenbar in mehreren Sprachen) vorkommt. Das hilft die Antworten natürlicher zu machen. Aber der Hauptpunkt ist, dass die Software auch lernt in welchem Zusammenhang welche Wörter vorkommen und dann für einen gewissen Input, d.h. eine Reihe von Wörtern das darauffolgende Wort vorhersagt. Das nennt man Next Token Prediction (ein Token entspricht einer Zahl, die ein bestimmtes Wort repräsentiert). Wenn man das ein paar mal hintereinander ausführt kommt ein Satz heraus. Das ist eine sehr nützliche Fähigkeit, denn man kann andere Aufgaben, wie z.B. „Frage beantworten“ auf Next Token Prediction zurückführen. Dieses Konzept ist keine Erfindung von OpenAI, sondern Gegenstand der öffentlichen Forschung.
ChatGPT selbst, wie auch das Vorgängermodell GPT-3, ist proprietär. OpenAI hat eine Architektur entworfen und Trainingsmethoden entwickelt, die diesen Job sehr gut erledigen. Da die Architektur eben nicht Open Source ist, sind die Details nicht komplett bekannt. Was allerdings bekannt ist, sind die Trainingsdaten. Das Set heißt „The Pile“ und ist frei verfügbar (https://pile.eleuther.ai/). Das sind mehr als 800GB an Textdaten und enthält unter anderem Wikipedia, StackExchange, Github und ArXiv (Figure 1 in https://arxiv.org/pdf/2101.00027.pdf). Letzteres ist ein Pre-Print Server für wissenschaftliche Publikationen, daher gibt es da auch umstrittene Artikel, die auch in die Antworten von ChatGPT einfließen. ChatGPT ist auch in der Lage die letzten 4096 (wenn ich mich richtig erinnere) Wörter des aktuellen Chatverlaufs in die Antwort miteinzubeziehen.
Es ist bekannt, dass ChatGPT im Vergleich zu GPT-3 zusätzliches Training durch Menschen erhalten hat. Darin hat ChatGPT Antworten vorgeschlagen und Menschen haben die Antworten bewertet. Dadurch sind die Antworten freundlicher als von anderen künstlichen neuronalen Netzen gewohnt.
ChatGPT weiß nicht was richtig und falsch ist, es weiß welches Wort mit hoher Wahrscheinlichkeit auf welche Textkette folgt, basierend auf den Trainingsdaten. Man muss auch bedenken, dass das als Chatbot entwickelt wurde, und nicht als Wissensdatenbank. Wenn man Fragen zu Themen stellt, die in den Trainingsdaten nicht stark repräsentiert waren, sind die Antworten von ChatGPT wirr und widersprüchlich. Außerdem muss man bei Antworten, die Statsistiken und Zahlen enthalten SEHR vorsichtig sein. Der Bot neigt hier zum Halluzinieren, d.h. spukt Zahlen aus, die er in diesem Zusammenhang irgendwo gesehen hat, aber etwas anderes repräsentieren.
Es gibt zu dem Thema genügend seriöse (und auch öffentliche und damit publizierte) Forschung, die durch das Peer-Review gegangen ist.Zweck0r hat geschrieben: Mo 6. Mär 2023, 12:57 Was soll die KI schon machen ? Wahrscheinlich googelt sie, und mangels seriöser Forschung plappert sie Herstellerwerbung und Flachpressetexte nach.