Jüngste Entwicklungen im Bereich der künstlichen Intelligenz in den Jahren 2022 und 2023 haben zu vielen neu veröffentlichten Tools geführt, die auf großen Sprachmodellen basieren, wie z. B. ChatGPT, Bing Chat oder Bard. Diese Tools und die zugrunde liegenden KI-Modelle sind zwar beeindruckend, aber es wird immer deutlicher, dass sie nicht allwissend sind. Dies wirft folgende Fragen auf:
Wie groß ist der wahre Umfang des Wissens einer künstlichen Intelligenz?
Wie sieht ein Latent Space (latenter Raum) aus, und wie kann er besser zugänglich und erforschbar gemacht werden?
Das Ziel von knowledge spaces ist es, neue Wege zur Visualisierung und Erkundung des Latent Spaces von KI-Modellen zu erforschen und sie für die Öffentlichkeit zugänglicher und interessanter zu gestalten.
Ein Latent Space ist ein mathematischer Raum, der beim maschinellen Lernen verwendet wird, um einen großen Datensatz in einem niedrig dimensionalen Raum darzustellen. Ein Latent Space wird durch das Training eines KI-Modells auf einem Datensatz erzeugt. Dieser Latent Spaces stellt das "Wissen" eines KI-Modells dar. Obwohl der Latent Space eine geringere Dimensionalität hat als der Datensatz, ist seine Visualisierung immer noch eine schwierige Aufgabe. Der Mensch kann nur bis zu drei Dimensionen wahrnehmen, während Latent Spaces in der Regel aus mehreren mathematischen Dimensionen bestehen.
Aufgrund der Schwierigkeit, Latent Spaces zu visualisieren, wird dieser Fall in der wissenschaftlichen und künstlerischen Community häufig untersucht. Einige Projekte und Ressourcen, die als Referenzen verwendet wurden, sind:
Auf der Grundlage dieser Referenzen und einer experimentellen Phase, in der eine Reihe von Ansätzen getestet wurden, wurde das folgende Konzept entwickelt. Eine umfangreiche Sammlung weiterer Quellen findet sich auf ✨ are.na.
Um das Wissen großer Sprachmodelle zugänglich zu machen, wurde ein Web-Interface entwickelt, dem/der Betrachter*in eine interaktive Plattform bietet, um hochdimensionale Vector Embeddings, die auf einer zweidimensionalen Fläche visualisiert werden, zu erkunden und zu durchsuchen. Jedes hochdimensionale Vector Embedding wird als Kreuz auf der Fläche dargestellt. Jede Suche erzeugt ein weiteres, neues Kreuz, das Verbindungen zwischen ähnlichen Datenpunkten im Embedding Space herstellt. Das resultierende Netzwerk von miteinander verbundenen Informationen erzeugt visuell ansprechende Netzwerkstrukturen und folgt damit neueren Studien, die nahelegen, dass Wissen am besten als reichhaltige, miteinander verbundene Netzwerke und nicht als lineare Bäume dargestellt werden sollte.
Die visuelle Inspiration stammt von Mark Lombardis Narrative Structures.
“World Finance Corporation and Associates, c. 1970-84: Miami, Ajman, and Bogota-Caracas (Brigada 2506: Cuban Anti-Castro Bay of Pigs Veteran) (7th Version),” 1999, Color pencil and graphite on paper, 69.125 x 84 inches.
Durch die Möglichkeit, eigene Netzwerke zu erstellen, kann die Betrachter*in den Datensatz nach seinen/ihren eigenen Vorstellungen erforschen und ein tieferes Verständnis des Datensatzes und der darauf trainierten KI-Modelle entwickeln. Diese Netzwerke werden außerdem in einem Archiv gespeichert, sodass die Betrachter*innen ihre früheren Erkundungen des knowledge space wiederfinden können.
Durch die Veröffentlichung des Projekts im Internet und die Schaffung einer intuitiven, benutzerfreundlichen Erfahrung wird das Wissen über Datensätze und KI für ein breiteres Publikum leichter zugänglich und erforschbar. Darüber hinaus wird die Website durch erläuternde Texte ergänzt, die über latente Räume und das in KI-Modellen enthaltene Wissen aufklären und es entmystifizieren sollen.
Um die Datensätze, die das "Wissen" eines KI-Modells enthalten, durchsuchen zu können, mussten sie auf eine bestimmte Art und Weise verarbeitet werden. Der erste Verarbeitungsschritt bestand darin, Wörter oder Texteinheiten, auch Tokens genannt, in mehrdimensionale mathematische Vektoren umzuwandeln.
Da der Mensch nicht mehr als drei Dimensionen wahrnehmen kann, wurde in einem zweiten Schritt die Informationsdichte der Vektoren reduziert. Dadurch konnten die Vektoren als zweidimensionale Vektoren gespeichert werden, was wiederum eine Visualisierung auf einer zweidimensionalen Fläche ermöglichte.
Die Datensätze wurden mit der SentenceTransformers-Bibliothek bearbeitet. Nach der Verarbeitung der Datensätze wurden diese zur Speicherung und Versionierung mit Hilfe der 🤗 Datasets-Bibliothek nach Huggingface übertragen.
Die eingebetteten Datensätze werden über eine benutzerdefinierte API bereitgestellt, die mit FastAPI entwickelt wurde. Diese API bietet auch einen Endpoint für die Interference mit dem LLM, um semantisch ähnliche Ergebnisse zu einer Suchanfrage zu finden. Diese Daten werden dann als Netzwerke in einem SvelteKit Frontend visualisiert, das unter https://knowledge-spaces.com verfügbar ist. Sowohl die Datenpunkte als auch die Suchanfragen werden mit einem HTML-Canvas visualisiert, die mit der Konva.js-Bibliothek implementiert wurde.
Eine genauere Erläuterung der technischen Umsetzung ist in der README des GitHub-Repository zu finden.
Die Archivfunktion sowie der oben genannte Erklärungstext befinden sich noch in der Entwicklung.
2024: Studies of Change – Transformative dialouges between art, design and technology, Bremen, Germany
2023: Transform 2023, Hochschule Trier, Trier, Germany
Dieses Projekt wurde in den Kursen "Complex Complex" und "Expanded Material Imaginaries" von Ralf Baecker im Wintersemester 22/23 und Sommersemester 23 realisiert.