Entdecken - installieren - machen: Faszination lokale (gen)KI

Ein Hands-on-Streifzug durch lokale KI-Tools wie LM Studio, GPT4All und Forge - warum eigenes Ausprobieren der sicherste Weg zum Lernen ist.

In jüngster Vergangenheit habe ich im Rahmen einer Telekom-internen Fortbildungsveranstaltung Kolleginnen mit unterschiedlichsten (gen)KI-Tools vertraut gemacht. Diese Fortbildungsveranstaltungen werden von Mitarbeitenden der Organisation meist in Eigenregie konzipiert, organisiert und durchgeführt. Ja, wir holen uns natürlich auch Expertise von “außen”. Der Ansatz interner Kolleginnen und Kollegen, selber das eigene Wissen weiterzugeben und so alle davon profitieren zu lassen, ist dagegen jedoch bei weitem motivierender und intrinsisch erfüllender - sage zumindest ich, der diese Formate nun schon des Öfteren bespielen durfte. Außerdem profitieren intern organisierte Sessions vom spezifischen Fachwissen der Kolleginnen, an das externe Beiträge so nicht heranreichen würden. Shakil Awan organisiert beispielsweise regelmäßige “LEX Sessions” zur internen Fortbildung - nicht nur zu KI-Themen. Der Servicebereich der Deutschen Telekom organisiert regelmäßige “Magenta Curriculum”-Veranstaltungen, meist online, ebenfalls nicht ausschließlich zum Thema (gen)KI. Und dann gibt es noch den Bereich “AI4Coding”, unsere “KI Gilde”, Promptathons, KI Insights und noch so vieles mehr.

Bei so emsigen KI-Aktivitäten dachte ich mir, es wäre interessant, ein paar der Tools, die ich in solchen Sessions vorstelle, auch einmal hier in leicht größerer Runde etwas genauer zu beschreiben. Für die Profis unter euch kommt wahrscheinlich nichts Neues. Wer aber einen Einstieg in lokale KI sucht, findet hier ja vielleicht ein paar nützliche Tipps.

Wir schauen uns also an, wie künstliche Intelligenz direkt auf unseren eigenen Geräten nutzbar gemacht werden kann. Warum? Weil eigenes “Hands-On”-Lernen immer noch der sicherste Weg zu Erfolg ist. Sage nicht ich, sondern Xunzi (Xun Kuang), ein konfuzianischer Philosoph aus dem dritten Jahrhundert vor Christus:

Nicht von etwas gehört zu haben, ist nicht so gut, wie davon gehört zu haben. Davon gehört zu haben, ist nicht so gut, wie es gesehen zu haben. Es gesehen zu haben, ist nicht so gut, wie es zu wissen. Es zu wissen ist nicht so gut, wie es in die Praxis umzusetzen.

Lokale (gen)KI versetzt euch in die Lage, Dinge selber und ohne Sorge um Datenverluste umzusetzen. Lasst uns also einmal sehen, wie das im Detail aussieht und funktioniert.

Achtung: auf die richtige Hardware kommt’s an!

Bevor wir eigene KI-Anwendungen auf unseren Rechnern installieren, sei eines gesagt: ihr braucht schon einen wenigstens mittelmäßig-performanten Rechner, um KI-Modelle laden und ausprobieren zu können - der Medion 230-Euro-Laptop wird es leider nicht reißen. Ich persönlich würde zumindest folgende Kern-Ausstattung empfehlen:

aktuelles Motherboard
2 TB SSD als C:-Platte
mehr als 10 TB normale Festplatte für KI-erzeugte Daten
ganz wichtig: mindestens eine NVIDIA GTX 1070 Grafikkarte mit 8 GB VRAM

Damit solltet ihr gut gewappnet sein, mittelmäßige KI-Aufgaben auf dem eigenen Rechner umzusetzen. Klar geht es auch größer, besser und vor allem teurer. Mit einer NVIDIA RTX 4090 Grafikkarte beispielsweise. Die hat dann auch statt 8 GB ganze 24 GB VRAM. Je größer der VRAM-Speicher, desto größere Modelle können direkt in dessen Speicher geladen und ausgeführt werden. Man kann zwar auch die eigene CPU nutzen, nur ist die extrem langsam im Vergleich zu den Grafikchips von NVIDIA.

Lokale KI-Modelle mit LM Studio und GPT4All

Die Entwicklung von Large Language Models (LLMs) hat sich in den letzten Jahren in zwei Richtungen bewegt. Einerseits werden die Modelle durch neuere Verfahren immer kompakter und leistungsfähiger. Andererseits wird die Hardware, auf der diese Modelle laufen, immer performanter (und günstiger). Nur die ganz großen KI-Modelle sind nach wie vor in der Cloud angesiedelt. Aber die Möglichkeiten, leistungsstarke KI-Modelle lokal auf dem eigenen Rechner laufen zu lassen, werden zunehmend vielzähliger und auch relevanter. Zwei besondere Tools in diesem Bereich sind “LM Studio” und “GPT4All”.

LM Studio ist eine plattformübergreifende Desktop-Anwendung, die es Nutzern ermöglicht, LLMs direkt auf ihrem Computer zu erkunden und zu verwenden. Mit einer intuitiven Benutzeroberfläche macht LM Studio den Umgang mit fortschrittlichen Sprachmodellen auch für Nutzer ohne umfangreiche technische Erfahrung zugänglich. Ein besonderer Vorteil ist die Möglichkeit, kompatible Modelle direkt von Hugging Face herunterzuladen und zu verwalten. Hugging Face ist DIE Plattform für Open-Source-KI-Modelle, aber auch Datensätze und vieles mehr.

Ein herausragendes Feature von LM Studio ist die Unterstützung von Multimodal-Modellen wie LLaVA, die nicht nur Text, sondern auch Bilder verarbeiten können. Dies eröffnet völlig neue Möglichkeiten für die Analyse und Beschreibung von visuellen Inhalten.

GPT4All verfolgt einen ähnlichen Ansatz und ermöglicht es, Sprachmodelle auf handelsüblicher Hardware laufen zu lassen. Mit Unterstützung für Mac M-Series-Chips, AMD- und NVIDIA-GPUs bietet GPT4All eine breite Kompatibilität. Ein besonderer Fokus liegt hier auf Datenschutz und Sicherheit - alle Berechnungen finden lokal statt, ohne dass sensible Daten das Gerät verlassen.

Beide Tools, LM Studio und GPT4All, demokratisieren den Zugang zu KI-Technologien und ermöglichen es Forschern, Entwicklern und Enthusiasten, mit State-of-the-art-Sprachmodellen zu experimentieren, ohne auf externe Cloud-Dienste angewiesen zu sein.

KI-gestützte Bildgenerierung mit Forge

Während wir uns bisher auf Sprachmodelle konzentriert haben, gibt es auch im Bereich der Bildgenerierung ständig neue Entwicklungen für lokale Anwendungen. Ein bemerkenswertes Tool in diesem Kontext ist Forge, eine Schnittstelle für die Erstellung von Bildern mit Stable Diffusion. Neben ComfyUI bietet Forge ebenfalls die Integration des aktuell besten, freien Bild-Modells namens FLUX.

Forge baut auf der bekannten Automatic1111-Schnittstelle auf und bietet zahlreiche Verbesserungen und Erweiterungen. Besonders hervorzuheben sind die deutlichen Geschwindigkeitssteigerungen bei der Bildgenerierung im Vergleich zu Automatic1111. Für fortgeschrittene Nutzer bietet Forge eine Reihe von erweiterten Funktionen, wie beispielsweise:

IP Adapter mit Masking: Ermöglicht die Kombination und Maskierung von zwei Eingabebildern.
Neue Sampler: Darunter DDPM, DPM++ 2M Turbo und LCM Karras für verbesserte Bildqualität und Geschwindigkeit.
Stable Video Diffusion (SVD): Unterstützung für die Generierung kurzer KI-generierter Videos.

Es ist jedoch wichtig zu beachten, dass Forge kürzlich als experimentelles Interface deklariert wurde. Trotz einer überraschenden Aktualisierung im August 2024 sollten Nutzer vorsichtig sein und im Zweifel auf stabilere Alternativen zurückgreifen. Beispielsweise der anfängerfreundliche Ansatz von Fooocus.

Textgenerierung mit Oobabooga’s Text Generation WebUI

Ein weiteres spannendes Tool im Bereich der lokalen KI-Anwendungen ist Oobabooga’s Text Generation WebUI. Diese webbasierte Benutzeroberfläche ermöglicht es, verschiedene Backends für Textgenerierung in einer einzigen UI und API zu nutzen. Unterstützt werden unter anderem Transformers, llama.cpp, ExLlamaV2 und AutoGPTQ.

Die Vielseitigkeit und Anpassungsfähigkeit machen Oobabooga zu einem wertvollen Werkzeug für Entwickler und Forscher, die mit verschiedenen Textgenerierungsmodellen experimentieren möchten. Außerdem könnt ihr mit Hilfe von Erweiterungen auch mit Mikro und Lautsprecher mit euren Chatbots sprechen. Sehr spannend!

RVC Voice Cloning: Die Zukunft der Stimmsynthese

Apropos “sprechen”! Ein faszinierendes Gebiet der KI-Anwendungen ist das Klonen von Stimmen. RVC (Retrieval-based Voice Conversion) ist eine Technologie, die es ermöglicht, Stimmen zu verändern oder zu imitieren.

RVC nutzt fortschrittliche Stimmanalysetechnologien, um Stimmen zu analysieren und daraus ein Stimmmodell zu generieren. Dieses Modell kann dann für verschiedene Anwendungen genutzt werden, von Text-to-Speech über Stimmveränderung bis hin zu KI-gestützten Gesangscovern. Ein solches Modell zu trainieren, dauert auf einem Rechner mit oben erwähnter GTX 1070 Grafikkarte ungefähr einmalig 2 Tage, danach geschieht die Umwandlung einer aufgenommenen Stimme in die trainierte Stimme in ein paar Sekunden. Ein Computer mit einer RTX 4090 Grafikkarte trainiert einen neuen Stimmklon dagegen in ca. 2 Stunden statt 2 Tagen. Größer ist besser.

Die Möglichkeiten sind vielfältig und reichen von der Erstellung von Charakterstimmen für Videospiele bis hin zu personalisierten Sprachassistenten. Allerdings ist es wichtig, die ethischen Implikationen dieser Technologie zu berücksichtigen und verantwortungsvoll damit umzugehen!

Tipps und Tricks für den Einstieg in lokale KI-Tools

Beginnt mit einfachen Modellen: Startet mit kleineren Modellen, die weniger Ressourcen benötigen, um sich mit der Funktionsweise vertraut zu machen.
Achtet auf die Hardware: Überprüft die Systemanforderungen der Tools und stellt sicher, dass euer Computer über ausreichend Leistung verfügt. Siehe meine Beispiele oben.
Experimentieren ist essentiell! Probiert verschiedene Einstellungen und Modelle aus, um ein Gefühl für die Möglichkeiten und Grenzen von KI Hands-On zu bekommen.
Bleibt auf dem Laufenden: Die KI-Landschaft entwickelt sich schnell. Verfolgt Foren und Entwickler-Communities, um über neue Funktionen und Updates informiert zu bleiben.
Beachtet den Datenschutz: Auch wenn die Verarbeitung lokal erfolgt, geht verantwortungsvoll mit euren sensiblen Daten um.

Zum Abschluss möchte ich euch ein Zitat des Futuristen Alvin Toffler mit auf den Weg geben:

“Die Analphabeten des 21. Jahrhunderts werden nicht diejenigen sein, die nicht lesen und schreiben können, sondern diejenigen, die nicht lernen, verlernen und umlernen können.”

In diesem Sinne möchte ich euch dazu ermutigen, weiter zu lernen und mit den faszinierenden Möglichkeiten lokaler KI-Tools zu experimentieren. Bleibt neugierig und experimentierfreudig!