Lokale LLM Installationen

Lokale LLM Installationen – KickOff Call – 07.07.2025

❗️Als Vorbereitung vor dem Call anschauen: https://gamma.app/docs/Lokale-KI-ganz-einfach-Vorbereitung-fur-die-Masterclass-am-7725-m6j2i3e6oj3p7fn

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Zusammenfassung Call „Lokale KI mit LM Studio – Einführung & Use Cases“

In dieser ausführlichen Trainingssession wurde praxisnah in die Welt der lokalen KI und insbesondere in den Umgang mit lokalen Large Language Models (LLMs) über LM Studio eingeführt. Gastgeber Torsten und Referent Stefan Weimar, TÜV-zertifizierter KI-Berater mit über 30 Jahren Erfahrung in technischer Kommunikation, führten die Teilnehmer durch Grundlagen, Installation, technische Anforderungen, praktische Anwendungen und rechtliche Rahmenbedingungen.

  1. Ausgangspunkt & Ziel der Session
    Die Session reagierte auf zunehmende Fragen aus der Community zum Thema lokal betriebene KI-Modelle – vor allem im Hinblick auf Datenschutz, Unabhängigkeit von US-Anbietern und spezifische Anwendungsfälle im eigenen Unternehmen. Stefan führte anhand einer vorbereiteten Präsentation durch das Thema und bot konkrete Anleitungen sowie Live-Demonstrationen.
  2. Einführung in lokale LLMs und LM Studio
  • Erklärung der Unterschiede zwischen öffentlichen Cloud-KI-Modellen (z. B. GPT-4, Claude) und lokal betriebenen Modellen.
  • Vorstellung von LM Studio als nutzerfreundliche Desktop-Anwendung zum Ausführen lokaler KI-Modelle ohne Programmierkenntnisse.
  • Begriffe wie „Quantisierung“ (4-Bit vs. 8-Bit), „Modelle mit Vision-Funktion“, „Reasoning-Modelle“ und „Modellgrößen (Parameter in Milliarden)“ wurden detailliert erläutert.
  • Faustregel: Pro Milliarde Modell-Parameter wird etwa 1 GB RAM benötigt. Wichtig für die Auswahl passender Modelle gemäß eigener Hardware.
  1. Praktische Einrichtung & Umgang mit LM Studio
  • Installation, Modellauswahl über den „Discover“-Button und Download wurden gezeigt.
  • Unterschied zwischen MLX-Format (für Apple Silicon) und GGUF-Format erklärt.
  • Konfiguration der Modell-Ladeparameter inklusive Kontextfenster-Größe (Token Window) im Verhältnis zur RAM-Ausstattung.
  • Tipps bei Download-Problemen: z. B. unvollständige Downloads oder Fehlermeldungen bei Shell-GPT.
  • Teilnehmer konnten in Echtzeit mitmachen und Fragen stellen – inkl. individueller Fehlersuche (z. B. zu langsamem Antwortverhalten, Systemkonflikten oder zu großen Modellen).
  1. Systemprompts, Chat-Funktionalitäten & Customisierung
  • Erläuterung des „System Prompts“, mit dem das Modellverhalten gezielt gesteuert werden kann (z. B. ironisch, fachlich, kreativ etc.).
  • Demonstration, wie sich das Antwortverhalten durch einen veränderten Prompt unmittelbar verändert.
  • Vorstellung von Chatfunktionen: Nachrichten editieren, löschen, kopieren, Chatverläufe verzweigen, Assistenten-Rollen manuell definieren.
  • Einführung in „Presets“ zur Wiederverwendung individueller Systemprompts und Modellkonfigurationen.
  1. Anwendungsbeispiele & Use Cases für lokale LLMs
    Stefan stellte anhand praktischer Demonstrationen konkrete Use Cases vor:
  • Verarbeitung vertraulicher Dokumente (z. B. medizinische Daten, Belege, rechtliche Unterlagen) lokal ohne Datenabfluss.
  • Lokale Transkription und Analyse von Audiodateien (z. B. mit Whisper).
  • Automatisierte Zusammenfassungen von Transkripten mit unterschiedlichen Modellen im Vergleich (Gemma, Mistral, DeepSeek etc.).
  • OCR-Anwendungen: Einlesen von Einkaufsbelegen als JPG.
  • Arbeit ohne Internetverbindung z. B. im Zug oder auf Reisen.
  • Anwendungen im HR-Bereich, Compliance, Onboarding und Wissensmanagement in Unternehmen.
  • Diskussion zu Rechenleistung & Hardware: Empfehlung mind. 32 GB RAM, ideal für anspruchsvollere Modelle: MacBook Pro oder Mac Studio mit 64–128 GB RAM.
  1. Automation & API-Nutzung
  • Vorstellung des LM Studio Servers (lokal laufender API-Endpunkt nach OpenAI-Standard).
  • Integration in automatisierte Workflows über Python-Skripte (z. B. automatische Transkription + Auswertung über LLM).
  • Anbindungsmöglichkeiten z. B. an N8N oder Whisper Transcription mit lokalem LM Studio Backend.
  • Option, mehrere LM Studio-Instanzen im lokalen Netzwerk zu verknüpfen (z. B. über IP).
  1. Weiterführende Architektur: RAG & Wissensdatenbanken
  • Einführung in „RAG“ (Retrieval Augmented Generation): Kombination von LLMs mit lokalen Wissensdatenbanken (z. B. Vektor-Datenbanken).
  • Tools wie AnythingLLM, Open Web UI oder Flowwise wurden kurz vorgestellt.
  • RAG-Anwendungen z. B. für interne Wissensdaten, Protokollanalyse, juristische Datenbanken oder Onboarding-Prozesse.
  1. Rechtliche Einordnung & Lizenzmodelle
  • Hinweise auf Lizenzbedingungen: Nicht alle Modelle sind für kommerzielle Nutzung freigegeben.
  • Apache 2.0 oder MIT gelten als unproblematisch; Meta’s LLaMA-Modelle haben Einschränkungen in der Nutzung.
  • Datenschutz: Selbst bei lokalem Einsatz müssen technische und organisatorische Maßnahmen (TOMs), Löschkonzepte und ggf. DPIAs berücksichtigt werden.
  • DSGVO: Lokale Nutzung kann Vorteile bieten, ersetzt aber keine Prüfung.
  • AI Act: Die meisten Use Cases gelten als „Limited Risk“, Ausnahmen bei HR oder Profiling.
  1. Fragen aus der Community & interaktive Klärungen
    Die Session war stark interaktiv – es gab viele Fragen, z. B.:
  • Unterschiede zwischen Modellen und Performance auf schwächeren Rechnern
  • Bedeutung von Token & Kontextfenster
  • Dateiformate, Vision-Modelle und OCR
  • Warum bei manchen Nutzern der „Assistant Prompt“ nicht auswählbar war (Analyse verschiedener Ursachen)
  • Kombination lokaler Modelle mit Cloud-Infrastrukturen (z. B. Hetzner, österreichische Anbieter wie Local Minds)
  1. Ausblick & Weiterführung
    Zum Abschluss wurde die Idee diskutiert, eine eigene vertiefende Workshop-Serie zu lokalen LLMs, RAG und Automation aufzubauen – inkl. Systemvoraussetzungen und Anwendungsorientierung. Eine Umfrage dazu wurde angekündigt.

Fazit
Die Session bot eine fundierte Einführung in den Aufbau und praktischen Einsatz von lokalen KI-Modellen mit LM Studio. Stefan überzeugte durch tiefes technisches Know-how, konkrete Anleitungen und viel Praxisbezug. Besonders für technisch interessierte Nutzer, Berater und Unternehmen mit hohen Datenschutzanforderungen wurde ein starker Wissensfundament gelegt.

Empfohlene Voraussetzungen für das eigene Ausprobieren:

  • Aktueller Rechner mit min. 32 GB RAM (besser 64 GB oder mehr)
  • Grundverständnis für Systemressourcen (RAM, GPU, Token)
  • Installiertes LM Studio (Version 0.3.17 oder höher)
  • Zeit & Bereitschaft zum Experimentieren mit Modellen und Prompts

Empfehlung zur weiteren Vertiefung:

  • Module zum Thema „Prompt Engineering“, „Whisper“, „Python-Automation“ in der Academy
  • Weitere Sessions zu RAG, AnythingLLM, Flowwise und juristischer Einordnung durch Datenschutzexperten wie Carsten Wittmann

Schlusswort
Die Session war ein starkes Beispiel für praxisnahe Weiterbildung mit Tiefgang, die aufzeigt, wie auch Einzelpersonen und kleinere Unternehmen Zugang zu mächtigen KI-Technologien bekommen können – ohne ihre Daten aus der Hand zu geben.

Lokale LLM – Teil 1 & 2 – 08.08.2025

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

In dieser kompakten Wiederholung der ersten Session wurden alle Teilnehmer auf denselben Stand gebracht, um vorbereitet in Session zwei starten zu können. Der Fokus lag auf dem technischen Fundament zur Einrichtung eines eigenen lokalen Chat-GPT mithilfe von Anything LLM in Verbindung mit Ollama und dem passenden Modell.

Inhalte & Learnings im Überblick:

  • Zielsetzung: Einrichtung eines lokal betriebenen KI-Systems zur datenschutzkonformen Verarbeitung sensibler Inhalte – ohne externe Cloud-Dienste.
  • Technische Basis:
    • Installation von Ollama als lokale Laufzeitumgebung.
    • Auswahl und Download geeigneter Modelle wie z. B. Gemma 3 (abhängig vom Grafikspeicher).
    • Ergänzung durch einen Embedder (z. B. Deng Cao Embedding 4B Q8), um Dokumente in Vektordatenbanken zu überführen.
  • Hardware-Check:
    • Nutzung von Tools zur Prüfung des GPU-Speichers (mind. 8 GB empfohlen).
    • Entscheidungshilfe bei zu schwacher Hardware: Nutzung eines OpenAI API Keys als temporäre Lösung.
  • Anything LLM Setup:
    • Grundeinrichtung mit lokalem LLM und Embedder.
    • Auswahl einer geeigneten Chunking-Strategie (z. B. 2000 Zeichen + 250 Zeichen Overlap).
    • Einrichtung von Workspaces zur strukturierten Verwaltung von Projekten.
    • Hochladen und Einbetten von Testdokumenten als Vektoren.
  • Praxisbezug & Use Cases:
    • Beispiele aus echten Projekten: z. B. Chatbot-Anbindung an Confluence-Wiki oder Patenttext-Generierung aus Transkripten.
  • Typische Stolperfallen:
    • Häufige Fehler bei der Eingabe von Befehlen im Terminal.
    • Fehlende Embedder oder falsche Auswahl von LLMs.
    • Rechteprobleme unter Windows, ZIP-Dateien nicht akzeptiert – entpacken notwendig.
  • Best Practices:
    • Immer zuerst Modell + Embedder installieren.
    • Chunking- und Embedding-Strategie festlegen, bevor zu viele Dokumente eingebettet sind.
    • Systemprompts und Chat-Einstellungen gezielt nutzen, um Halluzinationen zu vermeiden.
  • Transparenz:
    • Jeder Antwort liegt ein Zitat (Chunk) aus dem hinterlegten Dokument bei – nachvollziehbar und kontrollierbar.

 

Lokale LLM – Teil 3 – 15.08.2025

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Zusammenfassung des Trainingscalls

Im dritten Teil der Vertiefung lag der Fokus auf Optimierung durch Schwarmintelligenz: die Teilnehmer brachten eigene Experimente ein, die gemeinsam ausgewertet wurden. Stefan betonte, dass er hier nicht als Dozent, sondern als Forschungspartner auftritt. Ziel war es, aus den praktischen Tests klare Optimierungsguidelines abzuleiten.

  1. Grundlagen & Hardware-Anforderungen
  • Drei Wege zum Ziel:
    • Starke Hardware (≥16 GB VRAM): lokale Modelle (z. B. Ollama) sind möglich.
    • Mittlere Hardware (8–16 GB VRAM): kleinere Modelle oder OpenAI API.
    • Schwache Hardware (<8 GB VRAM): ausschließlich OpenAI API.
  • Embedder vs. LLM:
    • Embedder wandelt Texte in Vektoren, wird nur beim Upload genutzt und bleibt konstant eingestellt.
    • LLM formuliert Antworten aus den gefundenen Vektoren.
    • Fehlerquelle: Embedder nicht als LLM verwenden – führt zu unbrauchbarem Output.
  1. Chunking & Embedding
  • Dank eines Experiments von Alexander: Chunk Size 1000, Overlap 125 ist ein optimaler Standard.
  • Chunking zerlegt Texte in überlappende Stücke, um Kontexte besser zu sichern.
  • Diskussion um Snippet-Anzahl (Top K): Mehr Snippets liefern oft bessere Ergebnisse, aber ab ca. 16 sinkt die Qualität.
  1. Praktische Probleme & Lösungen
  • Fehlerquellen: falsche Embedder, alte Modelle, Payment-Limits bei OpenAI, zu große Dateien.
  • Workspaces & Ordnung: Dokumente werden zuerst in „Custom Documents“ hochgeladen und anschließend in Workspaces verschoben. Saubere Folder-Struktur ist entscheidend.
  • Leistungseinbrüche: zu große Chunk Sizes, schwache Hardware oder falsche Settings.
  1. Experimente & Modellvergleiche
  • Vergleich verschiedener Modelle (OpenAI OSS, LLaMA, Gemma, Qwen).
  • Erkenntnisse:
    • Größere Modelle liefern beste Qualität, sind aber oft zu langsam.
    • Sweet Spot: GPT OSS 20 – hohe Qualität bei moderater Rechenzeit.
    • Auch kleine Modelle (z. B. LLaMA 3.4B) liefern überraschend brauchbare Ergebnisse für schnelle Tests.
    • Quellenangaben verbessern die Treue der Antworten erheblich.
  • Vergleich mit Volltext-Modellen (GPT-5, Claude): Volltext liefert detailreicher, RAG-Systeme dagegen kompakter und strukturierter.
  1. Weiterführende Themen & Ausblick
  • Agent Skills: Inhalte im RAG abspeichern, Dokumente zusammenfassen, SQL-Datenbanken abfragen, Webseiten scrapen.
  • Anything LLM Cloud: Multi-User-Management, Chat-Widgets, individualisierbare Workspaces.
  • Web Scraping: Integration von Webseiten, YouTube, Wikis; inkl. Authentifizierung und Browser-Extension.
  • Agent Flows: Automatisierung von Workflows (z. B. Newsfeeds in RAG integrieren).
  • Diskussion über On-Premises vs. Cloud: steigendes Interesse an lokalen Lösungen wegen Sicherheit, Kosten und Kontrolle.

Lokale LLM – Teil 4 – 22.08.2025

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Zusammenfassung des Vertiefungscalls:

In dieser abschließenden Vertiefungssession mit Stefan drehte sich alles um die Weiterentwicklung lokal betriebener Retrieval-Augmented Generation (RAG) Systeme unter Einsatz von Anything.LLM – mit besonderem Fokus auf Agent Skills, Web Scraping, Datenintegration, Modellverwaltung und praktische Anwendungsszenarien.

Inhaltliche Schwerpunkte:

  1. Recap und Status Quo
    • Rückblick auf die bisherigen Sessions: Hardwareanforderungen, Unterschiede zwischen Embedder & LLM, Chunking-Optimierung (Chunk Size 1000 / Overlap 125).
    • Wichtig: semantisches Chunking ist wünschenswert, aber noch nicht unterstützt.
  2. Agent Skills in Anything.LLM
    • Einführung von Funktionen wie Websuche, Dateierstellung und -speicherung direkt im Browser.
    • Agents können auch ohne „tools“-Tag eingesetzt werden.
    • Speichern und Abrufen von Informationen aus der Vektor-Datenbank über Agent Commands.
  3. Web Scraping & Datenanreicherung
    • Nutzung des Bulk Link Scrapers zur strukturierten Analyse ganzer Webseiten mit Tiefensuche.
    • Einbindung von Plattformen wie Confluence für organisationsinterne Wissensdatenbanken.
    • Integration von YouTube-Transkripten, sofern vorhanden, zur weiteren Nutzung im System.
  4. Browser Extension
    • Mit der Chrome-Erweiterung können Webseiteninhalte per Rechtsklick direkt in die Vektor-Datenbank übertragen werden.
    • Einfache Verbindung via API-Key aus Anything.LLM.
  5. Private Browser Tool
    • Ermöglicht das Scraping von Seiten hinter Logins (z. B. LinkedIn, interne Plattformen), ohne Tokens oder API-Schnittstellen.
    • Besonderer Nutzen: Daten aus geschützten Bereichen extrahieren, ohne sie über öffentliche APIs freizugeben.
  6. Anything.LLM Cloud (Ausblick)
    • Multi-User-Funktionalität für Teamlösungen: Rollenkonzepte, White Label, Custom Domains, API-Anbindung.
    • Nutzung als zentralisiertes Wissenssystem in Kundenprojekten (lokal oder in der Cloud).
    • Demonstration eines Chatbots auf Stefans Website – gespeist aus gezielt gefütterten Inhalten.
  7. Realistische Anwendungsfälle & Community-Beispiele
    • Automatisiertes Auslesen und Auswerten von handschriftlich ausgefüllten PDF-Formularen über OCR & semantisches Chunking.
    • Übertragung von Wissen aus gesperrten oder geschlossenen Datenbanken durch gezieltes Web-Scraping.
  8. Fehlersuche & Lösungen
    • Hands-on-Support beim Laden und Einbinden von Modellen (z. B. Gemma 3, ITQ8).
    • Beheben von Embedding-Fehlern durch korrekte Modellkonfiguration.
    • Unterstützung bei Web Search & Vector-Speicherung via Agent Skills.

Lokale LLM live gebaut – ExpertenCall TJ & Stefan Weimar – 23.09.2025

Sie sehen gerade einen Platzhalterinhalt von Vimeo. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Zusammenfassung des Calls:

In diesem ExpertenCall führen Stefan und Torsten Schritt für Schritt durch den vollständigen Setup-Prozess eines lokal betriebenen Language Models (LLM) inklusive Embedding-Modell und Anbindung an „Anything LLM“. Ziel ist ein vollständig lokal laufendes, datensicheres KI-System für transkribierte Dokumente und Wissensarbeit.

  1. Installation von Ollama
  • Download und Installation über ollama.com für macOS.
  • Terminal-Kommando ollama serve gestartet, um den lokalen Server zu aktivieren.
  • Modellwahl: GPT OSS 20B als schnelles, leistungsfähiges Modell (14 GB).
  • Modell über ollama run gestartet.
  1. Auswahl und Integration von Embedding-Modellen
  • Ziel: parallele Nutzung von LLM für Chat und separatem Modell für Embeddings in Vektor-Datenbank.
  • Auswahl: DenKao 4B Q8 empfohlen (State-of-the-Art), wegen Effizienz & Präzision.
  • Erklärung der Quantisierung: Q4 bis FP16 mit Fokus auf Kompromiss zwischen Genauigkeit und Speicherbedarf.
  1. Einrichtung von Anything LLM
  • Desktop-App installiert und eingerichtet.
  • Anbieter-Auswahl auf Ollama umgestellt, autodetect der Base URL.
  • Workspace erstellt mit spezifizierter Aufgabe (z. B. Transkripte bearbeiten).
  • Oberfläche auf Englisch gestellt (besseres Troubleshooting).
  1. Konfiguration der AI-Komponenten
  • LLM: Auswahl des Basis-Modells für Chat (z. B. GPT OSS 20B).
  • Vektor-Datenbank: Standardmäßig LensDB, lokal gespeichert.
  • Embedder: Lokal laufend, z. B. DenKao Q8 oder Alternativen.
  • Text-Splitter: Chunk-Size 1000, Overlap 125 empfohlen für Transkripte.
  • Warnung: Änderungen an Splitter/Embedder löschen bisherige Daten.
  1. Optimierungen & Best Practices
  • „Keep Alive“ auf 5 Minuten belassen (Speicheroptimierung).
  • Embedding-Genauigkeit hochhalten durch Q8 oder FP16.
  • Vision-Modelle (z. B. Gemma 3) optional für OCR und Bildverständnis.
  • Verlagerung von Speicherpfaden für Transkripte etc. auf externe SSD über .env-Datei.
  1. Anything LLM Features & Zusatzfunktionen
  • Browser-Erweiterung möglich für Webseitenintegration.
  • Agent Skills wie Web Search (z. B. DuckDuckGo) aktivierbar.
  • Kalendereinträge, Screenshot-to-Text, Midjourney-Prompts möglich.
  • Transkription via Whisper-Integration möglich (erfordert Subscription).
  1. Arbeiten mit Workspaces
  • Unterschiedliche Workspaces mit separaten LLMs möglich (z. B. Vision vs. reiner Text).
  • Dokumente (z. B. Workbooks, Transkripte) werden hochgeladen, gechunkt & eingebettet.
  • Query-Modus erlaubt reine Datenbankantworten – Chat-Modus inkl. LLM-Wissen.
  • Einstellung von „Max Context Snippets“ (z. B. 8) und Similarity Threshold (z. B. 0.25) optimiert Relevanz.
  1. Fehlersuche & Troubleshooting
  • Einige Embedding-Modelle (z. B. DenKao) zeigten Probleme – alternative Modelle getestet.
  • Tipps zur Optimierung des Kontextfensters, z. B. 4096 vs. 8192 Tokens.
  • Fallstricke bei der Konfiguration: Auswahl korrekter Modeltypen (kein Embedder im Chat-Modus!).
  1. Praxisanwendung
  • Hochladen & Bearbeiten von Transkripten über Anything LLM.
  • Anpassen des Systemprompts zur Steuerung der Antwortqualität.
  • Einsatz des GPT OSS in Kombination mit vordefiniertem Prompt für professionelle Tonalität.