PrivateGPT lokal installieren mit Ollama oder Docker
PrivateGPT lokal installieren mit Ollama oder Docker
PrivateGPT ist weiterhin eine spannende Open-Source-Lösung für lokale und datenschutzfreundliche RAG-Anwendungen. Die aktuelle offizielle Dokumentation empfiehlt heute jedoch nicht mehr primär einen einzelnen Nvidia-GPU-Workflow, sondern flexible Setups mit Ollama oder einem Docker-Compose-Quickstart.
Wenn Sie PrivateGPT auf einem lokalen PC oder Mac betreiben möchten, sollten Sie sich daher an einer aktuellen Installation mit Python 3.11, Poetry, Ollama und optional Docker Compose orientieren.
Wenn Sie statt einer eher entwicklernahen Lösung lieber eine sofort nutzbare Oberfläche für lokales Wissensmanagement suchen, finden Sie hier auch unsere Anleitung zu AnythingLLM mit Docker und Ollama.
Was ist PrivateGPT?
PrivateGPT stellt zentrale Bausteine für private GenAI- und RAG-Anwendungen bereit. Es basiert unter anderem auf FastAPI und LlamaIndex und unterstützt unterschiedliche LLM-Anbieter, Embedding-Backends, Vector Stores und eine optionale Gradio-Oberfläche.
Aktuelle Voraussetzungen
- Git zum Klonen des Repositories
- Python 3.11 – ältere Python-Versionen werden laut offizieller Dokumentation nicht empfohlen
- Poetry zur Verwaltung der Abhängigkeiten
- optional make für Hilfsskripte und Startbefehle
- für das empfohlene lokale Setup: Ollama
- optional Docker und Docker Compose für den Container-Quickstart
Optional: Hier finden Sie ein ergänzendes Video zu PrivateGPT. Für die eigentliche Installation und Konfiguration sollten Sie sich aber immer an der aktuellen offiziellen Dokumentation orientieren, da sich Modelle, Profile und Startbefehle ändern können.
Aktuelle Setup-Optionen
PrivateGPT ist modular aufgebaut. Für ein vollständiges Setup wählen Sie in der Regel diese Komponenten:
- LLM – zum Beispiel Ollama, OpenAI, Azure OpenAI, Gemini oder andere Backends
- Embeddings – ebenfalls lokal oder remote
- Vector Store – etwa Qdrant, Chroma, Milvus oder Postgres
- UI – häufig die Gradio-Oberfläche
Die derzeit am einfachsten umsetzbare und offiziell empfohlene lokale Variante ist ein Ollama-Setup mit Qdrant und Gradio UI.
Empfohlener lokaler Ablauf
- Repository klonen
- Python 3.11 und Poetry einrichten
- Ollama installieren und den Dienst starten
- LLM- und Embedding-Modelle laden
- PrivateGPT mit den passenden Extras installieren
- PrivateGPT mit dem Profil
ollamastarten
Schritt-für-Schritt-Installation
1. Repository klonen
Klonen Sie zunächst das offizielle Projekt und wechseln Sie danach in das Projektverzeichnis.
2. Python 3.11 installieren
Die aktuelle Dokumentation nennt Python 3.11 als Basis. Unter macOS und Linux ist pyenv oft der einfachste Weg. Unter Windows kann pyenv-win verwendet werden.
3. Poetry installieren
PrivateGPT verwaltet seine Python-Abhängigkeiten über Poetry. Zusätzlich ist make praktisch, weil viele Start- und Hilfsbefehle darüber laufen.
4. Ollama installieren und starten
Installieren Sie Ollama und starten Sie anschließend den lokalen Dienst mit ollama serve. Danach können Sie die benötigten Modelle laden.
5. PrivateGPT mit Ollama-Extras installieren
Die empfohlene lokale Installation mit UI, Ollama und Qdrant erfolgt über die passenden Poetry-Extras.
6. PrivateGPT starten
Nach der Installation starten Sie PrivateGPT mit PGPT_PROFILES=ollama make run. Die Benutzeroberfläche ist anschließend standardmäßig unter http://localhost:8001 erreichbar.
Hinweis für Windows: Die Umgebungsvariable PGPT_PROFILES wird dort nicht inline wie unter macOS oder Linux gesetzt. In PowerShell setzen Sie zuerst $env:PGPT_PROFILES="ollama" und starten danach make run.
ollama serve
git clone https://github.com/zylon-ai/private-gpt
cd private-gpt
poetry install --extras "ui llms-ollama embeddings-ollama vector-stores-qdrant"
ollama pull llama3.1
ollama pull nomic-embed-text
PGPT_PROFILES=ollama make run
Dokumente importieren und indexieren
Die aktuelle Dokumentation beschreibt drei zentrale Wege für die Dokumentaufnahme:
- über die
/ingest-API - direkt über die Gradio UI
- über die Bulk Local Ingestion für ganze Ordner
Für die lokale Stapelverarbeitung kann – nach entsprechender Freigabe in der Konfiguration – zum Beispiel folgender Befehl verwendet werden:
make ingest /pfad/zum/ordner -- --watch
Wenn beim Ingest zu wenig RAM oder VRAM verfügbar ist, empfiehlt die Dokumentation, den LLM für diesen Schritt nicht vollständig zu laden – etwa mit llm.mode: mock bzw. dem Profil PGPT_PROFILES=mock.
Docker-Compose-Quickstart
Neben der lokalen Poetry-Installation bietet die aktuelle Dokumentation auch einen Docker-Compose-Quickstart. Dieser ist interessant, wenn Sie PrivateGPT in Containern betreiben möchten oder verschiedene Profile wie ollama-cpu, ollama-cuda oder ollama-api nutzen wollen. Gerade auf macOS ist der Host-Ollama-Ansatz über ollama-api oft praktisch.
Fazit
Die frühere Fokussierung auf einen einzelnen Nvidia-GPU-Setup ist inzwischen zu eng. Für die meisten Anwender:innen ist heute ein lokales Ollama-Setup der sinnvollste Einstieg. Wer lieber mit Containern arbeitet, kann stattdessen den aktuellen Docker-Compose-Quickstart verwenden.
Wenn Sie eher eine fertige Oberfläche für lokales Dokumenten- und Wissensmanagement suchen, lohnt sich zusätzlich ein Blick auf unsere Anleitung zu AnythingLLM mit Docker und Ollama.
Offizielle Quellen: