Zum Inhalt springen

// journal / llm-deep-tech / peft-adapter-prompt-tuning

PEFT, Adapter und Prompt Tuning: Parameter-effiziente Modellanpassung erklärt

PEFT — Parameter-Efficient Fine-Tuning — ist die Sammelbezeichnung für Methoden, die LLMs anpassen, ohne die Milliarden Modellparameter zu verändern. Adapter, LoRA, Prompt Tuning, Prefix Tuning, IA³ — welches Verfahren passt zu welchem Use Case?

Von createIF Labs
Veröffentlicht am
  • PEFT
  • Adapter
  • Prompt Tuning
  • Modellanpassung & Training
  • LoRA
Übersicht der PEFT-Methoden: Adapter, LoRA, Prefix Tuning, Prompt Tuning, IA³
Strukturierte Übersicht über die wichtigsten PEFT-Verfahren: Klassische Adapter (zusätzliche Schichten zwischen Transformer-Blöcken), LoRA (Low-Rank-Updates parallel zu den Attention-Layern), Prefix Tuning (lernbare virtuelle Tokens vor der Eingabe), Prompt Tuning (lernbare Soft-Prompts) und IA³ (Skalierungsvektoren pro Schicht). Jede Methode hat eigene Trade-offs zwischen Parameteranzahl, Trainingsaufwand und Modularität.

LoRA ist die bekannteste Parameter-effiziente Anpassungs-Methode, aber bei weitem nicht die einzige. Unter dem Sammelbegriff PEFT — Parameter-Efficient Fine-Tuning — versammeln sich mehrere Verfahren, die LLMs anpassen, ohne die Milliarden Modellgewichte zu verändern. Wer ein passendes Setup für sein Unternehmen sucht, sollte die Optionen kennen. Dieser Beitrag erklärt sie.

1. Warum Parameter-effizientes Fine-Tuning

Full Fine-Tuning eines 70B-Modells erfordert hunderte Gigabyte VRAM und Tage GPU-Zeit. Für die meisten Unternehmensanwendungen ist das überzogen — sowohl in Kosten als auch in Risiko (Catastrophic Forgetting). PEFT löst das Problem: nur ein winziger Bruchteil der Parameter wird trainiert, das Basismodell bleibt unverändert. Resultat: Training auf einer einzelnen GPU, mehrere Spezialisierungen auf einem Basismodell, schnelles Iterieren.

Vertiefung der Motivation in LoRA erklärt und Fine-Tuning lohnt sich.

2. Klassische Adapter

Die ursprüngliche Idee, vor LoRA: Zwischen die bestehenden Transformer-Blöcke werden kleine zusätzliche Schichten eingefügt — sogenannte Adapter-Module. Diese bestehen meist aus einer Downscale-Projektion, einer nichtlinearen Aktivierung und einer Upscale-Projektion. Nur die Adapter-Schichten werden trainiert.

Vorteile:

  • Modular: Adapter können separat gespeichert und kombiniert werden.
  • Bewahrt Basismodell vollständig.

Nachteile:

  • Latenz-Overhead: zusätzliche Schichten in jedem Forward-Pass.
  • Schwerer zu mergen als LoRA.

Klassische Adapter (Houlsby, Pfeiffer) sind 2026 nur noch in Spezialfällen relevant — die meisten Setups setzen auf LoRA als überlegene Variante.

3. LoRA und Varianten

LoRA setzt Adapter-Logik parallel zu den Gewichtsmatrizen statt zwischen Schichten ein: zwei kleine Matrizen A und B approximieren die Update-Matrix als Low-Rank-Produkt. Nach dem Training können A·B in die Basisgewichte gemergt werden — null Inferenz-Overhead.

Wichtige Varianten:

  • LoRA. Standardform, Rank typisch 8–64.
  • DoRA. Trennt Magnitude und Direction der Update-Matrix, lernt beide getrennt. Etwas bessere Qualität.
  • rsLoRA. Skaliert Alpha proportional zur Wurzel des Rank — stabileres Training bei hohem Rank.
  • PiSSA. Initialisiert A und B mit der SVD der Basis-Matrix, schnellere Konvergenz.
  • VeRA. Teilt A und B über Schichten, reduziert Parameteranzahl massiv.

Für die meisten Use Cases ist Standard-LoRA ausreichend. Die Varianten bringen 1–5% Qualität bei höherer Komplexität — sinnvoll in reifen Setups.

4. Prompt Tuning und Prefix Tuning

Diese Methoden lernen kontinuierliche „Soft Prompts” — Sequenzen von Vektoren, die der Eingabe vorangestellt werden.

Prompt Tuning. Eine Sequenz von 20–100 lernbaren Embedding-Vektoren wird vor jeder Eingabe eingefügt. Nur diese Vektoren werden trainiert; der Rest des Modells bleibt eingefroren.

Prefix Tuning. Erweitert das Konzept: Lernbare Vektoren werden nicht nur am Eingang, sondern in jeder Transformer-Schicht eingefügt. Mehr Parameter, mehr Anpassungskapazität.

Vorteile:

  • Extrem wenig Parameter (oft unter 1 Million).
  • Sehr modular, schnell ladbar.
  • Kein Modellzugriff nötig (funktioniert auch mit Closed-API in eingeschränkter Form).

Nachteile:

  • Begrenzte Anpassungskapazität — gut für kleine Verhaltensänderungen, schlechter für tiefe Spezialisierung.
  • Empfindlich gegenüber Hyperparametern.

Für kleine Aufgaben (Tonalität, Klassifikation) sind sie attraktiv. Für anspruchsvolle Anpassungen unterlegen.

5. IA³ — minimalistische Skalierung

IA³ (Infused Adapter by Inhibiting and Amplifying Inner Activations) ist die minimalistische Variante: nur Skalierungsvektoren pro Schicht werden gelernt — ein Vektor pro Schicht, der die Aktivierungen elementweise multipliziert.

Vorteile:

  • Extrem wenig Parameter (typisch unter 0,01% des Modells).
  • Schnell zu trainieren.
  • Modular und kombinierbar.

Nachteile:

  • Geringste Anpassungskapazität aller PEFT-Methoden.
  • In komplexen Aufgaben deutlich unterlegen gegenüber LoRA.

Anwendung: Sehr ähnliche Tasks, schnelle Personalisierung, Multi-Task-Setups mit minimalem Overhead.

6. Welches Verfahren wann?

Pragmatische Empfehlungen aus der Praxis:

  • LoRA / QLoRA. Default für 95% der Fälle. Beste Balance aus Anpassungskapazität, Effizienz und Mergebarkeit.
  • Klassische Adapter. Nur, wenn aus historischen Gründen ein bestehendes Setup vorhanden ist.
  • Prompt Tuning. Wenn Closed-API-Modell genutzt wird und nur leichte Verhaltensänderung nötig ist.
  • Prefix Tuning. Selten — wenn Tiefe nötig ist, ist LoRA meist besser.
  • IA³. Multi-Task-Setups mit sehr ähnlichen Tasks und Bedarf an extremer Modularität.

Faustregel: Wer nicht sicher ist, nimmt LoRA mit Rank 16, Alpha 32 und Standard-Hyperparametern. Das funktioniert in der überwiegenden Mehrheit der Fälle ohne weitere Optimierung.

7. Praxis: PEFT mit Hugging Face

Die Hugging-Face-PEFT-Bibliothek implementiert alle hier diskutierten Verfahren mit einer einheitlichen API. Beispiel für LoRA:

from peft import LoraConfig, get_peft_model, TaskType

config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
)
peft_model = get_peft_model(base_model, config)

Für andere Verfahren gibt es analoge Configs (PrefixTuningConfig, PromptTuningConfig, IA3Config). Die Hugging-Face-Doku zur PEFT-Bibliothek ist 2026 der pragmatische Startpunkt für jedes PEFT-Projekt.

PEFT ist 2026 keine Forschungsspielwiese mehr, sondern das Standardvorgehen für jede Modellanpassung jenseits von trivialen Prompt-Anpassungen. Wer sich auf LoRA als Default beschränkt, macht selten etwas falsch — und wer die Varianten kennt, kann gezielt für besondere Anforderungen die passende Methode wählen. Wichtiger als die Methodenwahl bleibt die Datenkurierung, die Eval-Pipeline und die strukturierte Iteration. Mehr in Fine-Tuning lohnt sich.

// FAQ

Häufige Fragen.

  1. / 01Ist PEFT dasselbe wie LoRA?

    Nein. PEFT (Parameter-Efficient Fine-Tuning) ist der Oberbegriff. LoRA ist eine spezielle PEFT-Methode — derzeit die mit Abstand beliebteste. Andere PEFT-Verfahren sind klassische Adapter, Prefix Tuning, Prompt Tuning und IA³. Jede Methode hat eigene Trade-offs.

  2. / 02Wann ist klassisches Adapter-Tuning besser als LoRA?

    Selten. Klassische Adapter (Houlsby-, Pfeiffer-Adapter) haben tendenziell höhere Latenz, da sie zusätzliche Schichten in den Forward-Pass einfügen. LoRA-Adapter können nach dem Training in das Basismodell gemergt werden — null Latenz-Overhead. Für die meisten Use Cases ist LoRA überlegen.

  3. / 03Was ist der Unterschied zwischen Prompt Tuning und Prompt Engineering?

    Prompt Engineering schreibt menschenlesbare Prompts. Prompt Tuning lernt einen Soft Prompt — eine Sequenz von kontinuierlichen Vektoren, die der Eingabe vorangestellt wird und beim Training optimiert wird. Sie ist nicht mehr als Text lesbar, kann aber das Verhalten des Modells präzise steuern, ohne Modellgewichte zu ändern.

  4. / 04Welche PEFT-Methode hat die wenigsten Parameter?

    Prompt Tuning, je nach Implementation oft nur einige tausend bis hunderttausend trainierbare Parameter (gegenüber Millionen bei LoRA). IA³ liegt ähnlich niedrig. Beide haben aber geringere Anpassungskapazität als LoRA — sie eignen sich für kleine Verhaltensänderungen, nicht für tiefere Spezialisierung.

  5. / 05Kann ich mehrere PEFT-Methoden kombinieren?

    Ja, das ist Forschungsthema (Hybrid-PEFT, MAM-Adapter, Adapter-Fusion). In der Praxis ist LoRA allein meist ausreichend. Wer letzte Prozente Qualität sucht, kann LoRA mit Prefix Tuning kombinieren — Aufwand und Komplexität steigen aber spürbar.

  6. / 06Wie spare ich Speicher mit PEFT?

    PEFT-Methoden frieren das Basismodell ein, lernen nur kleine Zusatzparameter. Das spart Optimizer-Zustände (die meist 2× größer sind als die Gewichte selbst) und Gradienten. Bei QLoRA kombiniert sich PEFT mit Quantisierung, was den Speicherbedarf weiter reduziert — siehe QLoRA und Quantisierung.

// Weiterlesen

Weiterlesen