Ausgangslage

Warum klassische Ansätze scheitern

Bestehende Lösungen umgehen das Problem — sie lösen es nicht.

Strukturverlust durch Chunking

Klassische RAG-Systeme linearisieren Tabellen in Fließtext. JOINs, Aggregationen und Fremdschlüssel gehen dabei verloren. Das System sieht nie die komplette Datenbasis.

Ergebnis: SUM über 500 Zeilen → falsch, weil nur Chunk 3 von 10 geladen

Zahlen werden generiert, nicht berechnet

LLMs sind probabilistische Textgeneratoren. Finanzkennzahlen, Summen und Ratios erfordern exakte symbolische Berechnung — keine approximative Textgenerierung.

Ergebnis: "Umsatz ca. 2,3 Mio. EUR" statt exakt berechneter 2.317.842 EUR

Datensouveränität nicht gewährleistet

Cloud-basierte Text-to-SQL-Dienste senden Datenbankmetadaten an externe Server. Für regulierte Branchen ist das kein Graubereich — es ist verboten.

Ergebnis: Banken, Versicherungen und Behörden sind strukturell ausgeschlossen

SQL-Fehler in realen Annotationen (61%)

Aktuelle Forschung (ReViSQL, UIUC 2026) zeigt: In 61% aller realen SQL-Trainingspaare steckt mindestens ein semantischer Fehler — fehlende DISTINCT, NULL-unsafe Aggregationen oder tie-unsichere Rankings. Komplexe Architekturen kompensieren diese Fehler nicht; saubere Daten und Prompts schon.

Parlance-Antwort: SQL Quality Engine + DB-Design-Check + verifizierte Prompt Library

4-Stufen-Agent

Die Architektur im Detail

Jede Anfrage durchläuft vier präzise definierte Stufen.
Klicken Sie auf eine Stufe für Details — oder animieren Sie die Pipeline.

Query Decomposition

Zerlegung der natürlichsprachlichen Frage

Context-Sensitive

Text Retrieval

Semantische Suche über Dokumente

RAG + Reranking

SQL Execution

Generierung und Ausführung von SQL

Read-Only

Answer Synthesis

Kreuzvalidierung und Antwortgenerierung

Cited & Audited

Beispiel-Datenbank

GlobalMach AG — Datenbankstruktur

Der Demo-Prototype zeigt eine fiktive Maschinenbau-Gruppe: 4 Tochtergesellschaften, 6 Märkte, 25 Produkte, 3 Jahre Transaktionsdaten. Klicken Sie auf eine Tabelle für Details.

4 Legal Entities

6 Märkte

25 Produkte

~11.000 Datensätze

3 Geschäftsjahre

Stammdaten

companies

4 Zeilen

countries

6 Zeilen

product_categories

3 Zeilen

products

25 Zeilen

customers

80 Zeilen

Transaktionen

sales_orders

~3.000 Zeilen

                  
sales_order_items
~8.000 Zeilen · Kern

sales_budget

Plan-Daten

Analyse & Governance

gross_margin_summary

Pre-aggregiert

audit_log

Governed SQL

product_costs

COGS je Jahr

Tabelle anklicken für Spalten-Details

💡

DB-Design ist kritisch für die SQL-Qualität. Sprechende Spaltennamen, konsistente Namenskonventionen und aussagekräftige Kommentare (wie in diesem Schema) sind Voraussetzung für präzise SQL-Generierung. Schlechtes Datenbankdesign ist die häufigste Ursache für schlechte Text-to-SQL-Ergebnisse — unabhängig vom verwendeten Modell.

Semantic Layer

Vom Geschäftsbegriff zur SQL-Expression

Der Semantic Layer ist die Brücke zwischen Geschäftssprache und Datenbankschema. Er definiert, was "Umsatz" bedeutet, welche Tabellen gejoint werden — und kennt alle Synonyme.

Geschäftsbegriffe anklicken:

Semantic Layer

Übersetzungsschicht

→

Live-Beispiel: Vollständige Anfrage-Übersetzung

Natürliche Sprache

"Wie hoch war der Umsatz und die Bruttomarge von GlobalMach DE in Q4 2024 im Vergleich zum Vorjahr?"

→

Generiertes SQL

SELECT
  so.fiscal_year,
  SUM(soi.net_amount_eur)            -- Umsatz
    AS revenue_eur,
  ROUND(
    SUM(soi.gross_profit_eur)
    / NULLIF(SUM(soi.net_amount_eur), 0)
    * 100, 2
  )                                  -- Bruttomarge %
    AS gross_margin_pct
FROM parlance.sales_orders so
JOIN parlance.sales_order_items soi
  ON so.id = soi.order_id
JOIN parlance.companies c
  ON so.company_id = c.id
WHERE c.code = 'GMDE'
  AND so.fiscal_quarter = 4
  AND so.fiscal_year IN (2023, 2024)
GROUP BY so.fiscal_year
ORDER BY so.fiscal_year;

Vektordatenbank & Feedback-Loop

Das System, das mit jeder Anfrage besser wird

Erfolgreiche SQL-Abfragen werden als Vektor gespeichert. Ähnliche Anfragen finden den gespeicherten SQL-Code — ohne ihn neu generieren zu müssen.

Anfrage wird zum Vektor

Das Embedding-Modell kodiert die Anfrage als numerischen Vektor. Semantisch ähnliche Anfragen landen im Vektorraum nah beieinander.

embedding("Umsatz Q4 2024")
[0.234, −0.712, 0.445, 0.089, −0.321, …]

k-Nearest-Neighbor-Suche

Im Vektorraum werden die k ähnlichsten gespeicherten Q&A-Paare gesucht. Diese werden als Few-Shot-Beispiele dem LLM mitgegeben — für bessere SQL-Qualität.

Erfolg wird gespeichert

Liefert der generierte SQL ein valides Ergebnis, wird das Paar (Anfrage → SQL) in der Vektordatenbank gespeichert. Es steht ab sofort künftigen Anfragen zur Verfügung.

Kontinuierliches Lernen

Mit jeder Nutzung wächst die Wissensbasis. Die Plattform wird schneller, präziser und auf das spezifische Schema des Kunden zugeschnitten — proprietäres IP-Asset.

Vektorraum-Simulation

Umsatz-Anfragen

Margen-Anfragen

Budget-Anfragen

Neue Anfrage

Governed SQL

Sicherheit und Nachvollziehbarkeit by Design

Parlance kontrolliert den gesamten Prozess von der Anfrage bis zum Ergebnis — Read-Only-Enforcement ist kein Feature, sondern Architekturprinzip.

Read-Only-Enforcement

Ausschließlich SELECT-Statements werden zugelassen. DML und DDL sind systemseitig blockiert — nicht konfigurierbar.

Retry-Logik

Schlägt ein generiertes SQL syntaktisch fehl, versucht das System bis zu 3× mit angepasster Formulierung. Erst bei validem Ergebnis wird in die Vektordatenbank gespeichert.

Vollständiges Audit-Log

Jede Anfrage wird mit Zeitstempel, User-ID, generiertem SQL, Retry-Count und Ergebnis-Zeilenanzahl in audit_log protokolliert und ist durchsuchbar.

On-Premises-Deployment

Weder Metadaten noch Nutzdaten verlassen die Kundeninfrastruktur. Der LLM-Server läuft lokal via Ollama oder LM-Studio — kein Cloud-API-Call mit Kundendaten.

SQL Quality Engine

Jedes generierte SQL wird automatisch auf die drei häufigsten Fehlerpatterns geprüft: fehlende DISTINCT-Klauseln bei JOINs, fehlende NULL-Behandlung vor Aggregationen und unsichere Ranking-Queries (LIMIT 1 ohne CTE). Reale Trainingsdaten enthalten diese Fehler in bis zu 61% der Fälle (ReViSQL, UIUC 2026).

Multi-Kandidaten-Reconciliation

Stage 3 generiert parallel 3 SQL-Kandidaten mit unterschiedlichen Sampling-Parametern. Alle validen Kandidaten werden ausgeführt, nach Ergebnis gruppiert und per Majority Voting entschieden. Das reduziert die Wahrscheinlichkeit zufälliger Fehler um 4–14% gegenüber Single-Shot-Generierung (ReViSQL, arXiv:2603.20004).

audit_log — Echtzeit-Protokoll ● LIVE

Wissenschaftliche Grundlage

Peer-reviewed validiert — nicht nur versprochen

Parlances Kernthesen werden durch aktuelle Forschung an führenden Universitäten bestätigt.

ReViSQL — UIUC, März 2026

These 1 validiert: 61,1% aller BIRD-Train-Instanzen enthalten mindestens einen SQL-Fehler. Datenqualität ist der kritischste Engpass — nicht Architekturkomplexität. Parlances DB-Design-Check und Prompt Library adressieren genau das.

Paper: ReViSQL: Achieving Human-Level Text-to-SQL (arXiv:2603.20004)

Inferenz-Zeit-Skalierung +4–14%

These 2 validiert: Multi-Candidate-Generierung mit Reconciliation verbessert die Accuracy um 4,4–13,6% gegenüber Single-Shot-Generierung — besonders bei komplexen oder mehrdeutigen Fragen. Parlance setzt dieses Verfahren in Stage 3 um.

Methode: 3 Kandidaten · Majority Voting · Reconciliation-Gruppen

Prompt Library = akkumuliertes IP

These 3 validiert: Verifizierte SQL-Trainingspaare sind 21,9% aggregationsreicher und enthalten 66,8% mehr Subqueries als rohe Daten. Jedes verifizierte Paar in der Parlance Prompt Library ist wertvoller als ein roher LLM-Output — und schwer kopierbar.

Implikation: 8–14% Accuracy-Vorteil allein durch Datenqualität

🔬

Parlance ist auf aktuellem Forschungsstand. Die Architektur baut auf TableRAG (EMNLP 2025, arXiv:2506.10380) und ReViSQL (UIUC, arXiv:2603.20004) auf — zwei der einflussreichsten aktuellen Papers im Text-to-SQL-Bereich. Unsere Positionierung ("Metadaten-Qualität schlägt Architekturkomplexität") ist peer-reviewed validiert.

Fragen stellen.
Antworten berechnen.

Warum klassische Ansätze scheitern

Strukturverlust durch Chunking

Zahlen werden generiert, nicht berechnet

Datensouveränität nicht gewährleistet

SQL-Fehler in realen Annotationen (61%)

Die Architektur im Detail

GlobalMach AG — Datenbankstruktur

Vom Geschäftsbegriff zur SQL-Expression

Das System, das mit jeder Anfrage besser wird

Anfrage wird zum Vektor

k-Nearest-Neighbor-Suche

Erfolg wird gespeichert

Kontinuierliches Lernen

Sicherheit und Nachvollziehbarkeit by Design

Read-Only-Enforcement

Retry-Logik

Vollständiges Audit-Log

On-Premises-Deployment

SQL Quality Engine

Multi-Kandidaten-Reconciliation

Peer-reviewed validiert — nicht nur versprochen

ReViSQL — UIUC, März 2026

Inferenz-Zeit-Skalierung +4–14%

Prompt Library = akkumuliertes IP

Erleben Sie Parlance
in Aktion.

Fragen stellen. Antworten berechnen.

Warum klassische Ansätze scheitern

Strukturverlust durch Chunking

Zahlen werden generiert, nicht berechnet

Datensouveränität nicht gewährleistet

SQL-Fehler in realen Annotationen (61%)

Die Architektur im Detail

GlobalMach AG — Datenbankstruktur

Vom Geschäftsbegriff zur SQL-Expression

Das System, das mit jeder Anfrage besser wird

Anfrage wird zum Vektor

k-Nearest-Neighbor-Suche

Erfolg wird gespeichert

Kontinuierliches Lernen

Sicherheit und Nachvollziehbarkeit by Design

Read-Only-Enforcement

Retry-Logik

Vollständiges Audit-Log

On-Premises-Deployment

SQL Quality Engine

Multi-Kandidaten-Reconciliation

Peer-reviewed validiert — nicht nur versprochen

ReViSQL — UIUC, März 2026

Inferenz-Zeit-Skalierung +4–14%

Prompt Library = akkumuliertes IP

Erleben Sie Parlance in Aktion.

Fragen stellen.
Antworten berechnen.

Erleben Sie Parlance
in Aktion.