Structured Query Language (SQL), zu deutsch strukturierte Abfragesprache, ist eine Abfragesprache für Relationale Datenbanken. Sie hat eine relativ einfache Syntax, die an die englische Umgangssprache angelehnt ist, und stellt eine Reihe von Befehlen zur Definition von Datenstrukturen nach der Relationalen Algebra zur Manipulation von Datenbeständen (Anfügen, Bearbeiten und Löschen von Datensätzen) und zur Abfrage von Daten zur Verfügung. Durch ihre Rolle als Quasi-Standard ist SQL von großer Bedeutung, da eine weitgehende Unabhängigkeit von der benutzten Software erzielt werden kann. Die meisten SQL-Implementierungen bieten darüber hinaus allerdings noch herstellerspezifische Erweiterungen, die nicht dem Standard-Sprachumfang entsprechen.
Viele bekannte Datenbanksysteme wie DB2, Microsoft SQL Server, MySQL, Oracle, PostgreSQL, Borland Interbase, Firebird und die neueren Versionen von Access implementieren Teile des SQL Sprachstandards.
Sprachschichten und Beispiele
Die Datenbanksprache SQL lässt sich in vier eigenständige Sprachschichten einteilen: die Data Query Language (DQL, Datenabfrage), die Data Control Language (DCL, Rechteverwaltung), die Data Manipulation Language (DML, Datenmanipulation) und die Data Definition Language (DDL, Datendefinition).
Data Query Language: SELECT
Befehle zur Datenabfrage
SELECT Name, Vorname FROM Adressen;
- Listet alle Werte der Spalten Name und Vorname der Tabelle Adressen.
SELECT a.Name, a.Vorname, a.Plz, a.Ort FROM Adressen a NATURAL JOIN Namenliste;
- Listet die Werte der Spalten Name, Vorname, Plz und Ort aus der Tabelle Adressen für alle Namen die auch in der Tabelle Namenliste vorkommen auf.
SELECT Jahr, Quartal, SUM(Betrag) AS Umsatz FROM Rechnung GROUP BY Jahr, Quartal;
- Summiert die Spalte Betrag der Tabelle Rechnung und listet das Ergebnis Quartalsweise.
SELECT * FROM Adressen;
- Listet die Werte aller Spalten.
SELECT a.Strasse FROM Adressen a LEFT OUTER JOIN Leute l ON l.Strasse=a.Strasse WHERE l.Strasse IS NULL;
- Listet alle Straßen auf, in denen niemand wohnt.
Weitere: GROUP BY
, HAVING
...
Data Manipulation Language: INSERT, UPDATE, DELETE
Befehle zur Datenmanipulation
insert into Adressen (Name, Vorname, Ort) values ('Schroeder', 'Kurt', 'Köln');
- Fügt eine Zeile mit den geg. Werten für die Spalten Name, Vorname und Ort in die Tabelle Adressen hinzu.
insert into Adressen values ('Schroeder', 'Knut', 'Köln');
- Beim insert-Statement kann die erste Klammer mit den Attribut-Namen auch weggelassen und direkt mit values() die Werte eingefügt werden. Allerdings müssen dann die Werte in der gleichen Reihenfolge wie in der Tabellendefinition angegeben werden.
insert into Adressen (Name, Vorname, Ort) select Nachname, Vorname, Ort from Alte_Adressen;
- Lädt alle Adressen aus der Tabelle Alte_Adressen in die Tabelle Adressen.
update Adressen set Ort='Berlin', Telefon='030...' where Name='Schroeder';
- Ändert den Wert in der Spalte Ort aller Einträge auf "Berlin" (Telefon auf ... usw), wenn der Wert in der Spalte Name "Schroeder" lautet.
delete from Adressen;
- Löscht alle Zeilen aus der Tabelle Adressen.
truncate table Adressen;
- Wie oben, aber nur von einigen DBMS unterstützt. Im Gegensatz zu delete nicht transaktionssicher.
delete from Adressen where name='Müller';
- Löscht alle Zeilen aus der Tabelle Adressen, deren Wert in der Spalte Name "Müller" lautet.
Data Definition Language: CREATE, ALTER, DROP
Befehle zur Datendefinition
create table Laender (Kuerzel_ISO character(2) primary key, Land_Name varchar(50) not null);
- Erzeugt eine neue Tabelle namens Laender mit den Spalten Kuerzel_ISO und Land_Name, wobei Kuerzel_ISO der Primärschlüssel ist und in keiner der Spalten leere Felder erlaubt sind.
alter table Laender add Kuerzel_Auto varchar(3);
- Definiert eine neue Spalte namens Kuerzel_Auto in der Tabelle Laender.
drop table Adressen;
- Löscht die gesamte Tabelle Adressen.
create index idx_Adressen on Adressen (Name);
- Legt einen Index auf die Spalte Name der Tabelle Adressen. Der Index bekommt die Bezeichnung idx_Adressen und beschleunigt die Suche nach Datensätzen in der Tabelle Adressen, wenn der Name als Suchkriterium angegeben wird.
drop index idx_Adressen;
- Löscht den Index idx_Adressen.
Data Control Language: GRANT and REVOKE
Befehle zur Vergabe von Rechten
grant select,update on table Adressen to groupx;
- Gestattet dem Benutzer bzw. der Gruppe groupx einen lesenden und ändernden Zugriff auf die Tabelle Adressen.
revoke execute on procedure DSN8ED6 from public;
- Entzieht allen nicht explizit berechtigten Benutzern das Recht, die Stored-Procedure DSN8ED6 auszuführen. Berechtigungen, die einem Benutzer oder einer Gruppe erteilt wurden, bleiben bestehen.
SQL-Datentypen
In den oben vorgestellten Befehlen create table
und alter table
wird bei der Definition jeder Spalte angegeben, welches Datenformat sie unterstützen soll. Dazu liefert SQL eine ganze Reihe standardisierter Datentypen mit. Die wichtigsten sind:
- Ganze Zahl (positiv oder negativ)
number (n)
- Ganze Zahl (positiv oder negativ) mit maximal
n
Stellen
number (n, m)
- Festkommazahl (positiv oder negativ) mit maximal
n
Stellen, davonm
nach dem Komma
float (m)
- Gleitkommazahl (positiv oder negativ) mit maximal
m
Stellen nach dem Komma
character (n)
- Zeichenkette (also Text) mit
n
druckbaren und/oder nicht druckbaren Zeichen
varchar (n)
,varchar2 (n)
- Zeichenkette (also Text) von variabler Länge, aber maximal
n
druckbaren und/oder nicht druckbaren Zeichen. Die Variantevarchar2
ist für Oracle spezifisch.
date
- Datum (bei Oracle inklusive Uhrzeit)
boolean
- Boolesche Variable (kann die Werte
true
(wahr) oderfalse
(falsch) annehmen). Dieser Datentyp fehlt in Oracle.
raw (n)
- Binärdaten von maximal
n
Bytes Länge.
Fachbegriffe
Die folgenden Fachbegriffe sind zum Verständnis von SQL hilfreich. Sie sind jedoch auch als eigenständige Begriffe der Informatik bedeutsam und werden nicht nur im Kontext von SQL verwendet.
In jeder Tabelle sollte grundsätzlich ein Primärschlüssel (Primarykey) definiert werden. Dieser ist entweder der natürliche Schlüssel der Tabelle oder ein künstlicher, beispielsweise ein Zähler, der pro Datensatz hoch gezählt wird. Dieser Schlüssel ermöglicht es, dass jeder Datensatz innerhalb der Tabelle eindeutig ist. Über den Schlüssel kann man den Datensatz eindeutig identifizieren. Ein Primärschlüssel kann auch aus mehreren Attributen (Spalten) der Tabelle bestehen (zusammengesetzter Primärschlüssel). In dieser Tabelle haben je zwei Datensätze immer auch unterschiedliche Schlüssel.
Der Primärschlüssel muss aus einem Merkmal oder einer minimalen Merkmalskombination (bei zusammengesetzten Primärschlüsseln) bestehen. Die Bedingung der minimalen Merkmalskombination bei zusammengesetzten Primärschlüsseln bedeutet, dass ein Teil (Merkmal) des zusammengesetzten Schlüssels nicht reichen darf, um ein Tupel eindeutig zu identifizieren.
Fremdschlüssel (auch Foreign Key genannt) bezeichnen im Bereich der relationalen Datenbanken ein Attribut einer Relation (Tabelle), das auf den Primärschlüssel einer anderen Relation verweist. Ein Fremdschlüssel kann, muss aber nicht Primärschlüssel seiner Relation sein.
Transaktion, Commit und Rollback
Loggt man sich in eine Datenbank ein, kann man Änderungen an den Tabellen oder den Daten vornehmen. Grundsätzlich ist in einer relationalen Datenbank alles innerhalb einer Transaktion zu sehen.
Datenbanken erlauben zum Teil bestimmte Befehle ausserhalb einer Transaktion auszuführen. Darunter fällt insbesondere das Laden von Tabellen, oder das Entfernen von Daten mittels Utilities. Manche DBMS erlauben das temporäre Abschalten der Transaktionslogik sowie einiger Kontrollen zur Erhöhung der Verarbeitungsgeschwindigkeit. Dies muss allerdings meist durch einen Befehl erzwungen werden, um ein versehentliches Ändern von Daten ausserhalb einer Transaktion zu vermeiden. Solche Änderungen können, falls eine Datenbankwiederherstellung erforderlich ist, zu schweren Problemen oder Datenverlust führen.
Eine Transaktion beendet man mit dem Befehl Commit
.
Mit dem Befehl Rollback
wird die Transaktion ebenfalls beendet, es werden jedoch alle (Daten-)Änderungen seit Beginn der Transaktion wieder rückgängig gemacht. Technische Änderungen bleiben in der Regel erhalten (so genannte Kompaktierung, compaction).
Eine nicht Übereinstimmung von Daten nennt man Dateninkonsistenz. Das passiert immer dann, wenn bspw. eine Tabelle auf einen Wert einer anderen Tabelle weist, dieser Wert jedoch nicht mehr vorhanden oder geändert worden ist.
Die häufigsten Gründe für Dateninkonsistenzen sind falsche Analyse des Datenmodells während der Normalisierung des ERM oder Fehler in der Programmierung.
Zum letzteren gehören die Lost-Update-Phänomene sowie die Verarbeitung von zwischenzeitlich veralteten Zwischenergebnissen. Dies tritt vor allem bei Online-Verarbeitung auf, da dem Nutzer angezeigte Werte nicht transaktionsmäßig gekapselt werden können.
Beispiel: Transaktion A liest Wert x Transaktion B verringert Wert x um 10 Transaktion A erhöht den gespeicherten Wert von x um eins und schreibt zurück Ergebnis x' = x+1 Die Änderung von B ist verloren gegangen
Von referentieller Integrität spricht man, wenn jeder Fremdschlüssel einer Tabelle einen entsprechenden Primärschlüssel einer anderen Tabelle zugeordnet, oder der Wert des Fremdschlüssels NULL ist.
Um eine Dateninkonsistenz zu vermeiden, verknüpft man die Tabellen untereinander. Über die Verbindung mit Fremdschlüssen kann man nun angeben, was passieren soll, wenn ein verknüpfter Datensatz gelöscht oder geändert wird. Beim Löschen kann man zum Beispiel eine Kaskadierung des Löschens auf alle über Fremdschlüssel verknüpften Datensätze oder das Verbieten des Löschvorgangs erreichen. Beim Update kann man die Änderung in den referenzierenden Tabellen ebenfalls durchführen.
Ein Update von Primärschlüsseln (PK-Update) ist zwar von Codd vorgesehen, er widerspricht jedoch gleichzeitig der Notwendikeit eines PK-Updates, da ein Primäschlüssel stets unveränderlich ist.
Ein Grundsatz einer Datenbank ist, dass innerhalb einer Datenbank keine Redundanzen auftreten sollen. Man spricht dann von einer redundanzfreien Datenbank. Dies geschieht durch die Normalisierung.
Da eine Datenbank, die allen Anforderungen der 3. oder sogar 5. Normalform entspricht, in der Praxis bedingt durch Performanceprobleme nicht zu verwenden wäre, werden nachträglich Redundanzen bewusst in Kauf genommen, um zeitaufwändige und komplexe Joins zu verkürzen und so die Geschwindigkeit der Abfragen zu erhöhen. Man spricht auch von einer Denormalisierung einer Datenbank.
Statisches und dynamisches SQL
Die meisten Datenbanken, welche SQL unterstützen, unterscheiden zwischen statischem und dynamischem SQL. Bei statischem SQL sind die SQL-Anweisungen fest in einem Anwendungsprogramm kodiert (so genanntes Embedded SQL). Während der Programmvorbereitung übersetzt ein Precompiler die SQL-Befehle in Funktionsaufrufe, anschließend definiert ein Anfrageoptimierer den besten Zugriffspfad auf die Daten und speichert diesen im Datenbanksystem ab.
Dynamisches SQL wird dagegen während der Laufzeit eines Programms interpretiert und der Zugriffspfad wird bei jedem Durchlauf neu optimiert. Da im Durchschnitt der Parsevorgang einer SQL-Anweisung etwa ein Drittel der gesamten Laufzeit in Anspruch nimmt, puffern jedoch viele Datenbanken die bereits geparsten SQL-Anweisungen um, falls sie sich wiederholen, die Zeit für ein erneutes Parsen zu sparen.
Beide Arten von SQL haben ihre Vor- und Nachteile. Statisches SQL mit voroptimierten Zugriffen verhindert unliebsame Überraschungen, da der Ausführungsplan nur bei einem sog. Rebind neu berechnet wird. Statisches SQL wird heute fast nur noch (und dort auch vorwiegend) in Mainframe Umgebungen verwendet. In den meisten anderen Umgebungen kommt dynamisches SQL zum Einsatz, welches erlaubt Abfragen innerhalb eines Programms zu generieren.
Der Ausführungsplan von dynamischem SQL wird (falls ein kostenbasierter Anfrageoptimierer verwendet wird) anhand von vorhandenen Tabellenstatistiken berechnet. Fehlen diese Statistiken oder sind sie falsch bzw. veraltet, ist der Ausführungsplan unperformant und führt meist zu unnötig langen Antwortzeiten.
Erweiterungen
Es existieren eine Vielzahl von Erweiterungen des SQL-Standards.
SQL/XML ist ein ANSI und ISO Standard (ISO/IEC 9075-14), der es ermöglicht, XML-Dokumente in SQL-Datenbanken zu speichern, mit XPath und XQuery abzufragen und relationale Datenbankinhalte als XML zu exportieren. [1] Der ISO-Standard ist nicht frei verfügbar, jedoch gibt es ein zip Archiv mit einer Draft-Version von 2003.
Siehe auch
Literatur
- Günter Matthiessen, Michael Unterstein: Relationale Datenbanken und SQL - Konzepte der Entwicklung und Anwendung, Addison-Wesley, ISBN 3-8273-2085-2
- Edwin Schicker: Datenbanken und SQL - Eine praxisorientierte Einführung, Teubner, ISBN 3-519-02991-X
- Obwohl bereits etwas betagt, ist dieses Buch gerade als wissenschaftlich fundierte und trotzdem leicht verständliche Einführung in SQL sehr zu empfehlen.
- Oliver Bartosch, Markus Throll: Einstieg in SQL, Galileo Press, ISBN 3-89842-497-9
- Daniel Warner, Günter Leitenbauer: SQL, Franzis, ISBN 3-7723-7527-8
- Jörg Fritze, Jürgen Marsch: Erfolgreiche Datenbankanwendung mit SQL3. Praxisorientierte Anleitung - effizienter Einsatz - inklusive SQL-Tuning, Vieweg Verlag, ISBN 3-528-55210-7
- Can Türker: SQL 1999 & SQL 2003, Dpunkt Verlag, ISBN 3-89864-219-4
- Gregor Kuhlmann, Friedrich Müllmerstadt: SQL, Rowohlt, ISBN 3-499-61245-3
- Michael J. Hernandez, John L. Viescas: Go To SQL, Addison-Wesley, ISBN 3-8273-1772-X