SQL

relationale Datenbank-Abfragesprache
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 30. Juni 2005 um 11:47 Uhr durch Ingo Federenko (Diskussion | Beiträge) ([[Transaktion (Informatik)|Transaktion]], [[Commit]] und [[Rollback]]). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Structured Query Language (SQL), zu deutsch strukturierte Abfragesprache, ist eine Abfragesprache für Relationale Datenbanken. Sie hat eine relativ einfache Syntax, die an die englische Umgangssprache angelehnt ist, und stellt eine Reihe von Befehlen zur Definition von Datenstrukturen nach der Relationalen Algebra zur Manipulation von Datenbeständen (Anfügen, Bearbeiten und Löschen von Datensätzen) und zur Abfrage von Daten zur Verfügung. Durch ihre Rolle als Quasi-Standard ist SQL von großer Bedeutung, da eine weitgehende Unabhängigkeit von der benutzten Software erzielt werden kann. Die meisten SQL-Implementierungen bieten darüber hinaus allerdings noch herstellerspezifische Erweiterungen, die nicht dem Standard-Sprachumfang entsprechen.

Viele bekannte Datenbanksysteme wie DB2, Microsoft SQL Server, MySQL, Oracle, PostgreSQL, Borland Interbase, Firebird und die neueren Versionen von Access implementieren Teile des SQL Sprachstandards.


Sprachschichten und Beispiele

Die Datenbanksprache SQL lässt sich in vier eigenständige Sprachschichten einteilen: die Data Query Language (DQL, Datenabfrage), die Data Control Language (DCL, Rechteverwaltung), die Data Manipulation Language (DML, Datenmanipulation) und die Data Definition Language (DDL, Datendefinition).

Data Query Language: SELECT

Befehle zur Datenabfrage

  • SELECT Name, Vorname FROM Adressen;
Listet alle Werte der Spalten Name und Vorname der Tabelle Adressen.
  • SELECT a.Name, a.Vorname, a.Plz, a.Ort FROM Adressen a NATURAL JOIN Namenliste;
Listet die Werte der Spalten Name, Vorname, Plz und Ort aus der Tabelle Adressen für alle Namen die auch in der Tabelle Namenliste vorkommen auf.
  • SELECT Jahr, Quartal, SUM(Betrag) AS Umsatz FROM Rechnung GROUP BY Jahr, Quartal;
Summiert die Spalte Betrag der Tabelle Rechnung und listet das Ergebnis Quartalsweise.
  • SELECT * FROM Adressen;
Listet die Werte aller Spalten.
  • SELECT a.Strasse FROM Adressen a LEFT OUTER JOIN Leute l ON l.Strasse=a.Strasse WHERE l.Strasse IS NULL;
Listet alle Straßen auf, in denen niemand wohnt.

Weitere: GROUP BY, HAVING ...

Data Manipulation Language: INSERT, UPDATE, DELETE

Befehle zur Datenmanipulation

  • insert into Adressen (Name, Vorname, Ort) values ('Schroeder', 'Kurt', 'Köln');
Fügt eine Zeile mit den geg. Werten für die Spalten Name, Vorname und Ort in die Tabelle Adressen hinzu.
  • insert into Adressen values ('Schroeder', 'Knut', 'Köln');
Beim insert-Statement kann die erste Klammer mit den Attribut-Namen auch weggelassen und direkt mit values() die Werte eingefügt werden. Allerdings müssen dann die Werte in der gleichen Reihenfolge wie in der Tabellendefinition angegeben werden.
  • insert into Adressen (Name, Vorname, Ort) select Nachname, Vorname, Ort from Alte_Adressen;
Lädt alle Adressen aus der Tabelle Alte_Adressen in die Tabelle Adressen.
  • update Adressen set Ort='Berlin', Telefon='030...' where Name='Schroeder';
Ändert den Wert in der Spalte Ort aller Einträge auf "Berlin" (Telefon auf ... usw), wenn der Wert in der Spalte Name "Schroeder" lautet.
  • delete from Adressen;
Löscht alle Zeilen aus der Tabelle Adressen.
  • truncate table Adressen;
Wie oben, aber nur von einigen DBMS unterstützt. Im Gegensatz zu delete nicht transaktionssicher.
  • delete from Adressen where name='Müller';
Löscht alle Zeilen aus der Tabelle Adressen, deren Wert in der Spalte Name "Müller" lautet.

Data Definition Language: CREATE, ALTER, DROP

Befehle zur Datendefinition

  • create table Laender (Kuerzel_ISO character(2) primary key, Land_Name varchar(50) not null);
Erzeugt eine neue Tabelle namens Laender mit den Spalten Kuerzel_ISO und Land_Name, wobei Kuerzel_ISO der Primärschlüssel ist und in keiner der Spalten leere Felder erlaubt sind.
  • alter table Laender add Kuerzel_Auto varchar(3);
Definiert eine neue Spalte namens Kuerzel_Auto in der Tabelle Laender.
  • drop table Adressen;
Löscht die gesamte Tabelle Adressen.
  • create index idx_Adressen on Adressen (Name);
Legt einen Index auf die Spalte Name der Tabelle Adressen. Der Index bekommt die Bezeichnung idx_Adressen und beschleunigt die Suche nach Datensätzen in der Tabelle Adressen, wenn der Name als Suchkriterium angegeben wird.
  • drop index idx_Adressen;
Löscht den Index idx_Adressen.

Data Control Language: GRANT and REVOKE

Befehle zur Vergabe von Rechten

  • grant select,update on table Adressen to groupx;
Gestattet dem Benutzer bzw. der Gruppe groupx einen lesenden und ändernden Zugriff auf die Tabelle Adressen.
  • revoke execute on procedure DSN8ED6 from public;
Entzieht allen nicht explizit berechtigten Benutzern das Recht, die Stored-Procedure DSN8ED6 auszuführen. Berechtigungen, die einem Benutzer oder einer Gruppe erteilt wurden, bleiben bestehen.

SQL-Datentypen

In den oben vorgestellten Befehlen create table und alter table wird bei der Definition jeder Spalte angegeben, welches Datenformat sie unterstützen soll. Dazu liefert SQL eine ganze Reihe standardisierter Datentypen mit. Die wichtigsten sind:

Ganze Zahl (positiv oder negativ)
  • number (n)
Ganze Zahl (positiv oder negativ) mit maximal n Stellen
  • number (n, m)
Festkommazahl (positiv oder negativ) mit maximal n Stellen, davon m nach dem Komma
  • float (m)
Gleitkommazahl (positiv oder negativ) mit maximal m Stellen nach dem Komma
  • character (n)
Zeichenkette (also Text) mit n druckbaren und/oder nicht druckbaren Zeichen
  • varchar (n), varchar2 (n)
Zeichenkette (also Text) von variabler Länge, aber maximal n druckbaren und/oder nicht druckbaren Zeichen. Die Variante varchar2 ist für Oracle spezifisch.
  • date
Datum (bei Oracle inklusive Uhrzeit)
  • boolean
Boolesche Variable (kann die Werte true (wahr) oder false (falsch) annehmen). Dieser Datentyp fehlt in Oracle.
  • raw (n)
Binärdaten von maximal n Bytes Länge.

Fachbegriffe

Die folgenden Fachbegriffe sind zum Verständnis von SQL hilfreich. Sie sind jedoch auch als eigenständige Begriffe der Informatik bedeutsam und werden nicht nur im Kontext von SQL verwendet.

In jeder Tabelle sollte grundsätzlich ein Primärschlüssel (Primarykey) definiert werden. Dieser ist entweder der natürliche Schlüssel der Tabelle oder ein künstlicher, beispielsweise ein Zähler, der pro Datensatz hoch gezählt wird. Dieser Schlüssel ermöglicht es, dass jeder Datensatz innerhalb der Tabelle eindeutig ist. Über den Schlüssel kann man den Datensatz eindeutig identifizieren. Ein Primärschlüssel kann auch aus mehreren Attributen (Spalten) der Tabelle bestehen (zusammengesetzter Primärschlüssel). In dieser Tabelle haben je zwei Datensätze immer auch unterschiedliche Schlüssel.

Der Primärschlüssel muss aus einem Merkmal oder einer minimalen Merkmalskombination (bei zusammengesetzten Primärschlüsseln) bestehen. Die Bedingung der minimalen Merkmalskombination bei zusammengesetzten Primärschlüsseln bedeutet, dass ein Teil (Merkmal) des zusammengesetzten Schlüssels nicht reichen darf, um ein Tupel eindeutig zu identifizieren.

Fremdschlüssel (auch Foreign Key genannt) bezeichnen im Bereich der relationalen Datenbanken ein Attribut einer Relation (Tabelle), das auf den Primärschlüssel einer anderen Relation verweist. Ein Fremdschlüssel kann, muss aber nicht Primärschlüssel seiner Relation sein.


Loggt man sich in eine Datenbank ein, kann man Änderungen an den Tabellen oder den Daten vornehmen. Grundsätzlich ist in einer relationalen Datenbank alles innerhalb einer Transaktion zu sehen.

Datenbanken erlauben zum Teil bestimmte Befehle ausserhalb einer Transaktion auszuführen. Darunter fällt insbesondere das Laden von Tabellen, oder das Entfernen von Daten mittels Utilities. Manche DBMS erlauben das temporäre Abschalten der Transaktionslogik sowie einiger Kontrollen zur Erhöhung der Verarbeitungsgeschwindigkeit. Dies muss allerdings meist durch einen Befehl erzwungen werden, um ein versehentliches Ändern von Daten ausserhalb einer Transaktion zu vermeiden. Solche Änderungen können, falls eine Datenbankwiederherstellung erforderlich ist, zu schweren Problemen oder Datenverlust führen. Eine Transaktion beendet man mit dem Befehl Commit. Mit dem Befehl Rollback wird die Transaktion ebenfalls beendet, es werden jedoch alle (Daten-)Änderungen seit Beginn der Transaktion wieder rückgängig gemacht. Technische Änderungen bleiben in der Regel erhalten (so genannte Kompaktierung, compaction).

Eine nicht Übereinstimmung von Daten nennt man Dateninkonsistenz. Das passiert immer dann, wenn bspw. eine Tabelle auf einen Wert einer anderen Tabelle weist, dieser Wert jedoch nicht mehr vorhanden oder geändert worden ist.

Die häufigsten Gründe für Dateninkonsistenzen sind falsche Analyse des Datenmodells während der Normalisierung des ERM oder Fehler in der Programmierung.

Zum letzteren gehören die Lost-Update-Phänomene sowie die Verarbeitung von zwischenzeitlich veralteten Zwischenergebnissen. Dies tritt vor allem bei Online-Verarbeitung auf, da dem Nutzer angezeigte Werte nicht transaktionsmäßig gekapselt werden können.

Beispiel:
Transaktion A liest Wert x
Transaktion B verringert Wert x um 10
Transaktion A erhöht den gespeicherten Wert von x um eins und schreibt zurück
Ergebnis x' = x+1
Die Änderung von B ist verloren gegangen

Von referentieller Integrität spricht man, wenn jeder Fremdschlüssel einer Tabelle einen entsprechenden Primärschlüssel einer anderen Tabelle zugeordnet, oder der Wert des Fremdschlüssels NULL ist.

Um eine Dateninkonsistenz zu vermeiden, verknüpft man die Tabellen untereinander. Über die Verbindung mit Fremdschlüssen kann man nun angeben, was passieren soll, wenn ein verknüpfter Datensatz gelöscht oder geändert wird. Beim Löschen kann man zum Beispiel eine Kaskadierung des Löschens auf alle über Fremdschlüssel verknüpften Datensätze oder das Verbieten des Löschvorgangs erreichen. Beim Update kann man die Änderung in den referenzierenden Tabellen ebenfalls durchführen.

Ein Update von Primärschlüsseln (PK-Update) ist zwar von Codd vorgesehen, er widerspricht jedoch gleichzeitig der Notwendikeit eines PK-Updates, da ein Primäschlüssel stets unveränderlich ist.

Ein Grundsatz einer Datenbank ist, dass innerhalb einer Datenbank keine Redundanzen auftreten sollen. Man spricht dann von einer redundanzfreien Datenbank. Dies geschieht durch die Normalisierung.

Da eine Datenbank, die allen Anforderungen der 3. oder sogar 5. Normalform entspricht, in der Praxis bedingt durch Performanceprobleme nicht zu verwenden wäre, werden nachträglich Redundanzen bewusst in Kauf genommen, um zeitaufwändige und komplexe Joins zu verkürzen und so die Geschwindigkeit der Abfragen zu erhöhen. Man spricht auch von einer Denormalisierung einer Datenbank.

Statisches und dynamisches SQL

Die meisten Datenbanken, welche SQL unterstützen, unterscheiden zwischen statischem und dynamischem SQL. Bei statischem SQL sind die SQL-Anweisungen fest in einem Anwendungsprogramm kodiert (so genanntes Embedded SQL). Während der Programmvorbereitung übersetzt ein Precompiler die SQL-Befehle in Funktionsaufrufe, anschließend definiert ein Anfrageoptimierer den besten Zugriffspfad auf die Daten und speichert diesen im Datenbanksystem ab.

Dynamisches SQL wird dagegen während der Laufzeit eines Programms interpretiert und der Zugriffspfad wird bei jedem Durchlauf neu optimiert. Da im Durchschnitt der Parsevorgang einer SQL-Anweisung etwa ein Drittel der gesamten Laufzeit in Anspruch nimmt, puffern jedoch viele Datenbanken die bereits geparsten SQL-Anweisungen um, falls sie sich wiederholen, die Zeit für ein erneutes Parsen zu sparen.

Beide Arten von SQL haben ihre Vor- und Nachteile. Statisches SQL mit voroptimierten Zugriffen verhindert unliebsame Überraschungen, da der Ausführungsplan nur bei einem sog. Rebind neu berechnet wird. Statisches SQL wird heute fast nur noch (und dort auch vorwiegend) in Mainframe Umgebungen verwendet. In den meisten anderen Umgebungen kommt dynamisches SQL zum Einsatz, welches erlaubt Abfragen innerhalb eines Programms zu generieren.

Der Ausführungsplan von dynamischem SQL wird (falls ein kostenbasierter Anfrageoptimierer verwendet wird) anhand von vorhandenen Tabellenstatistiken berechnet. Fehlen diese Statistiken oder sind sie falsch bzw. veraltet, ist der Ausführungsplan unperformant und führt meist zu unnötig langen Antwortzeiten.

Erweiterungen

Es existieren eine Vielzahl von Erweiterungen des SQL-Standards.

SQL/XML ist ein ANSI und ISO Standard (ISO/IEC 9075-14), der es ermöglicht, XML-Dokumente in SQL-Datenbanken zu speichern, mit XPath und XQuery abzufragen und relationale Datenbankinhalte als XML zu exportieren. [1] Der ISO-Standard ist nicht frei verfügbar, jedoch gibt es ein zip Archiv mit einer Draft-Version von 2003.

Siehe auch

Literatur

Obwohl bereits etwas betagt, ist dieses Buch gerade als wissenschaftlich fundierte und trotzdem leicht verständliche Einführung in SQL sehr zu empfehlen.

Vorlage:Wikibooks1