Wikipedia:Technik/Cloud/quarry
Vorlage:Überschriftensimulation 1
Quarry[1] ist eine seit Ende 2014 verfügbare Schnittstelle, mit der alle angemeldeten WMF-Benutzer via Labs und SQL Datenbankabfragen zu den Wikis ausführen können.
Die Anfrage geht nicht an die produktiven Wiki-Versionen, sondern an Replikate, die mit leichter Verzögerung oder auch mal größerer Verspätung aktualisiert werden.
Nicht verfügbar sind die eigentlichen textlichen Inhalte der Seiten; hingegen alle Meta-Informationen über das Projekt und die enthaltenen Seiten, namentlich:
- Seiteninformationen
- Versionsgeschichte nebst Bearbeitungskommentaren
- Außenwirkung einer Seite, wie:
- eingebundene Vorlagen und Module
- eingebundene Medien (Bider)
- externe Links („Weblinks“): Verlinkung per URL
- Kategorisierung
- Interlanguages
- Links auf diese Seite
- Logbuch-Informationen
- Benutzerinfos
- Allgemeine Projektkonfiguration und Statistik
Nicht enthalten sind bewusst für die Öffentichkeit gesperrte Informationen, wie Versionslöschungen usw.
Benutzeranmeldung
Der Zugang erfolgt über OAuth, wodurch der Quarry-Zugriff mit dem Wikipedia-Benutzerkonto verbunden wird.
Registrierung als normaler Wiki-Benutzer:
- Zunächst bei meta: (meta.wikimedia.org) anmelden.
- quarry.wmflabs.org besuchen.
- Login with Wikimedia anklicken.
- Es erscheint eine OAuth-Rückfrage für SQL Quarry.
- Dieser wäre dann wohl zuzustimmen.
- Auf meta:Special:Preferences unter Connected apps kann die Zustimmung auch wieder deaktiviert werden (auf jedem anderen Wiki auch).
Benutzerprofil
Jeder Benutzer kann die persönlichen Abfragen, Entwürfe dazu sowie publizierte Abfragen individuell verwalten.
Abfragen
Über New Query gelangt man in den Eingabemodus. Unten auf schwarzem Hintergrund befindet sich die interaktive Konsole.
Konsole
Die deutschsprachige Wikipedia muss zunächst ausgewählt werden mittels:
USE dewiki_p;
Die Abfrage kann dann mittels Submit Query gestartet werden.
Im weiteren Verlauf erhält man Statusmeldungen über den Bearbeitungsstand; schließlich hoffentlich auch das Ergebnis.
Speichern
Eine Abfrage kann zur Wiederverwendung abgespeichert werden.
- Dazu sollte sie mit einem aussagekräftigen Titel und auch mit einer Kurzbeschreibung des Zwecks in menschlicher Sprache ausgestattet werden.
- Jede Abfrage erhält eine laufende Nummer, unter der sie erneut ausgeführt und modifiziert werden kann.
- Die Abfragen können öffentlich gemacht werden.
- query/runs/all – kürzliche Abfragen.
Ergebnisse herunterladen
Zur Weiterverarbeitung können die Ergebnisse in den Formaten CSV, TSV (Tabulator-Separated Values) oder JSON aktualisiert und lokal gespeichert werden.
URL:
http://quarry.wmflabs.org/run/
Abfragenummer/output/
Lauf-Nummer/
Formatierung
mit
- Formatierung – eine von
csv tsv json
Datenstrukturen
- MediaWiki/Datenbankstruktur - deutschsprachige Übersicht der Datenbanktabellen
- mw:Manual (englisch)
- mw:Manual:Database layout – Struktur der Wiki-Datenbank
- mw:Manual:Page table – Herzstück: Seiteninfo
- mw:Manual:Database layout – Struktur der Wiki-Datenbank
- MediaWiki/Datenformate – Schlüsselwörter und Codes
Beispielabfragen
Wer waren die ersten 100 Benutzer der deutschsprachigen Wikipedia?
USE dewiki_p;
SELECT user_id, user_name, user_editcount
FROM user
LIMIT 100;
- Die erste Zeile wählt die deutschsprachige Wikipedia als Grundlage aus.
SELECT
nennt drei Felder, die aufgelistet werden sollen.FROM
gibt eine Tabelle an, der die Felder entnommen werden sollen.- Groß- und Kleinschreibung des Tabellennamens
user
ist ohne Bedeutung und erfolgt in der vorstehenden Darstellung automatisch.
- Groß- und Kleinschreibung des Tabellennamens
LIMIT
beschränkt die Abfrage auf die ersten 100 Treffer.- Die Abfrage enthält die folgende Grammatik: SELECT … FROM … LIMIT …;
- Der SQL-Code enthält zwei Statements, deren jedes traditionell mit einem Semikolon
;
abgeschlossen ist; funktionieren würde es auch ohne.
Das Ergebnis ist als Nummer 1470 gespeichert.
...
USE dewiki_p;
SELECT ...............
FROM .................
......................
Weitere Informationen
Fehler bei Vorlage * Parametername unbekannt (Vorlage:Wikibooks): "3"
- Datenschutzrichtlinie der WMF
- mw:Manual:Database layout
- API – andere Abfragetechnik, direkt online; gleiche Daten und zusätzlich alle Textinhalte, aber weniger Möglichkeiten zur Auswertung in der Abfrage selbst
- Cirrus – fortgeschrittene Möglichkeiten zur Suche in den aktuellen Textinhalten
Anmerkungen
- ↑ englisch für ‚Fundgrube‘, auch ‚Steinbruch‘; Wortspiel mit query – dem Kernstück aller Datenbankabfragen