Zum Inhalt springen

Wikipedia:Technik/Cloud/quarry

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 22. Februar 2015 um 18:06 Uhr durch Inkowik (Diskussion | Beiträge) (Vorlage). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Vorlage:Überschriftensimulation 1

Quarry[1] ist eine seit Ende 2014 verfügbare Schnittstelle, mit der alle angemeldeten WMF-Benutzer via Labs und SQL Datenbankabfragen zu den Wikis ausführen können.

Die Anfrage geht nicht an die produktiven Wiki-Versionen, sondern an Replikate, die mit leichter Verzögerung oder auch mal größerer Verspätung aktualisiert werden.

Nicht verfügbar sind die eigentlichen textlichen Inhalte der Seiten; hingegen alle Meta-Informationen über das Projekt und die enthaltenen Seiten, namentlich:

  • Seiteninformationen
  • Versionsgeschichte nebst Bearbeitungskommentaren
  • Außenwirkung einer Seite, wie:
  • Logbuch-Informationen
  • Benutzerinfos
  • Allgemeine Projektkonfiguration und Statistik

Nicht enthalten sind bewusst für die Öffentichkeit gesperrte Informationen, wie Versionslöschungen usw.

Benutzeranmeldung

Der Zugang erfolgt über OAuth, wodurch der Quarry-Zugriff mit dem Wikipedia-Benutzerkonto verbunden wird.

Registrierung als normaler Wiki-Benutzer:

  • Zunächst bei meta: (meta.wikimedia.org) anmelden.
  • quarry.wmflabs.org besuchen.
  • Login with Wikimedia anklicken.
  • Es erscheint eine OAuth-Rückfrage für SQL Quarry.
  • Dieser wäre dann wohl zuzustimmen.
  • Auf meta:Special:Preferences unter Connected apps kann die Zustimmung auch wieder deaktiviert werden (auf jedem anderen Wiki auch).

Benutzerprofil

Jeder Benutzer kann die persönlichen Abfragen, Entwürfe dazu sowie publizierte Abfragen individuell verwalten.

Abfragen

Über New Query gelangt man in den Eingabemodus. Unten auf schwarzem Hintergrund befindet sich die interaktive Konsole.

Konsole

Die deutschsprachige Wikipedia muss zunächst ausgewählt werden mittels:

USE dewiki_p;

Die Abfrage kann dann mittels Submit Query gestartet werden.

Im weiteren Verlauf erhält man Statusmeldungen über den Bearbeitungsstand; schließlich hoffentlich auch das Ergebnis.

Speichern

Eine Abfrage kann zur Wiederverwendung abgespeichert werden.

  • Dazu sollte sie mit einem aussagekräftigen Titel und auch mit einer Kurzbeschreibung des Zwecks in menschlicher Sprache ausgestattet werden.
  • Jede Abfrage erhält eine laufende Nummer, unter der sie erneut ausgeführt und modifiziert werden kann.
  • Die Abfragen können öffentlich gemacht werden.
  • query/runs/all – kürzliche Abfragen.

Ergebnisse herunterladen

Zur Weiterverarbeitung können die Ergebnisse in den Formaten CSV, TSV (Tabulator-Separated Values) oder JSON aktualisiert und lokal gespeichert werden.

URL:

http://quarry.wmflabs.org/run/Abfragenummer/output/Lauf-Nummer/Formatierung

mit

Formatierung – eine von csv tsv json

Datenstrukturen

Beispielabfragen

Wer waren die ersten 100 Benutzer der deutschsprachigen Wikipedia?

USE dewiki_p;
SELECT user_id, user_name, user_editcount
FROM user
LIMIT 100;
  • Die erste Zeile wählt die deutschsprachige Wikipedia als Grundlage aus.
  • SELECT nennt drei Felder, die aufgelistet werden sollen.
  • FROM gibt eine Tabelle an, der die Felder entnommen werden sollen.
    • Groß- und Kleinschreibung des Tabellennamens user ist ohne Bedeutung und erfolgt in der vorstehenden Darstellung automatisch.
  • LIMIT beschränkt die Abfrage auf die ersten 100 Treffer.
  • Die Abfrage enthält die folgende Grammatik: SELECT … FROM … LIMIT …;
  • Der SQL-Code enthält zwei Statements, deren jedes traditionell mit einem Semikolon ; abgeschlossen ist; funktionieren würde es auch ohne.

Das Ergebnis ist als Nummer 1470 gespeichert.

...

USE dewiki_p;
SELECT ...............
FROM .................
......................

Weitere Informationen

Meta-Wiki: Research:Quarry – Infos (englisch)
Wikibooks: SQL – Lern- und Lehrmaterialien

Fehler bei Vorlage * Parametername unbekannt (Vorlage:Wikibooks): "3"

  • Datenschutzrichtlinie der WMF
  • mw:Manual:Database layout
  • API – andere Abfragetechnik, direkt online; gleiche Daten und zusätzlich alle Textinhalte, aber weniger Möglichkeiten zur Auswertung in der Abfrage selbst
  • Cirrus – fortgeschrittene Möglichkeiten zur Suche in den aktuellen Textinhalten

Anmerkungen

  1. englisch für ‚Fundgrube‘, auch ‚Steinbruch‘; Wortspiel mit query – dem Kernstück aller Datenbankabfragen