Wikipedia Diskussion:Technik/Datenbank/Download

Einleitung dieser Diskussionsseite anzeigen

Nach SQL import, Artikel gelöscht

In meiner Wiki habe ich verschieden Artikel erstellt, dann spielte ich Wikipedia in meine Datenbank, plötzlich sind meine Ursprüngliche Artikel Weg. Wie kann ich das umgehen? andy

Nur mit einigem Aufwand, eigentlich fast gar nicht. Der Dump enthält als einen der ersten Befehle DROP TABLE xyz und CREATE TABLE xyz mit vollständigen Tabellendefinitionen. Man müsste diese Befehle aus dem Dump rausnehmen, bevor man ihn einspielt. Und selbst dann werden sich wahrscheinlich die Artikel-IDs gegenseitig in die Quere kommen. Daher sollte man wirklich für eigene Artikel und den Dump zwei getrennte Datenbanken aufsetzen. --Echoray 17:45, 28. Dez 2004 (CET)

ok, vielen dank. andy

"Dieser Artikel basiert..." In Lokale Wiki einfügen

Hallo,

Ich habe einen Mirror (weil ich ihn brauche) der Wikipedia DE erstellt, wie füge ich automatisch bei jedem Artikel "Dieser Artikel basiert..." sowie z.b. bei: http://www.aberhallo.de/lexikon/index.php/Legale_Droge

Ich habe es auch schon in die Mailling Liste eingetragen: http://mail.wikipedia.org/pipermail/wikide-l/2005-January/subject.html#start

Ich bin langsam am verzweifeln, gibt es dazu kein Tutorial?

Mit freundlichen Grüssen

--Turischt 19:09, 14. Jan 2005 (CET)

Hallo, hier ist der SQL-Befehl um an das Ende jedes Artikels den Text einzufügen:

UPDATE cur SET cur_text = CONCAT(cur_text, "\n\n<br /><br />\n-----\nDieser Artikel basiert auf dem Artikel [http://de.wikipedia.org/wiki/", cur_title, " ", cur_title, "] aus der freien Enzyklopädie [http://de.wikipedia.org/ Wikipedia] und steht unter der [http://www.gnu.org/licenses/fdl.txt GNU-Lizenz für freie Dokumentation]. In der Wikipedia ist eine Liste der [http://de.wikipedia.org/w/index.php?title=", cur_title, "&action=history Autoren] verfügbar.") WHERE cur_title="Hauptseite" AND cur_namespace=0

Du solltes den Link zur GNU FDL noch so abändern, dass er auf eine lokale Kopie auf deinem Webserver zeigt.

Wenn es funktioniert, dann kannst du das cur_title="Hauptseite" AND entfernen und alle Artikel im Normalen Namensraum werden geändert.

Es gibt sicher auch eine bessere Lösung, aber was anderes fällt mir im Moment nicht ein.

Gruß, JuergenL 20:13, 14. Jan 2005 (CET)

danke. Ich habe mich mit diesem Befehl herumgeschlagen als Laie, ohne Erfolg. Was muss ich genau schrittweise tun. Mir steht SSH und phpMyAdmin zur verfügung. --Turischt 03:13, 15. Jan 2005 (CET)

In phpMyAdmin kannst du diesen Befehl direkt eingeben, also auf SQL klicken, den Befehl in die Textbox kopieren und OK klicken. Dann wird im Artikel Hauptseite dieser Text eingefügt. Gruß, JuergenL 09:27, 15. Jan 2005 (CET)

aha,danke es klappt. Turischt 16:41, 18. Jan 2005 (CET)

Newbie

Ich möchte eine Lokalversion der Wikipedia machen, weil ich im Internat bin, wo ich die Internetzeit nicht jeden Tag habe - mein Rechner ist aber nur Notebook 550 MHz, 256 MB RAM und 40 GB HDD - ist es noch sinnvoll alle die Programe zu installieren und die SQL Databasion zu bilden? Macronyx 13:52, 27. Jan 2005 (CET)

Ja, das geht, wenn man alles fertig importiert. Nur den Suchindex müsste man per Hand errechnen, und das dauert auf einem 550er Prozessor schätzungsweise eine Nacht lang. Die Alternative wäre, auf Volltextsuche zu verzichten. --Echoray 15:32, 27. Jan 2005 (CET)

Mehrere Wikipedia-Sprachversionen?

Es ist mir nicht gelungen, mehrere Versionen (z.B. Englisch und Deutsch) auf einem Computer lokal zu benutzen. Ich habe die Databasen fertig (enwiki, dewiki...). Wie kann ich jedoch die Database in einer Wikipedia verändern ? (wikidb->englishwiki?) Danke, ich bin immer noch Newbie :-) Macronyx 15:27, 8. Feb 2005 (CET)

Ich denke das du MediaWiki lokal auch zweimal installieren musst und jeweils für eine Sprache einrichten.Stephan Herz 08:19, 16. Mär 2005 (CET)

Nur den Index herunterladen?

Gibt es eine Möglichkeit, nur den Index der Datenbank herunterzuladen? Ich möchte von einem Programm aus ausschließlich SQL Abfragen stellen, die zurückgeben, ob zu einem bestimmten Begriff ein Artikel in Wikipedia vorhanden ist, oder nicht. Da wäre es ja überflüssig die ganze Datenbank mit fast 400 Mb herunterzuladen, wenn auch ein Index mit ein paar hunder kB ausreichen würde.

Es gibt die Datei http://download.wikimedia.org/wikipedia/de/all_titles_in_ns0.gz - das ist allerdings kein SQL-Dump, sondern einfach eine Textdatei mit den Titeln aller Artikel in der deutschen Wikipedia. --Echoray 17:14, 10. Jun 2005 (CEST)

Vielen Dank! Genau danach habe ich gesucht. Eine Textdatei reicht zur Suche völlig aus.

Welcher Browser ist in der Lage, die 10GB-Große Bilderdatei runterzuladen?

Mit Opera 7.04, Konqueror, Galeon, Mozilla / Firefox klappt das nicht, die hören alle nach 2GB auf.

Kann mir jemand einen Tip geben? (Beiträge auf Diskussionsseiten bitte nach möglichkeit unterschreiben. Danke)

Welches Betriebssystem? --Berthold Werner 08:55, 30. Jul 2005 (CEST)

Zum einen würde ich vorschlagen für Files dieser Größe einen Downloadmanager zu verwenden, da es bei der Verwendung von Browsern mitunter zu Problemen kommen kann.

Zum 2GB-Problem: Das liegt wohl weniger am Programm, mit dem Du den Download versuchst, sondern am Filesystem: Überprüfe bitte, ob bei Deinem Dateisystem Dateien über 2GB überhaupt möglich sind - diese Grenze ist häufig zu finden, entweder durch Limitierungen des Dateisystems selbst oder durch entsprechende Kernelparameter. Gruß -- srb ^♋ 11:01, 30. Jul 2005 (CEST)

Achtung!! HTML-Export-Seite

Auf der Seite, die Wiki-SQL als HTML exportieren soll, steht, dass das Script aufgrund von Änderungen der WikiSoftware nicht mehr funktioniert. Link noch bestehen lassen?!? --Jonaslange 11:58, 14. Jul 2005 (CEST)

Welche Seite meinst du?

XML - Import

Wenn ich den aktuellen XML-current-Dump der DE-WikiPedia mit

zcat ~/tmp/pages_current.xml.gz | php importDump.php

importiere, bricht der Vorgang nach ca. 155.000 Seiten mit der Meldung

Fatal error: Call to a member function getPrefixedText() on a non-object in
 /srv/www/htdocs/mediawiki-1.5rc3-WikiPediaDE/maintenance/importDump.php on line 47

Speicherzugriffsfehler

ab. Hat jemand eine Idee/Lösung? --Frapp 12:52, 26. Aug 2005 (CEST)

Das Problem hatte ich auch schon mal, siehe http://bugzilla.wikimedia.org/show_bug.cgi?id=2979 . Ich weiß aber nicht, ob das dort verlinkte Script noch mit Version 1.5rc3 zusammenarbeitet. Die einzige Änderung ist aber, soweit ich mich erinnere, dies hier in Funktion handleRevision: if (!$title) { return; } --Jah 16:10, 26. Aug 2005 (CEST)

Ja, das Script funktioniert. Vielen Dank für den Tipp! --Frapp 10:25, 27. Aug 2005 (CEST)

Dumps kaputt?

Kann es sein, dass die aktuellen Dumps von vorgestern [1] noch kaputter als die vom Juli sind? Jetzt ist die "Current"-Datei nur noch 1,3 MB groß, die "Full" immerhin 200 MB. Also entweder wurde ganz krass komprimiert oder defekt... Das kanns ja wohl nicht sein.. wenn kann man stressen? (witzig: die Current bricht mitten bei "Bielefeld" ab. war ja klar, wenns Bielefeld nicht gibt.. ;-) --BLueFiSH ?! 06:52, 6. Sep 2005 (CEST)

Möchte auch bitten, dass die Dumps noch einmal neu erstellt werden, damit man z.B. neue Offline-Pocket-PC Versionen erstellen kann. Wer fühlt sich angesprochen? Danke. --Mike Krüger 08:27, 6. Sep 2005 (CEST)

Ich hätte auch gerne neue Dumps :-( --Berthold Werner 11:12, 6. Sep 2005 (CEST)

Auch ich hätte gerne frische Dumps für meinen PDA... --Ardi58 21:45, 6. Sep 2005 (CEST)

Nachdem die aktuelle gzip-current-xml-Datei 312 MB groß war, habe ich sie runtergeladen - und sie ist ebenfalls unvollständig. Entpackt auf ca. 1 GB, ist dann aber auch kaputt:

gzip: 20050909_pages_current.xml.gz: unexpected end of file

So große vergebene Downloads sind schon ziemlich ärgerlich wegen des Traffics. Denn der Test auf Gültigkeit der gepackten Datei läßt sich mit gzip -t datei.gz recht einfach durchführen. Ich würde dafür plädieren, das auf jeden Fall zu machen, bevor solch große Dateien der Allgemeinheit zum Download angeboten werden.--Harmonica 15:48, 11. Sep 2005 (CEST)

So wie ich das sehe ist die Datei auch noch nicht fertig. sie wird jede Minute noch größer. Einfach mal auf das Datum und die Uhrzeit der Datei achten. Sie geht auf UTC-Zeit, ist also 2 Stunden kleiner als es auf meiner Uhr ist. Ich denke mal 1-2 Stunden wird es mindestens noch dauern. Wie es aussieht wurden alle WPs gleichzeitig gedumpt und wenn die kleinen fertig sind, dann gehen die großen schneller. EN läuft auch noch. --BLueFiSH ?! 18:09, 11. Sep 2005 (CEST)

Dann kann ich per wget -c einfach weiterladen. Danke für den Hinweis! Besser fände ich es aber schon, die öffentlichen Downloads erst zur Verfügung zu stellen, wenn sie komplett sind.--Harmonica 18:13, 11. Sep 2005 (CEST)

Der Current-Dump ist fertig. Steht zumindest seit einer Stunde auf gleichbleibender Uhrzeit. --BLueFiSH ?! 22:50, 11. Sep 2005 (CEST)

Leider immer noch die Fehlermeldung gzip: 20050909_pages_current.xml.gz: unexpected end of file--Harmonica 23:35, 11. Sep 2005 (CEST)

Solange das backup.log noch einen Timestamp hat, der älter ist als die dumps (und der full-dump auch noch wächst) sind die dumps noch nicht nicht beendet - die Fehlermeldung ist also nicht weiter verwunderlich. Allerdings ist mir vorhin auch schon aufgefallen, dass sich die timestamps der current-dumps (de: und en:) nicht mehr verändern - große Hoffnung hab' ich nicht mehr, dass dieser Versuch erfolgreich verläuft. ;-(( -- srb ^♋ 23:43, 11. Sep 2005 (CEST)

Nicht gleich aufgeben, der Dump läuft noch immer, anscheinend ist der dump jetzt beim nächsten Schritt angelangt, es wird jetzt ein ..upload..-file geschrieben, die current und full könnten jetzt also vollständig sein! --Centic 09:56, 12. Sep 2005 (CEST)

Nein, ist fertig und ohne Fehler entpackbar. --BLueFiSH ?! 10:59, 12. Sep 2005 (CEST)

Es geschehen noch Zeichen und Wunder ;-) Das upload-File müßten übrigens die Bilder sein, die gerade exportiert werden. -- srb ^♋ 11:14, 12. Sep 2005 (CEST)

Nachdem ich jetzt die ca. 500 MB Datei "20050909_pages_current.xml.gz" gezogen habe, muss ich feststellen, daß der Import nach ca. 1900 Datensätzen abbricht. Hat noch jemand dieses Problem und es eventuell bereits gelöst? Ich benutze das importDump.php Skript der Mediawiki 1.5rc4 Version aus dem "maintenance" Verzeichnis. -- Rhaegar 16:30, 13. Sep 2005 (CEST)

Bei mir bricht der Import der Datei "pages_current.xml.gz" auch nach 1900 Datensätzen ab. Benutze ebenfalls das importDump.php Skript. Benutze die Version 1.5rc4. Habe ebenfalls das andere Skript von Kate Turner wie etwas weiter oben beschrieben versucht. Hat allerdings leider nichts gebracht. Hat jemand zufällig eine Lösung? Wäre sehr dankbar. --ssatir 11:24, 14. Sep 2005 (CEST)

Ich hab importDump.php nicht selbst getestet, aber vielleicht liegt es an einem XML-Problem des Dumps. Gibt das Skript irgendwelche Fehlermeldungen? Siehe auch Benutzer_Diskussion:SirJective#Java_Fehler_im_Dump_vom_9.9.05. --SirJective 23:23, 14. Sep 2005 (CEST)

Kategorien

gibt es irgendwo eine datenbank zum downloaden, wo man sieht welche kategorie auf welche unterkategorie verweist.

Die Datenbanktabelle de_categorylinks_table.sql.gz im Verzeichnis http://download.wikimedia.org/wikipedia/de/ enthält alle Kategorielinks. Das schließt Links von Subkategorie-Einträge ein (beachte, dass die Subkategorie auf die Oberkategorie verlinkt, so wie ein Artikel auf seine Kategorie verlinkt). Allerdings braucht man (wenn ich mich recht erinnere) eine Zuordnung der id-Nummern zu Artikeln, die nicht separat in einer Tabelle liegt.

Die Zuordnung der id-Nummern zu Artikeln steht in folgender Datei (im Format "Id TAB Namensraum TAB Titel"):

http://chsemrau.de/wikipedia/20050909_ids.txt.gz

--SirJective 15:22, 16. Sep 2005 (CEST)

importDump.php

Kann es sein, dass die Datei im MediaWiki 1.4.10-Release (stable) nicht mit drin ist? Ggf auf der Seite darauf hinweisen --M3ax 01:30, 30. Sep 2005 (CEST)

Download der Bilder

Ist es möglich, das Bilderarchiv in mehreren Tar-Archiven (1-2GB pro File) anzubieten, da man die Datei in der aktuellen Größe nicht laden kann, egal Windows oder Linux-System und da liegt es definitiv nicht am Filesystem (Windows=NTFS; Linux=Ext3). mfg MarkOH 30.09.2005, 23:38 Uhr

Liegt es vielleicht am falschen Programm? Womit lädst Du herunter? Angeblich hat wget ein Problem, genauso wie einige Browser, mit cUrl hingegen klappt's. Kann dazu gerade keine Quelle mehr finden.--Harmonica 00:01, 1. Okt 2005 (CEST)