Zum Inhalt springen

Wikipedia Diskussion:Archiv/PDF-Generator

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 20. Oktober 2004 um 02:09 Uhr durch Karl-Henner (Diskussion | Beiträge). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 21 Jahren von Stw in Abschnitt Wünsche

Archiv

/Vorgeschichte /Meinungen zum Skript

Wünsche

...bezüglich Features können hier oder auf SourceForge angebracht werden

/Archiv

Modularisierung

Es wäre klasse, wenn das Script eine Sammlung von TeX-Dateien ausspuckt, die zu einem Dokument gehören. Modularisierung in der Form vielleicht, dass ein Hauptdokument die nötigen Definitionen enthält und der / die bearbeiteten Artikel als einzelne Dateien dort einfach eingebunden werden. Kann auch alles in einer Datei stehen ... das sollte aber eigentlich für TeX das selbe sein. Harko 18:10, 5. Mär 2004 (CET)
Da hast du recht, wenn man mehrere Artikel in einem TeX-Dokument haben will, muss das natürlich modularisiert werden. Man könnte also einfach den TeX-Header im Skript weglassen, und eine globale .tex-Datei schreiben, die dann die anderen \include{}t. -- Stw 18:35, 5. Mär 2004 (CET)
Wenn das Script die globale Datei aus einer vorhandenen (vielleicht mit der vielsagenden Endung .tpl) erzeugt, also diese tpl-Datei einliest und daraus das globale Dokument erzeugt, dann kann sich der erfahrene TeXaner dransetzen und ein schickes Layout für den resultierenden Reader basteln ... solange er einige grundlegende Regeln beachtet (eben die Sachen, die das Script voraussetzt). Auf diese Weise kann auch die Sache mit der Lizenz gelöst werden, die liegt einfach als Datei immer irgendwo rum und wird zwingend immer in die Globaldatei eingebaut. Harko 18:52, 5. Mär 2004 (CET)

Zerosyntax

Wie aufwändig ist es mit python, eine Seite wie Wikipedia:WikiReader/Islam auszulesen, alle dort liegenden Links zu erfassen und in der dort liegenden Reihenfolge die verlinkten Artikel in ein gemeinsames PDF zu legen? -- Presroi 23:11, 5. Mär 2004 (CET)

Am Ende also:

wiki2latex2pdf Wikipedia:Wikireader/Islam

Layout

Ich habe mal testweise mit der 0.9 de:Islam darstellen lassen. Der Artikel wird auf 6 Seiten dargestellt, da tex sehr großzügig mit Absätzen umgeht. Das sieht gut aus, ist aber verschwenderisch. Wie kommt man zu einem Layout (ggf. sogar zweispaltig?), das näher an den Rand geht und auch sonst textmäßiger ist? -- Presroi 21:04, 8. Mär 2004 (CET)

Dafür ist die Option "LaTeX-Template" vorgesehen. Diese fügt die Dateien template-head.tpl und template-tail.tpl vorne bzw. hinten an. Momentan gibt es nur ein Template namens "article".
Siehe: http://lart.info/~stw/wiki2pdf/article-head.tpl und http://lart.info/~stw/wiki2pdf/article-tail.tpl . Wenn du willst kannst du die bearbeiten und mir mailen. Hast du einen Server zum Testen? -- Stw 23:10, 8. Mär 2004 (CET)
Ich habe nun das Default-Layout geändert und ein Zweispalten-Layout hinzugefügt. -- Stw 23:18, 13. Mär 2004 (CET)
Scheinbar muss sich mal jemand (wohl ich - aber eigentlich hoffentlich doch nicht) um das Layout des Resultates kümmern. Die Links und Bibliographie am Ende wird ebenso im Zweispaltensatz gefertigt, was mindergut aussieht wenn die Links einfach zu lang sind für eine Spalte ... die kleben z.B. beim Artikel de:LSD direkt am rechten Seitenrand. Es wäre sinnvoll, die Bibliographie und die Weblinks entweder in kleinerer Schrift oder einspaltig über die komplette Seitenbreite zu setzen. Harko 23:02, 24. Mär 2004 (CET)
Ich gebe zu, dass das Layout für Weblinks alles andere als hübsch ist. Nur: Wie erkennt ein Computer mit IQ = 0 das Literaturverzeichnis? 1. Es heisst in jeder Sprache anders, und 2. ist die Formatierung auch in Artikeln der selben Sprache nicht einheitlich. Geistesblitze erbeten... Dass die Links bei LSD nicht umgebrochen werden, ist ein Bug, dem ich auf den Fersen bin. -- Stw 20:46, 25. Mär 2004 (CET)
Hmm, also wenn Computer IQ=0 hat, dann sollte man eine entsprechende Lösung finden können. Im Zweifel den pragmatischen Ansatz (bin Dipl.Ing.(FH), deshalb darf ich den wählen), der darauf hinausläuft, eine Liste mit Überschriften zu erzeugen, die im TeX-Quelltext dann in voller breite gesetzt werden. Es würden also alle Bibliographien gefunden werden, die einerseits eine Form von Überschrift sind und andererseits bestimmte Worte enthalten, also z.B. "Bibliographie" oder "Literatur" oder so ... achja, sie sollten nicht die erste Überschrift des Artikels sein :)
Letztlich wird diese Lösung nicht alle Fälle einer Bibliographie und Weblinkliste erfassen, doch den größten Teil, und diejenigen, welche noch nicht erfasst werden, die kann man ja im Original ein wenig anpassen ... denn so viele Möglichkeiten eine Bibliographie zu überschreiben gibt es ja nun wirklich nicht. Harko 02:35, 31. Mär 2004 (CEST)

Crosslanguage

Wäre es möglich, gemischtsprachige Seiten anzulegen, etwa de:Islam en:Islam -- Presroi 21:04, 8. Mär 2004 (CET)

Kurze Antwort: Ja. Lange Antwort: man müsste LaTeX dazu bringen, mitten im Dokument die Sprache umzuschalten. Ich sehe gerade, dass es dafür offenbar die Option \selectlanguage{} gibt. Ich setz' das mal auf die (imaginäre) TODO-Liste, aber versprechen tu ich nichts... -- Stw 17:48, 10. Mär 2004 (CET)
oh, vielen Dank. Wenn, dann neige ich dazu, diesem Wunsch die niedrigste Priorität zuzuordnen. -- Mathias Schindler 17:51, 10. Mär 2004 (CET)

Einzelne Artikel

Ich würde das Skript auf dem Server gerne für den Ausdruck einzelner Artikel benutzen. Dazu müsste man jedoch das Titelblatt und die Lizenz weglassen und im Gegenzug in der Fußzeile einen Hinweistext haben. -- Nichtich 18:58, 30. Apr 2004 (CEST)

Ich hab jetzt eine "minimal"-Vorlage hinzugefügt, ohne GFDL, aber mit einem kleinen Hinweistext auf der letzten Seite. -- Stw 11:44, 10. Mai 2004 (CEST)Beantworten

Kategorien verstecken

Wäre es möglich, eine Option einzubauen, die Kategorien zu verstecken? -- Furioso 02:09, 20. Okt 2004 (CEST)


Probleme

... und Bugreports bitte hier oder auf SourceForge melden!

Sonderzeichen in Lesezeichen

Sonderzeichen in Lesezeichen werden derzeit als #234; dargestellt. -- Mathias Schindler 19:08, 17. Mär 2004 (CET)

Linküberlänge

Überlange Links werden derzeit nicht umgebrochen. Das führt zu unschönen Situationen. -- Mathias Schindler 18:01, 17. Mär 2004 (CET)

arabische Zeichenreihenfolge

Tauchen arabische Zeichenfolgen auf (right-to-left), werden sie im PDF nachher in falscher Reihenfolge dargestellt. Ist diese Stelle hier okay oder wäre ein eintrag im Bug report auf sf.net besser? Grüße -- Mathias Schindler 17:51, 17. Mär 2004 (CET)

Ich hab das jetzt mit Hilfe von fribidi implementiert. Ist eine ziemlich unelegante Lösung und verlangt Handarbeit, wenn man das Skript auf einem Server installiert, aber es scheint zu funktionieren. -- Stw 12:57, 20. Mär 2004 (CET)
Huhu Stw, vielen Dank für die größe Mühe bei diesem Partikularproblem. Die Zeichenreihenfolge ist nun richtig, aber die typographie ist seltsam. In der arbischen Schrift werden i.d.R Buchstaben verkürzt, wenn sie in der Mitte stehen, Eine Lösung oder gar eine Ahnung, woran das liegt, habe ich leider nicht.:
isolierte Form (wiki2pdf)
eigentlich korrekte Form (mozilla)
-- Mathias Schindler 13:10, 20. Mär 2004 (CET)




Habs grad mal ausprobiert, funtioniert auch teilweise schon ganz gut, aber:

  • Das Web-Frontend [1] Hat Probleme mit Umlauten. Im Ie6 unter Windows hab ich die Rhätische Bahn eingetragen, dann kommt die Fehlermeldung Warning: Your browser didn't send your text in UTF-8! I might be unable to get the articles.. Über den Umweg der Weiterleitungsseite RhB gehts dann aber, Cool :-)
Da muss ich wohl dem IE die Schuld geben, der respektiert die accept-encoding Option offensichtlich nicht. Einfache Lösung: Mozilla verwenden. Komplizierte Lösung: PHP-Skript anpassen, so dass das Datenformat erkannt wird und nach UTF-8 umgewandelt wird. -- Stw 22:32, 13. Mär 2004 (CET)
  • Der Artikel Schmalspurbahn macht dann aber Probleme, irgendwie wird da anscheinend ungültiger Tex-Code erstellt, im Log sind jede Menge Fehlermeldungen.
Ist jetzt geflickt -- Stw 12:11, 18. Mär 2004 (CET)
  • Der Font im PDF ist unter Windows relativ unleserlich.
Das kann ich nicht nachvollziehen, auch unter Windows mit verschiedenen Acrobat-Reader Versionen nicht.

... wenn jetzt noch der Quellcode in ein CVS kommen würde ... -- LosHawlos 16:39, 13. Mär 2004 (CET)

Ist mittlerweile da, siehe [2] -- Stw 12:11, 18. Mär 2004 (CET)

XML, XSL

Hi, nur mal so nachgefragt. Hat sich jemand mal Gedanken gemacht, nach XML zu konvertieren (was es ja fast schon ist) und mittels XSLT und FOP PDF draus zu machen? Gibt's schon Gedanken zu ner XML-API (wie z.B. ebay das gerade (gegen Geld!!) anbietet? Falls ja könnte ich vielleicht nen Fachinformatiker Azubi Arbeit draus machen. Falls jemand was weiss bitte kurze Nachricht bei Softeis 23:05, 15. Mär 2004 (CET)

Da gibts schon ein ähnliches Projekt, siehe [3]. Die PDF-Erstellung mit FOP scheint eine elegant Lösung zu sein, WENN die Texte im XSLFO Format vorliegen. Ebay bietet eine XML-API an? Ich dachte das wäre eine Auktionsseite... -- Stw 12:11, 18. Mär 2004 (CET)