Diskussion:Textdatei
Mutig
Ich war mutig und habe eine neue Einleitung verfasst und hoffe, dass sie "omatauglich" ist.-- Kölscher Pitter 10:47, 5. Mär. 2008 (CET)
- Na ja, so ganz einig bin ich mit Deiner Einleitung nicht. Sie widerspricht einigen Teilen des Artikels. Gibst Du mir die Chance, diese (unter Berücksichtigung Deines Standpunkts) nochmal zu bearbeiten oder soll ich mich aus diesem Artikel zurückziehen?--Cactus26 11:24, 5. Mär. 2008 (CET)
- Auf keinen Fall zurückziehen. Auch du sollst mutig sein.-- Kölscher Pitter 11:26, 5. Mär. 2008 (CET)
- Mut ist nicht das Problem, ich bin nur ein wenig müde.... --Cactus26 11:28, 5. Mär. 2008 (CET)
- Auf keinen Fall zurückziehen. Auch du sollst mutig sein.-- Kölscher Pitter 11:26, 5. Mär. 2008 (CET)
OK. Ich war etwas respektlos. Aber auch das gehört zum Wiki-Prinzip. Das müssen wir alle ertragen. Und sollte etwas "gut" sein, dann kann es immer noch "besser" werden.-- Kölscher Pitter 11:39, 5. Mär. 2008 (CET)
Überarbeiten
Das Lemma muss überarbeitet werden, näheres siehe gescheiterte Lesenswertkandidatur.
Erfolgte Überarbeitungen am Introtext am 5. März sind sachlich falsch, ohne Quellenangabe und unenzyklopädisch in der Formulierung (Buchstabensalat).
Zu unterscheiden sind Textdatei als definierte Datenstruktur der Informatik (Fachbegriff) und umgangssprachliche Verwendungen.
Ob etwas ein "Buchstabensalat" ist oder nicht, hängt davon ab, ob der Auswerter die Grammatik der Sprache oder Notation kennt. Siehe mein Beispiel einer wohlgeformten Textdatei mit der FEN-Notation oben, die ohne diese Kenntnis "Buchstabensalat" ist.
Textdateien werden keineswegs nur mit dem Ziel erstellt, einem menschlichen Empfänger lesbaren Text zu präsentieren. Gegenbeispiele sind die CSV-Dateien oder INI-Dateien von Windows 98, die dem Datenaustausch zwischen Computerprogrammen dienen oder deren Datenversorgung mit z.B. Konfigurationseinstellungen.--Hgn-p 13:16, 5. Mär. 2008 (CET)
- Informatik und Fachbegriffe? Das ist ein haariges Thema. Denn das ist zur Zeit alles im Fluss. Wir befinden uns mitten in einer Revolution. Ich glaube, ich schließe mich Cactus an und werde auch müde. Denn ich ahne so dunkel, dass aus dem Artikel zwar kein Buchstabensalat aber eine Textwüste wird, die niemanden interessiert.-- Kölscher Pitter 13:51, 5. Mär. 2008 (CET)
- Ich denke, man sollte erst mal gelassen abwarten, wie Cactus26 die gescheiterte Lesenswertwahl auswertet und seine obige gute Idee, auf Grund der technischen Dokumente die Sache zu überarbeiten, umsetzt. Zumindest meine Kernkritik sehe ich in den Tecdoc's abgehandelt.--Hgn-p 22:41, 5. Mär. 2008 (CET)
- Ich werde morgen eine Definition auf Basis der MIME-Definition für den Medientyp Text versuchen (@Hgn-p: Freut mich zu hören, dass eine solche Definition auch in Deinen Augen eine Chance hat). @Kölscher Pitter: Je länger ich über Deinen abstrahierenden Definitionsansatz nachdenke, um so mehr Zweifel kommen mir. Wenn Du Textverarbeitungen und PDF einbeziehst, stellt sich die Frage, ob und wie viele Bilder oder Grafiken enthalten sein dürften, damit das ganze noch als Textdatei durchgeht. Interessant ist schon, dass bislang keine zwei der an der Diskussion beteiligten, wirklich dieselbe Definition zu Grunde legen. Es gibt halt keine "offizielle". Die meisten liegen aber schon in der Richtung des MIME-Medientyps "Text".--Cactus26 07:04, 6. Mär. 2008 (CET)
- Es gibt halt keine "offizielle". Völlig richtig. Es gibt aber auch keine exakte. Acrobat- und Word-Dateien sind keine "reinrassigen" Textdateien. Gemeinsam haben sie aber die Absicht der Ersteller, dass es "Kommunikationsdateien" sind. In Abgrenzung zu Programmdateien und Datenbanken. Die Verknüpfung mit einem Zeichenvorrat ist entscheidend. Ich bleibe dabei: IT hat nur wenige Begriffe, die exakt (und dauerhaft) definierbar sind. Mit demgleichen Prinzip (separate, genormte Zeichentabelle plus Anwenderdatei) kann man auch Musiknoten schreiben. Es kommt nur darauf an, wie die Pixel auf den Schirm oder Drucker kommen.-- Kölscher Pitter 09:48, 6. Mär. 2008 (CET)
- Es ist sicher nicht so, dass ich Deinen Standpunkt nicht respektiere. Es gibt keine exakte Definition, aber es gibt einen gewissen Konsens der im Umlauf befindlichen Definitionen. Und zu dem steht Deine Definition im Widerspruch. Das denke ich, kann ich nach allem was ich mittlerweile recherchiert und auch sonst hinter mir habe durchaus behaupten. Hast Du ein Problem, wenn ich die Definition in diesem Sinne nochmals überarbeite?--Cactus26 11:14, 6. Mär. 2008 (CET)
- Es gibt halt keine "offizielle". Völlig richtig. Es gibt aber auch keine exakte. Acrobat- und Word-Dateien sind keine "reinrassigen" Textdateien. Gemeinsam haben sie aber die Absicht der Ersteller, dass es "Kommunikationsdateien" sind. In Abgrenzung zu Programmdateien und Datenbanken. Die Verknüpfung mit einem Zeichenvorrat ist entscheidend. Ich bleibe dabei: IT hat nur wenige Begriffe, die exakt (und dauerhaft) definierbar sind. Mit demgleichen Prinzip (separate, genormte Zeichentabelle plus Anwenderdatei) kann man auch Musiknoten schreiben. Es kommt nur darauf an, wie die Pixel auf den Schirm oder Drucker kommen.-- Kölscher Pitter 09:48, 6. Mär. 2008 (CET)
- Ich werde morgen eine Definition auf Basis der MIME-Definition für den Medientyp Text versuchen (@Hgn-p: Freut mich zu hören, dass eine solche Definition auch in Deinen Augen eine Chance hat). @Kölscher Pitter: Je länger ich über Deinen abstrahierenden Definitionsansatz nachdenke, um so mehr Zweifel kommen mir. Wenn Du Textverarbeitungen und PDF einbeziehst, stellt sich die Frage, ob und wie viele Bilder oder Grafiken enthalten sein dürften, damit das ganze noch als Textdatei durchgeht. Interessant ist schon, dass bislang keine zwei der an der Diskussion beteiligten, wirklich dieselbe Definition zu Grunde legen. Es gibt halt keine "offizielle". Die meisten liegen aber schon in der Richtung des MIME-Medientyps "Text".--Cactus26 07:04, 6. Mär. 2008 (CET)
- Ich denke, man sollte erst mal gelassen abwarten, wie Cactus26 die gescheiterte Lesenswertwahl auswertet und seine obige gute Idee, auf Grund der technischen Dokumente die Sache zu überarbeiten, umsetzt. Zumindest meine Kernkritik sehe ich in den Tecdoc's abgehandelt.--Hgn-p 22:41, 5. Mär. 2008 (CET)
Prinzipiell habe ich kein Problem damit. Wenn ich deine Version sehe, werde ich sie vielleicht kritisieren.-- Kölscher Pitter 11:47, 6. Mär. 2008 (CET)
Nur noch mal zur Klarheit: Wir sind keine Normierungsgremium für die Neudefinition des Begriffes Textdatei. Eine Enzyklopädie muß sich auf vorhandene, relevante Quellen stützen. Dabei muß man mit zwei Problemen umgehen a) eine unterschiedliche Definition/Verwendung des Begriffes in verschiedenen Bereichen und b) eine geschichtlich durch technischen Fortschritt bedingte Wandlung des Begriffes. Also Aufzählung der Bedeutungen, aber nicht Vereinheitlichung.
@Kölscher Pitter : Ob etwas Buchstabensalat ist oder relevante Information, hängt davon ab, ob es aus den regulären Ausdrücken einer natürlichen oder formalen Sprache erzeugt wurde und ob der Rezipient die Grammatik kennt. Was für den einen wüster Buchstabensalat ist, erkennt der andere sofort als Notierung von Gensequenzen nach den Anfangsbuchstaben der Aminosäuren. Da z.B. digitalisierte Musik nicht aus den regulären Ausdrücken einer Sprache erzeugt wurde, wird man bei der Interpretation als Text auch nie einen Sinn festmachen können. Wenn du Textdateien mit sinnvollem Inhalt definieren willst, musst du nicht vom Ergebnis (Buchstabensalat), sondern von der Quelle her definieren: Erzeugt aus der erlaubten Zeichenmenge und Syntax einer natürlichen oder formalen Sprache oder einer Notationskonvention. Nur dann ist eine Zuordnung der Zeichen zu Bedeutung/Sinn möglich.--Hgn-p 12:28, 6. Mär. 2008 (CET)
Die Hersteller verwenden für .doc, .pdf - Dateien usw. völlig korrekt den Begriff "Dokumentdateien", denn es sind keine Textdateien. Die umgangssprachliche Falschverwendung des Begriffes Textdatei für diese Dateien kann man erwähnen, es steht uns aber nicht zu, diese Falschverwendung ohne externe Quellenstützung enzyklopädisch zu legitimieren.--Hgn-p 12:36, 6. Mär. 2008 (CET)
- Zitat aus Wiki: Ein elektronisches Dokument wird in der Regel nur dann als wirksam behandelt, wenn der Aussteller eine qualifizierte elektronische Signatur angefügt hat, die ihn zweifelsfrei als Urheber des Dokuments legitimiert und die mit den übermittelten Daten so verknüpft ist, dass eine nachträgliche Veränderung des Dokuments erkannt werden kann. Viel Spaß damit.-- Kölscher Pitter 14:26, 6. Mär. 2008 (CET)
Ein neuer Versuch. Ein paar Anmerkungen zur Überarbeitung:
- Ich habe darüber nachgedacht, die Reihenfolge der Abschnitte "Geschichte" und "Abgrenzung von Binär- und Textdateien zu tauschen". Was meint ihr?
- den Abschnitt "Quelltext für Computerprogramme" habe ich entfernt, da das Entwicklern ohnehin klar ist und andere vermutlich nicht interessiert. Wenn jemand das anderes sieht, kann ich ihn gerne wieder ergänzen.
- Abstraktere Definition (alles ist Textdatei, was Text präsentiert): Ich sehe es so, dass die "Glanzzeiten" des Begriffs Textdatei in seiner heutigen (im Artikel dargestellten Form) vorbei sind. Allerdings ist die abstrakte Definition keine rechte Alternative, diese scheint mir nutzlos. Die heutige Definition dagegen ist für den Endbenutzer relativ nutzlos bis unpraktisch (das ist wohl das, worauf K.P. hinweist), da der Benutzer per Doppelklick sowohl bei einer PDF- als auch bei einer TXT-Datei den Text sieht, der Rest ist ihm wurscht. Derzeit würde ich aber behaupten, dass der Begriff in seiner heutigen Form zumindest innerhalb der IT noch sehr präsent und auch notwenig ist. Aber auch das kann sich ändern, UTF-8 scheint mir schon so eine Art "Sargnagel" der "klassischen" Textdatei zu sein, eine solche Datei überschreitet nach meinem Gefühl schon die Grenze zur Binärdatei, sobald sie mehr als die ersten 127 Zeichen des ASCII verwendet. Vielleicht ist bald auch ein Acrobat Reader "on the chip", dann wird's immer schwieriger mit dem Begriff Textdatei, dass heißt, der Artikel wird immer länger um den Begriff überhaupt noch definieren zu können und irgendwann werfen wir ihn weg.
- Codierung vs. Kodierung: Ich sehe das leidenschaftslos. Sollen wir auf "K" umsteigen?
--Cactus26 08:52, 7. Mär. 2008 (CET)
- Cactus, weite Teile deiner Ausführungen sehe ich auch so. Meine Schlussfolgerung: wir müssen so weit wie möglich abstrahieren und so der Falle entgehen, dass die Begriffe sich ändern.-- Kölscher Pitter 10:42, 7. Mär. 2008 (CET)
Kritik
Habe ja verspochen Kritik zu üben:
- Textdatei .....prinzipiell in Textform stilistisch nicht schön (Text ist Text)
- geändert.--Cactus26 14:18, 7. Mär. 2008 (CET)
- Stichwort Buchstabe oder Alphabet fehlt. Das ist das Element eines Textes.
- Sind mMn zu einschränkend, finde dies durch Zeichen (alias Schriftzeichen) besser repräsentiert.--Cactus26 14:18, 7. Mär. 2008 (CET)
- Stichwort Pixel fehlt. Hierdurch entstehen die "Elemente des Textes"
- Ist mir viel zu weit weg von Textdatei, hat wegen mir noch einen Bezug Schriftart, aber selbst da gibt es Vektorgrafiken, die den Bezug doch sehr indirekt machen.--Cactus26 14:18, 7. Mär. 2008 (CET)
- Einspruch. Allein wegen der Historie. Beim Senden von Bytewert 65 haut die Schreibmaschine den Buchstaben "A" ans Papier. Schirm und Drucker setzen das aus Pixeln zusammen. Gerade das ist ein wesentliches Computerprinzip. Alles zerhacken in die kleinstmöglichen Elemente und dann wieder zusammenpuzzeln.-- Kölscher Pitter 16:58, 7. Mär. 2008 (CET)
- Ist mir viel zu weit weg von Textdatei, hat wegen mir noch einen Bezug Schriftart, aber selbst da gibt es Vektorgrafiken, die den Bezug doch sehr indirekt machen.--Cactus26 14:18, 7. Mär. 2008 (CET)
- Gegenstück einer Textdatei..... Wieso "Gegen"?
- Binär- und Textdatei sind Begriffe, die ohne einander nicht leben können. Beide Begriffe sind ohne das Gegenstück mehr oder weniger sinnlos. Wenn alle Dateien Binärdateien sind, wozu brauche ich dann noch den Begriff?--Cactus26 14:18, 7. Mär. 2008 (CET)
- Alles wird binär gespeichert. Das Gegenstück (zu binär) wäre eine Speicherung mit mehrwertigen Einheiten. Vielleicht ist das in ferner Zukunft einmal technisch möglich. Binärdatei ist also ein Oberbegriff, kein Gegenstück (zu Text). Erst aus dem Zusammenhang wird klar: aha, das ist Text und aha, das ist Programm.-- Kölscher Pitter 17:12, 7. Mär. 2008 (CET)
- Klar wird alles binär gespeichert, aber wozu der Begriff Binärdatei, wenn er ein Oberbegriff ist und alle Dateien somit Binärdateien sind? Dann wäre der Begriff Datei ausreichend, da dann Binärdatei=Datei. Mehrwertige Logik mit mehr als zwei Zuständen ist wohl irrelevant, zumindest in Verbindung mit Speicherformaten. --Cactus26 17:34, 7. Mär. 2008 (CET)
- Nachtrag: Und die Darstellung im Artikel entspricht dem, wie die Begriffe verwendet werden und stellt obendrein den Widerspruch noch dar, dass alles eigentlich binär ist. Was willst Du mehr?--Cactus26 17:42, 7. Mär. 2008 (CET)
- Ich hoffe jetzt sind wir zusammen. Das Vorwort "Binär" ist derzeit tatsächlich überflüssig. Auch das ist historisch zu sehen. Man dachte noch in "analogen" Kategorien. "Binär" hat nur was mit dem Speicherprinzip zu tun. Nichts aber mit Inhalt und Zweck.-- Kölscher Pitter 18:24, 7. Mär. 2008 (CET)
- Alles wird binär gespeichert. Das Gegenstück (zu binär) wäre eine Speicherung mit mehrwertigen Einheiten. Vielleicht ist das in ferner Zukunft einmal technisch möglich. Binärdatei ist also ein Oberbegriff, kein Gegenstück (zu Text). Erst aus dem Zusammenhang wird klar: aha, das ist Text und aha, das ist Programm.-- Kölscher Pitter 17:12, 7. Mär. 2008 (CET)
- Binär- und Textdatei sind Begriffe, die ohne einander nicht leben können. Beide Begriffe sind ohne das Gegenstück mehr oder weniger sinnlos. Wenn alle Dateien Binärdateien sind, wozu brauche ich dann noch den Begriff?--Cactus26 14:18, 7. Mär. 2008 (CET)
- Spezifika wie .pdf usw. nicht in die Einleitung
- geändert.--Cactus26 14:18, 7. Mär. 2008 (CET)
Mir fällt bestimmt noch mehr ein. -- Kölscher Pitter 10:29, 7. Mär. 2008 (CET)
- Ich habe mal eine kleine Änderung am Introtext selbst angebracht. Den Rest schaue ich mir am Wochenende an.
- Ich kann nicht zustimmen, das Textdateien ein auslaufendes Modell sind. Es gibt mehr davon den je als Logdateien, Protokolldateien, Scriptdateien, Spielständenotations usw. usf.. Und dann denke man an den HTML-Quellcode - alles Textdateien ! 95% des Internets (statische HTML-Seiten, Internet-Server-Scripts (PHP,...) , ...... sind Textdateien !!! Es ist das am weitesten verbreitete Dateiformat. --Hgn-p 11:20, 7. Mär. 2008 (CET)
- Fällt schwer, aber andere Artikel verwenden auch die Schreibweise Kodierung, s. Ascii, Unicode --Hgn-p 11:40, 7. Mär. 2008 (CET)
- Wie würdest du eine Datei "kategorisieren" die folgendes enthält:
- sehr viel Text, Bilder, Noten, Hörbeispiele, interaktive Schaltflächen, technische Zeichnungen, Link-Infos usw. Willst du definieren: Eine Textdatei ist eine Datei die nur Text beinhaltet. Wenn ja, dann musst du dich damit abfinden: solche Dateien sterben aus. Es ist eindeutig ein Trend erkennbar zur Integration (alles in einem, keine Spezialisierung). -- Kölscher Pitter 11:42, 7. Mär. 2008 (CET)
- Dein Beispiel ist nach der Definition des Artikels eindeutig keine Textdatei. Dennoch sterben die Textdateien nicht aus, eher ist eine Zunahme zu verzeichnen (wie Hgn-p oben schreibt), allerdings nicht auf der Endbenutzer-Ebene und deshalb reden wir aneinander vorbei. Auf technischer Ebene sind die Textdateien eindeutig mehr geworden in den letzten Jahren. Dennoch könnte es sein, dass der Begriff ausstirbt, nicht etwas, weil es keine mehr gibt, sondern weil die Grenzen verschwimmen. Auch wenn in 20 Jahren alle Dateien XML-Dateien sind, ist der Begriff "Textdatei" irgendwie sinnlos.--Cactus26 14:24, 7. Mär. 2008 (CET)
- Der Intro-Text ist m.E. jetzt in Ordnung mit einer kleinen Ausnahme: Der Nachsatz mit den flat files gehört raus. Auch sequentielle Dateien, die beispielsweise aus den Indextabellen usw. einer Datenbank extrahiert sind, bezeichnet man als flat files im Unterschied zur Anordnung der Daten in der Datenbank. Das sind jedoch Binärdateien. Ein Kalenderdatum wird beispielsweise nicht in der druck- und lesebaren Form, sondern in der Binärdarstellung gespeichert. Auch komplexe Objekte wie Bildschirmforms mit Actionsbuttons, Menüs, diversen Dialogfeldern usw. können als binäre "flat file" sequentialisiert werden. Der Begriff sollte hier gar nicht auftauchen.
- Die Einfachheit der Bearbeitung von Strings ( = Zeilen einer Textdatei), dafür vorhandene Klassen in allen Programmiersprachen und neue Techniken wie sich selbst beschreibende Strukturen (XML Textfile) werden Textfiles zur wichtigsten Datenstruktur überhaupt machen. Intelligente Qualitätssicherungssysteme haben als Input Textfiles: Den Quellcode von C++, PHP und sonstiges Files. Ich finde es grundsätzlich gut, dass du das Wikipedia-Mauerblümchen "Textfile" adoptiert hast. Vom Image dieser "readme" - Dateien muss man sich gedanklich mal entfernen. Die wichtigen Internet-Server und deren untergeordnete Interpreter für Script-Sprachen sind allein im Prinzip komplexe Programme, die hauptsächlich Textfiles verarbeiten, erzeugen oder weiterleiten. --Hgn-p 15:57, 7. Mär. 2008 (CET)
- Uff, wir kommen uns näher. Ich denke, wir brauchen auch nicht weiter über die Zukunft von Textdateien und dem Begriff "Textdatei" philosophieren, wir sind uns einig, dass er derzeit eine Bedeutung hat, die zumindest nicht vernachlässigbar ist, und in dieser sind wir uns ja auch weitgehend einig. Zum Hinweis "Flat File": Wahrscheinlich hast Du da Recht, mir ist der Begriff Flat-File in letzter Zeit nicht in Verbindung mit binärem Inhalt begegnet, ich habe en:Flat file kurz überflogen, was Deine Aussage aber bestätigt.--Cactus26 16:33, 7. Mär. 2008 (CET)
Anmerkungen Kandidatur 2009/12
Aus der Kandidatur-Disk. übertragen:
- Ein knackige Definition fehlt: Plain text in RFC 4288 wäre vielleicht ein guter Ansatz und vermeidet Aussagen wie „Das Gegenstück zur Textdatei stellt eine Binärdatei dar“.
- „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“ - das trifft lediglich für Plain text zu, aber nicht für Datenaustauschformate wie beispielsweise SYLK, da diese (wie auch XML) auch Semantik beinhalten.
- „am gebräuchlichsten sind hierbei ASCII oder Unicode“. - Was ist mit EBCDIC oder ANSI?
- „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ - diese Abgrenzung (im Gegensatz zu Binärdateien) finde ich wesentlich wichtiger.
- Der Geschichtsabschnitt ist mager. Sätze wie „In der Anfangszeit der elektronischen Datenverarbeitung war die Unterscheidung zwischen Text- und Binärdateien einfacher und von größerer Bedeutung als heute“ bedürfen eines Nachweises oder solche wie „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ sind ohne weiters nicht verständlich.
- Was mir sonst noch so aufällt schreib ich auf die Disk des Artikels. Aber wahrscheinlich erst im nächsten Jahr. - Nix für ungut --Succu 21:52, 29. Dez. 2009 (CET)
Danke schon mal für Deine Anmerkungen. Im einzelnen:
- Eine knackige Definition: Die gibt es halt nicht, das wäre einfach. Man kann sich hier nur darin versuchen zu beschreiben, was ist meist in etwa gemeint, wenn jemand von "Textdatei" spricht ("Schick mir das mal als Textdatei!"). Ich habe in der Zwischenzeit einige Definitionsversuche gesehen (in der Literatur, im Web, teilweise hier als Quelle verwendet). Es gibt da auch Widersprüche, aber es gibt doch eine deutliche Tendenz, die auch meiner persönlichen Erfahrung mit diesem Begriff entspricht. Schwammig bliebt es jeden Fall.
- „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“. Hier ist die Frage, was "lesbar" heißt. SYLK und XML ist schon lesbar, auch wenn man nicht ersteht, wozu es eigentlich gut sein soll (aber das ist ja häufig so...).
- EBCDIC und ANSI kommen unten
- „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ : Verstehe ich Dich richtig, Du hältst die Definition "alles ist Textdatei, was in irgend einer Form dem Endbenutzer eine lesbaren Text präsentiert" für bedeutender?
- Geschichte der Textdatei, mager. Na ja. In der Literatur beschäftigt sich kaum jemand mit so etwas profanem wie einer "Textdatei". In vielen Büchern wird der Begriff verwendet und nicht mal ansatzweise definiert. Mir ist auch noch nichts begegnet, das sich mit der Geschichte der Textdatei beschäftigt, außer vielleicht das, aber das ist in der Tat sehr eigenwillig und scheint nur eine sentimentale Aufarbeitung der früheren textbasierten BBS (wie auch http://www.textfiles.com/)
- Nachweis für "früher war die Unterscheidung zwischen Text- und Binärdateien .... von größerer Bedeutung als heute, Nachweis. Schwierig, habe ehrlich gesagt schon vergeblich danach gesucht. Zweifelst Du an der Aussage an sich?
- „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ Habe ich umformuliert, besser?
Freue mich auf Dein weiteres Feedback, vlt. kannst Du mich ja bei der Suche guter Quellen für den Geschichtsteil auch ein wenig unterstützen. Ich habe nur noch auf dem Speicher meine Uraltliteratur, verspreche mir aber von deren Sichtung nicht viel außer Staub. --Cactus26 11:11, 30. Dez. 2009 (CET)
- Die Einleitung liest sich schon deutlich besser. Da du unter Geschichte schreibts „...warum sich in Textdateien Steuerzeichen wie „Zeilenvorschub“ oder „Wagenrücklauf“ finden können“ wäre es m.E. besser wenn der Begriff „Steuerzeichen“ dort auftauchen würde. Etwa so: Etwa so die durch Steuerzeichen, wie bespielsweise Zeilen- und Seitenwechsel, untergliedert sein kann. Da wären dann die gebräuchlichen TABs noch mit abgedeckt. Den Einschub „wie beispielsweise mit Notepad unter Microsoft Windows“ würde ich heraussnehmen, sonst ist die UNIX/LINUX-Fraktion möglicherweise verschnupft (Emacs).
- Im Abschnitt Geschichte solltest du noch das Jahr der Einführung von Unicode erwähnen und den Zeitpunkt zu dem UTF Bestandteil der RFCs des Webkonsortiums wurde. Mal schaun ob ich noch etwas wichtes zu Geschichte finde. Vielleicht lohnt hier die Erwähnung von vi und EDLIN.
- Ich würde die Bezeichnung "Textdatei" für ein Dateiformat stärker gewichtet im Artikel sehen wollen. Beispielsweise ist das Rich Text Format eine Textdatei in deinem Sinn, aber ohne einen Dateibetrachter nutzlos für den Benutzer.
- Ich veruche mal im Laufe des Tages die restlichen Abschnitte genauer zu lesen.
- Dir noch ein verspätetes "Gesundes Neues" --Succu 08:26, 2. Jan. 2010 (CET)
Wünsche Dir auch ein Gutes Jahr 2010! Zu Deinen Punkten:
- Erwähnung "Steuerzeichen" in der Einleitung: Habe ich umgesetzt. Du hast Recht, sonst bleibt das vlt. zu nebulös. Das "beispielsweise" habe ich weggelassen, da das "wie" mMn allein schon ausreichend sein müsste
- Erwähnung "notepad", Gefahr der Unix-Fraktions-Verschnupfung: Würde ich gerne drinlassen. Mein Argument (neben der Verbreitung von Windows): Wer Unix/Linux benutzt, weiß was ein Texteditor ist und braucht das Bsp. nicht, bei Windows gilt das nicht
- Datum der Einführung von Unicode. Weiß nicht. Hier ist das mMn nicht so entscheidend . Wichtiger wäre, wann Unicode Einzug bei der Codierung für Textdateien gehalten hat. Das ist vermutlich einiges später und war schleichend. Für Windows wäre das wohl seit Windows 2000, da hat Notepad erstmals Unicode unterstützt.
- "RTF ist eine Textdatei in meinem Sinne": Ist sie, aber das "meine" ist unangebracht, ich habe das nicht definiert (da überschätzt Du mich). Ich bin ein wenig zufällig zum Thema Textdatei gekommen, das war vor etwa einem Jahr, als der Artikel einen Redundanzbst. trug und ich ihn auf der ToDo-Liste hatte. Da YMS die Redundanz bereits erledigt hatte, als ich mich der Sache widmen wollte, habe ich den Artikel halt ausgebaut, um auch was beizutragen. Seitdem bin ich aber sensibilisiert und nehme die Verwendungen des Begriffs in Literatur und Web sehr bewusst zur Kenntnis. Ich möchte schätzen, dass 95% der Verwendungen des Begriffs der im Artikel dargelegten Definition entsprechen. Hier in der WP werde ich dagegen erstaunlich oft mit der Meinung konfrontiert, eine Textdatei sei alles, was dem Benutzer in irgend einer Form einen Text präsentiert, wie immer es gespeichert ist. Bei einer solchen Definition wäre der Begriff in der Tat genauso sinnvoll wie der Begriff "Liebesbriefdatei". Diese Definition findet sich meist in Büchern oder Webseiten der Art "Computer für Dummies", die es einfach machen wollen, indem sie es falsch machen.
Erstaunlich finde ich, welche kontroversen und teilweise emotionalen Diskussionen es hier beim Thema "Textdatei" gibt. Das soll aber nicht heißen, ich hätte keine Lust auf eine konstruktive Diskussion. Worauf ich allerdings keine Lust mehr habe, ist eine Diskussion bei der es nur um die Zurschaustellung des eigenen Wissens geht. Der Trieb dazu ist bei Informatikern weit verbreitet, das weiß ich, aber im RL reicht mir das eigentlich. Ich weiß aber, dass wir uns gut genug kennen, dass diese Gefahr bei Dir nicht besteht. Umso gespannter bin ich auf Dein Feedback.--Cactus26 13:45, 2. Jan. 2010 (CET)
- Zum Glück bin ich kein Informatiker ;), aber technologielastige- und wenig lösungsbezogene Diskussionen kenne ich zu genüge aus meiner Arbeitsalltag. Also erstmal Asche auf mein Haupt, das ich den Artikel nicht eher komplett zu Ende gelesen habe.
- Ich denke inhaltlich ist alles drin was für lesenswert rein muß.
- Die Abgrenzung zu Textverarbeitungsdateien die zusätzlich die Textformatierung speichern (Textverarbeitungsformate wie RTF, PDF, PS, etc.) und Datenaustauschformaten (CSV u.a.) hast du dargestellt. Das mir die Abgrenzung wichtig erschien hat wohl eher mit meiner eigenen intensiveren Beschäftigung mit etlichen dieser Formate zu tun.
- Das Stichwort „Fernschreiber“ wäre vielleicht im Geschichtsabschnitt noch sinnvoll. Nochmal zu Unicode: Eher was für die Exzellenz-Auszeichnung. Es brauchte ja erstmal Unicode-basierte Betriebssysteme (wie beispielsweise WinNT) bevor sich Textdateien auf dieser Grundlage etablieren konnten.
- Im Abschnitt „Kennzeichnung mittels Steuerzeichen“ solltest du evtl. den Fallstrick gegen das weniger prosaische Wörtchen Problem o.ä, austauschen. Ich persönlich würde die beiden Abschnitte „Kennzeichnung des Zeilenendes“ und „Andere Steuerzeichen“ und einer gemeinsamen Überschrift, z.B. „Steuerzeichen“, zusammenfassen.
- „Austausch zwischen unterschiedlichen Systemen“: da fallen mir noch die Stichworte Webbrowser (wg. Codierung) und Firewall im Zusammenhang mit der heutigen Bedeutung (XML) von Textdateien ein. Vielleicht läßt sich da noch etwas ergänzen.
- Ich hoffe die paar Kleinigkeiten helfen noch ein wenig. Ich werde ganz sicher in der Zukunft genauer hinschauen, wenn in der Literatur von einer Textdatei die Rede ist. --Gruß Succu 18:03, 2. Jan. 2010 (CET)
Wenn Du über etwas interessantes in diesem Zusammenhang stößt, lass es mich wissen. Es ist in der Tat ungemein schwierig, bei diesem Thema gezielt zu suchen, weil es fast immer beiläufig abgehandelt wird, wenn überhaupt. Zu Deinen Punkten:
- "Fernschreiber" habe ich im Geschichtsabschn. ergänzt und noch etwas weiter ausgeführt. Der Ursprung für CR/LF ist ja der Baudot-Code, diese Zeichen wurden dann in ASCII (und EBCDIC) übernommen.
- Über die genaue Historie, wann Unicode welche Bedeutung hatte (insbesondere in Bezug auf Textdateien), kann ich im Moment nichts Detailliertes sagen. Werde da nochmal forschen..
- "Fallstrick" ist wirklich für das CR/LF-Problem etwas übertrieben. Als ich das schrieb, dachte ich an die Implementierung der Funktion setpos der C-Runtime-Bibl. eines Windows-Compilers, die ich mal im Sourcecode bewundert habe. Welche Kurven die für den Textmodus fliegen muss, um den scheinbar korrekten Dateioffset zu ermitteln, ist beeindruckend. Aber dass das so kompliziert ist, liegt daran, dass man sich bei Implementierung der DOS- und Windows-Compilern entschieden hat, so zu tun, als hätte die Datei wie unter UNIX nur ein LF (damit es kompatibel ist). Aber beim normalen Austausch von Dateien spielt es heute fast keine Rolle mehr, die meisten Editoren kommen heute mit unpassenden CR/LF-Konstellationen ganz gut zurecht.
- Webbrowser/Firewall: Der Zusammenhang zwischen Webbrowser und Dateien ist vielleicht doch etwas indirekt. Aber Firewalls sind möglicherweise durchaus ein zu erwähnender Aspekt, da diese wohl auch ein Grund sind, warum Textformate bei Dateien populär wurden. Ich suche mal, ob ich dazu eine Quelle findet, diese Vermutung bestätigt.
--Cactus26 15:45, 3. Jan. 2010 (CET)
Aus der Kandidatur-Disk. übertragen:
- Momentan noch ohne Wertung (nur ausschnittsweise gelesen), nur ein paar Punkte:
- „Unter Windows wird dem Namen einer Textdatei in der Regel die Endung .txt angehängt.“ – Nö. Das trifft nur dann zu, wenn man Scripte, Quelltexte (HTML z.B.) und Co ignoriert, das sind jedoch auch „Textdateien“.
- „Unter Unix, Linux und verwandten Systemen wird das Zeilenende alleine mittels LF gekennzeichnet.“ – Nö. Es werden ebenfalls CR+LF verwendet, das ist für diverse Protokolle nämlich nötig. Stichwort: rfc822. Spätestens mit „Auch eine im [PDF-Format] vorliegender Text ist keine Textdatei, weil diese binär codierte Formatinformationen enthält.“ wird das aber absurd (und hat'n Typo), eine gespeichterte Mail bleibt Text, auch wenn da uuencode/Base64-kodiertes Binärzeug drin ist. „Für den in einer Textdatei enthaltenen Text können keine besonderen Formatierungen wie beispielsweise Hervorhebungen durch Fettdarstellung festgelegt werden.“ stimmt übrigens auch nicht, einerseits gibt es Syntax-Highlighting, das ganz genau das macht, zum anderen gibt/gab es ANSI control codes (sowas wie ^[[1;32;40m wenn ich die Syntax noch richtig im Kopf hab), mit denen die Darstellung auf Textterminals aufgehübscht wurde.
- „Der Medientyp text kennzeichnet dabei Textdateien.“ – Diese Aussage halte ich einfach für Mist. text/* kennzeichnet *Datenentitäten*, nicht Dateien. Letztere sind vom Filesystem bereitgestellte Datencontainer, deren Metadaten und Eigenschaften interessiert MIME nicht. Wesentlich ist einzig das Format der Daten darin. Böse mnhs behaupten gar, dass der Begriff „Textdatei“ deshalb im Grunde ziemlich fragwürdig ist, über „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ käme ich beim Schreiben nicht hinaus.
- Fragen am Rande: Ist eine named pipe, hinter der ein Text schreibender daemon sitzt, eine Textdatei? Was ist mit /dev/mnhprint, der örtlichen Druckerdatei, die bei Leseversuchen „Hugo ist doof!<CR><LF>“ ausgibt, schreibend aber normal funktioniert? Textdatei?
- Viele Grüße, —mnh•∇• 04:39, 30. Dez. 2009 (CET)
Danke für Dein Feedback. Im einzelnen:
- Unter Windows nicht immer Endung ".txt": Stimmt, ich wollte hier keine (endlose) Auflistung aller möglichen Dateierweiterungen (insbes. wenn man die in Auszeichnungsprachen einbezieht) und nur eine (die repräsentativste) herausgreifen. Habe "in der Regel" durch "häufig" ersetzt.
- Unter UNIX ebenfalls CRLF. Das wäre mir neu. Vorsicht: rfc822 bezieht sich auf Messages, nicht auf Dateien.
- Eine in Base64 gespeicherte Mail bleibt Text. Hier hast Du im doppelten Sinne Recht. In der Einleitung steht, dass der Begriff verschwommen ist, weil er auf unterschiedlichen Abstraktionsebenen verwendet werden kann. Das ist hier der Fall. Meine ich den eigentlichen Mail-Inhalt oder meine ich das physische Speicherformat der Mail?. In diesem Fall ist es egal, weil beides Text ist, auch das Base64-Format besteht ja nur aus Zeichen.
- ANSI control codes. Auch hier hast Du Recht, ich kann nur wiederholen, die Abgrenzung ist schwierig. Im Abschnitt "Andere Steuerzeichen" wird diese Problematik behandelt. Dieser Sachverhalt wird wie viele Aussagen des Artikels am Anfang etwas schwammig behandelt. Sie werden erst später konkretisiert. Dies scheint mir aber nötig, um Laien nicht gleich mit der vollen Breite aller Variationsmöglichkeiten zu überfordern.
- „Der Medientyp text kennzeichnet dabei Textdateien.“ – Aussage ist Mist.
Stimmt wohl. Habe Textdateien mal durch "Text" ersetzt. Mir ist durchaus klar, dass der Medientyp ein Konzept ist, dass nicht nur für Dateien angewandt wird. Wenn eine Datei als Anhang einer Mail verschickt wird, bezieht er sich aber auf die Datei. Der Medientyp beschreibt, wenn er in dieser Weise verwendet wird, recht präzise, was eine Textdatei ist. Da es an präzisen Definition mangelt, hielt ich es für nützlich, hier so ausführlich auf den Medientyp einzugehen. - "Der Begriff Textdatei ist fragwürdig": Ist er, ohne Frage. Aber es gibt ihn. Und ich wollte mich der Herausforderung stellen, hier einen Versuch zu unternehmen, dieses schwammige Ding zu beschreiben. Eine knackige Definition gibt es halt nicht, das wäre einfach. Man kann sich hier nur darin versuchen zu beschreiben, was ist meist in etwa gemeint, wenn jemand von "Textdatei" spricht ("Schick mir das mal als Textdatei!"). Ich habe in der Zwischenzeit einige Definitionsversuche gesehen (in der Literatur, im Web, teilweise hier als Quelle verwendet). Es gibt da Widersprüche (es gibt durchaus auch die Aussage, Dateien mit der Endung ".doc" seien Textdateien), aber es gibt doch eine deutliche Tendenz, die auch meiner persönlichen Erfahrung mit diesem Begriff entspricht. Der Artikel ist in Details immer angreifbar und die Diskussionen darüber führen zu wenig bis nichts, wenn sie in Rechthaberei ausarten.
- Nachtrag: Bin gerade über eine neue Quelle gestolpert, die mich inspiriert hat, diesen Sachverhalt besser auf den Punkt zu bringen (letzter Absatz im Abschnitt Geschichte). Nach weiterer Literaturrecherche kann ich nur sagen, der Begriff wird massiv verwendet, es fehlt häufig an einer vernüftigen Definition, Dein obiges „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ triff die übliche Verwendung des Begriffs kaum.--Cactus26 15:21, 31. Dez. 2009 (CET)
- Fragen am Rande: Mit diesen dehnst Du die Abgrenzungsproblematik auch noch darauf aus, was eigentlich eine Datei ist. Da möchte ich Dich zum Autor des Artikels "Datei" verweisen, dieser Frage möchte ich mich nicht auch noch stellen.
--Cactus26 10:09, 30. Dez. 2009 (CET)
Ein Byte = 8 Bit?
Früher, heißt es, wurden Zeichen immer in jeweils einem Byte abgebildet, und dass seien 8 Bit. Früher, so wie ich das weiß, war ein Byte definiert als die Anzahl der Bits, die ein Zeichen halten können, und es gab Maschinen mit 6-Bit-Bytes und auch solche mit 9-Bit-Bytes. --Joachim Pense (d) 14:54, 30. Dez. 2009 (CET)
- Das ist mir tats. neu. Zwei mir verfügbare recht alte Lexika (1988 und 1989) behaupten zweifelsfrei 1 Byte = 8 Bit (ggf. ein zus, Prüfbit, das tut aber hier nichts zur Sache). Mal unabhängig davon, ob das nun für einen Artikel Textdatei überhaupt relevant ist: Hast Du eine Quelle dafür?--Cactus26 17:51, 30. Dez. 2009 (CET)
- Erstmal den Artikel Byte. Da werden UNIVAC-Maschinen mit 9-Bit-Bytes erwähnt. Die englische WP schreibt Various implementations of C and C++ define a byte as 8, 9, 16, 32, or 36 bits und gibt auch Referenzen. hier kommen Bytes mit 6 und 7 Bit vor (die dann als 6-Bit-Byte etc. bezeichnet werden). Hier steht auch was. --Joachim Pense (d) 18:00, 30. Dez. 2009 (CET)
- Deine Aussage stimmt wohl, wobei ich nicht alle Quellen hier ernst nehmen möchte. Aber die im engl. Artikel en:Byte angegebene Quelle (Buchholz 1962 (großes PDF)) ist eindeutig. Ich war nicht sicher, ob man die kleinste Adressierungseinheit damals schon Byte genannt hat, aber man hat es offensichtlich. Ich behaupte mal, dass das hier kaum relevant ist. Insbesondere die Aussage, dass verschiedene C und C++ Implementierungen unterschiedliche Byte-Längen verwenden, ist sonderbar, ich programmiere diese Sprachen nicht erst seit gestern und mir ist noch keine solche über den Weg gelaufen (auch nicht bei 64-Bit Compilern!), ANSI-C definiert obendrein das Byte als 8-Bit. Ich würde mal sagen, dass es in den Zeiten, in denen mit der Byte-Größe noch wirklich experimentiert wurde, noch kaum Dateien gab (eher Lochkartenstapel), geschweige denn den Begriff Textdatei. Das "früher" im Artikel bezieht sich also bereits auf Zeiten, in denen das 8-bitige Byte bereits Gesetz war. Ich habe die Aussage 1 Byte=8Bit nun relativiert. Weiter müssen wir dieses Fass hier nicht aufmachen, finde ich. Aber danke für diesen Hinweis, man lernt nie aus.--Cactus26 18:32, 30. Dez. 2009 (CET)
- Die Texte bestanden halt aus Großbuchstaben, da haben 6 Bit ausgereicht. Viel Erfolg noch! --Joachim Pense (d) 18:42, 30. Dez. 2009 (CET)
- Deine Aussage stimmt wohl, wobei ich nicht alle Quellen hier ernst nehmen möchte. Aber die im engl. Artikel en:Byte angegebene Quelle (Buchholz 1962 (großes PDF)) ist eindeutig. Ich war nicht sicher, ob man die kleinste Adressierungseinheit damals schon Byte genannt hat, aber man hat es offensichtlich. Ich behaupte mal, dass das hier kaum relevant ist. Insbesondere die Aussage, dass verschiedene C und C++ Implementierungen unterschiedliche Byte-Längen verwenden, ist sonderbar, ich programmiere diese Sprachen nicht erst seit gestern und mir ist noch keine solche über den Weg gelaufen (auch nicht bei 64-Bit Compilern!), ANSI-C definiert obendrein das Byte als 8-Bit. Ich würde mal sagen, dass es in den Zeiten, in denen mit der Byte-Größe noch wirklich experimentiert wurde, noch kaum Dateien gab (eher Lochkartenstapel), geschweige denn den Begriff Textdatei. Das "früher" im Artikel bezieht sich also bereits auf Zeiten, in denen das 8-bitige Byte bereits Gesetz war. Ich habe die Aussage 1 Byte=8Bit nun relativiert. Weiter müssen wir dieses Fass hier nicht aufmachen, finde ich. Aber danke für diesen Hinweis, man lernt nie aus.--Cactus26 18:32, 30. Dez. 2009 (CET)
- Erstmal den Artikel Byte. Da werden UNIVAC-Maschinen mit 9-Bit-Bytes erwähnt. Die englische WP schreibt Various implementations of C and C++ define a byte as 8, 9, 16, 32, or 36 bits und gibt auch Referenzen. hier kommen Bytes mit 6 und 7 Bit vor (die dann als 6-Bit-Byte etc. bezeichnet werden). Hier steht auch was. --Joachim Pense (d) 18:00, 30. Dez. 2009 (CET)
Die Wiege war natürlich der Fernschreiber. Die Sekretärin fertigte einen Probeausdruck zusammen mit einem Lochstreifen an. Der Boss las Korrektur und mit sieben Bits ging es auf die Reise. Ein Byte (ein Zeichen) waren 7 Bits. Nicht lange. Die Fernschreiber auf den Schrott und die ersten Computer hatten einen "erweiterten" Zeichenvorrat mit 8 Bits.-- Kölscher Pitter 13:04, 7. Jan. 2010 (CET)
- So hat es sich wohl abgespielt. Als die Computer in die "Domäne der Fernschreiber" vordrangen, war 1Byte=8bit schon etabliert. Dies war wohl eher durch technische Aspekte der ALU motiviert als durch Texte, da Rechner früher ja wirklich zum Rechnen verwendet wurden..--Cactus26 15:41, 7. Jan. 2010 (CET)
- Richtig. Es musste eine Zweier-Potenz sein. Also 2 hoch 3.-- Kölscher Pitter 17:32, 8. Jan. 2010 (CET)
Zeichenkodierung
Ich habe ja leider keine Ahnung vom Thema, aber dennoch den Eindruck, dass der Abschnitt "Zeichenkodierung" etwas euro- bzw. lateinschriftzentrisch ist. Weltweit sind doch noch mehr Kodierungen als die genannten verbreitet, siehe z. B. Kategorie:Zeichenkodierung für die chinesische Schrift und Kategorie:Zeichenkodierung für die japanische Schrift-- Katakana-Peter 16:30, 6. Jan. 2010 (CET)
- Da hast Du wohl recht. Eine gewisse lateinzentrierung finde ich allerdings auch angebracht. Im Abschnitt "Zeichenkodierung" selbst würde ich die älteren nicht-lateinischen Codierungen weiterhin eher nicht erwähnen, aber man könnte deutlicher darauf hinweisen, dass Unicode dies heute abdeckt (ich denke, dass sich bei nicht-lateinischen Systemen Unicode besonders schnell durchsetzen konnte). Im Abschnitt "Geschichte" könnte man vlt. aber hierzu auch etwas ergänzen, ich muss da aber erst ein wenig recherchieren. Danke für Dein Feedback.--Cactus26 11:47, 7. Jan. 2010 (CET)
- Nachtrag: Habe jetzt mal das ergänzt. Was hälst Du davon? Mal schauen, ob ich noch an anderer Stelle darauf eingehe.--Cactus26 14:41, 7. Jan. 2010 (CET)
Kandidatur-Diskussion vom 29.12.2009 - 8.1.2010 (Lesenswert)
Ein in der IT nicht selten verwendeter Begriff, der jedoch sehr selten klar definiert wird, zudem wird der Begriff nicht zuletzt durch viele auf dem Textformat basierende Auszeichnungssprachen (z.B. XML) und die zunehmende Verbreitung von Unicode immer verschwommener. Dennoch scheint er (noch) eine gewissen Bedeutung zu besitzen, wie sie Zugriffszahlen zeigen (ein ausgeprägter "Werktagsartikel"). Der Artikel hat schon mal kandidiert, damals haben wir uns vielleicht in der Diskussion etwas verzettelt, woran ich sicher auch nicht unschuldig war. Ich habe den Artikel jetzt noch mal durchgesehen, etwas gestrafft und finde, dass er die mit diesem Thema zusammenhängenden Aspekte ganz gut darstellt. Es interessiert mich sehr, ob jemand etwas damit anfangen kann.--Cactus26 15:49, 29. Dez. 2009 (CET)
- Für exzellent reicht es nicht, aber ist er. -- LesenswertMorten Haan 17:56, 29. Dez. 2009 (CET)
- Die 7/8-Bit-Problematik fehlt nicht nur, sondern wird mit der Behauptung, früher wären es "praktisch ausschließlich immer" 8 Bit gewesen, direkt abgestritten. Tatsächlich sind viele Textdateien bis heute praktisch auf 7 Bit beschränkt. --84.151.14.225 19:21, 29. Dez. 2009 (CET)
- Ja, ja, hatte ich rausgeworfen (gilt halt nur für ASCII, für EBCDIC galt das nie), nehme es reumütig wieder auf, zufrieden?--Cactus26
- liest sich ganz nett und flüssig. Könnte aber ein paar Füllwörter weniger haben. Mir gefällt er, ohne Experte für Dateiformate zu sein, aber etwas Vorkenntnis zu haben. … Lesenswertblunt. 20:50, 29. Dez. 2009 (CET)
- . Was mir gefällt: Der Artikel kommt ganz gut auch ohne Fachchinesisch aus. Selbst ich, als nicht ITler habe verstanden, um was es geht. Daher voll und ganz Lesenswert (als Laie). -- LesenswertGrüße aus Memmingen 20:57, 29. Dez. 2009 (CET)
AbwartendIch hab nur quer gelesen, aber einige Punkte sind mir aufgefallen (hauptsächlich aus der Einleitung):
- Ein knackige Definition fehlt: Plain text in RFC 4288 wäre vielleicht ein guter Ansatz und vermeidet Aussagen wie „Das Gegenstück zur Textdatei stellt eine Binärdatei dar“.
- „Eine Textdatei ist im Gegensatz zu einer Binärdatei ohne die Verwendung spezieller Software lesbar“ - das trifft lediglich für Plain text zu, aber nicht für Datenaustauschformate wie beispielsweise SYLK, da diese (wie auch XML) auch Semantik beinhalten.
- „am gebräuchlichsten sind hierbei ASCII oder Unicode“. - Was ist mit EBCDIC oder ANSI?
- „Umgangssprachlich werden gelegentlich alle Dateien als „Textdatei“ bezeichnet...“ - diese Abgrenzung (im Gegensatz zu Binärdateien) finde ich wesentlich wichtiger.
- Der Geschichtsabschnitt ist mager. Sätze wie „In der Anfangszeit der elektronischen Datenverarbeitung war die Unterscheidung zwischen Text- und Binärdateien einfacher und von größerer Bedeutung als heute“ bedürfen eines Nachweises oder solche wie „Früher wurde dabei praktisch ausschließlich ein Zeichen immer direkt in ein Byte umgesetzt...“ sind ohne weiters nicht verständlich.
- Was mir sonst noch so aufällt schreib ich auf die Disk des Artikels. Aber wahrscheinlich erst im nächsten Jahr. - Nix für ungut --Succu 21:52, 29. Dez. 2009 (CET)
- Habe Dir schon mal hier geantwortet.--Cactus26 11:14, 30. Dez. 2009 (CET)
- Für reicht es mir jetzt nach den vielen kleinen Änderungen, da inhaltlich alle wesentlichen Punkte behandelt werden. -- LesenswertSuccu 18:10, 2. Jan. 2010 (CET)
- Habe Dir schon mal hier geantwortet.--Cactus26 11:14, 30. Dez. 2009 (CET)
Momentan noch ohne Wertung (nur ausschnittsweise gelesen), nur ein paar Punkte:
- „Unter Windows wird dem Namen einer Textdatei in der Regel die Endung .txt angehängt.“ – Nö. Das trifft nur dann zu, wenn man Scripte, Quelltexte (HTML z.B.) und Co ignoriert, das sind jedoch auch „Textdateien“.
- „Unter Unix, Linux und verwandten Systemen wird das Zeilenende alleine mittels LF gekennzeichnet.“ – Nö. Es werden ebenfalls CR+LF verwendet, das ist für diverse Protokolle nämlich nötig. Stichwort: rfc822. Spätestens mit „Auch eine im [PDF-Format] vorliegender Text ist keine Textdatei, weil diese binär codierte Formatinformationen enthält.“ wird das aber absurd (und hat'n Typo), eine gespeichterte Mail bleibt Text, auch wenn da uuencode/Base64-kodiertes Binärzeug drin ist. „Für den in einer Textdatei enthaltenen Text können keine besonderen Formatierungen wie beispielsweise Hervorhebungen durch Fettdarstellung festgelegt werden.“ stimmt übrigens auch nicht, einerseits gibt es Syntax-Highlighting, das ganz genau das macht, zum anderen gibt/gab es ANSI control codes (sowas wie ^[[1;32;40m wenn ich die Syntax noch richtig im Kopf hab), mit denen die Darstellung auf Textterminals aufgehübscht wurde.
- „Der Medientyp text kennzeichnet dabei Textdateien.“ – Diese Aussage halte ich einfach für Mist. text/* kennzeichnet *Datenentitäten*, nicht Dateien. Letztere sind vom Filesystem bereitgestellte Datencontainer, deren Metadaten und Eigenschaften interessiert MIME nicht. Wesentlich ist einzig das Format der Daten darin. Böse mnhs behaupten gar, dass der Begriff „Textdatei“ deshalb im Grunde ziemlich fragwürdig ist, über „umgangssprachliche Bezeichnung für eine Datei mit Textdaten“ käme ich beim Schreiben nicht hinaus.
- Fragen am Rande: Ist eine named pipe, hinter der ein Text schreibender daemon sitzt, eine Textdatei? Was ist mit /dev/mnhprint, der örtlichen Druckerdatei, die bei Leseversuchen „Hugo ist doof!<CR><LF>“ ausgibt, schreibend aber normal funktioniert? Textdatei?
Viele Grüße, —mnh·∇· 04:39, 30. Dez. 2009 (CET)
- Danke für Dein Feedback. Habe hier versucht, Deine Fragen zu beantworten.--Cactus26 10:14, 30. Dez. 2009 (CET)
- Kommentar: Dateien enthalten nie Schriftzeichen, insofern ist die Einleitung eine en:Lie-to-children --Pjacobi 14:33, 31. Dez. 2009 (CET)
- , ein paar Hinweise noch: Lesenswert
- feste Zeilenlänge: Ergänzung, daß die Länge bekannt sein muß (übliche Werte?)
- "... Inhalt wird nach einer für die jeweilige Datei fest vorgegebenen Regel in Text umgewandelt": Hier sollte erwähnt werden, daß der Leser der Datei diese Regel kennen muß, der Datei sieht man das ja nicht an.
- Zeichencodierung: hier könnte die Anzahl der codierten Zeichen angegeben werden.
- Zeichencodierung/Unicode: Den Hinweis zu UTF-8/16 in der Liste würde ich in den Absatz über Unicode verschieben (vielleicht auch den Absatz über falsche Codierung mit dem Unicode-Absatz tauschen). Außerdem könnte erläutert werden, daß die ersten 128 Zeichen bei UTF-8 wie in ASCII in einem Byte gespeichert werden und für weitere Zeichen zusätzliche Bytes verwendet werden.
- Verwendung von Textdateien: Es könnte noch etwas mehr zum Datenaustausch (Ex-/Import) sowie zum Quellcode von Programmen geschrieben werden.
- das "genaugenommen" hab ich ersetzt, da es ja keine "genaue" Definition gibt
- ist PDF ein Nachfolger von PostScript? -- 80.146.127.214 15:14, 6. Jan. 2010 (CET)
- Danke für Deine Verbesserungen und Deine Anregungen. Zu Deinen Punkten:
- Feste Zeilenlänge, Zeilenlänge muss bekannt sein: Habe ich umgesetzt
- "Leser muss die Regel kennen": "Der Leser (=Benutzer)" ist etwas unpräzise, meist ist es ja das System, dass die Codierung erkennt. Zudem werden dabei diverse Heuristiken verwendet, mit denen Editoren z.B. die Codierung "erraten", zum anderen gibt es seit Unicode die Byte Order Mark. Das an dieser Stelle zu erläutern, scheint mir aber zu ausufernd, der Hinweis weiter unten ("Wird eine Textdatei unter Verwendung einer falschen Zeichencodierung interpretiert") scheint mir ausreichend und ohne sich zu verzetteln auf diese Problematik hinzuweisen.
- Angabe der Anzahl der codierten Zeichen angeben: Das würde ich hier lieber den verlinkten Artikeln überlassen, sonst muss man sich hier möglicherweise noch der Problematik Steuerzeichen/druckbare Zeichen u.ä. stellen.
- Zeichencodierung/Unicode: Die Anregungen habe ich versucht umzusetzen, bitte prüfe es nochmal.
- Mehr zum Import/Export, Quellcode: Spontan habe ich dazu keine tolle Idee, ich denke nochmal drüber nach.
- "PDF Nachfolger von Postscript". Kann man so vlt. nicht sagen, obwohl PDF Postscript wohl verdrängen wird. Bin da kein Spezialist, meine (unfundierte) Meinung ist, dass Postscript "Drucker-fokussiert" ist, PDF hingegen einen eher interaktiveren Fokus hat, die Anwendungsgebiets-Überschneidung ist allerdings beträchtlich.
- Viele Grüße --Cactus26 15:30, 7. Jan. 2010 (CET)
- obwohl ich den Artikel nicht gerade für sehr spannend halte, aber das liegt wahrscheinlich am Thema Bei Bearbeiten und ansehen würde ich aufgrund des umfangreichen Themas schon einen Hinweis auf einen Hauptartikel setzen. Hauptartikel: Texteditor. Textdateien kann man auch verwenden, um reinen Text abzuspeichern. Beim Editieren ist man oft viel schneller und später kann man zb in Openoffice den Text schöner formatieren. Oder auch zum Vorbereiten von emails ist oft ein Texteditor gut geeignet. Aber nicht so wichtig und braucht im Artikel vielleicht gar nciht extra erwähnt werden. Sonst finde ich den Artikel solide. Vielleicht ein bisschen zuviel bezug zu Microsoft, aber das ist ja nach wie vor auch das verbreitetste Betriebssystem und wird wahrscheinlich auch so bleiben. -- LesenswertFrancescoA 15:29, 6. Jan. 2010 (CET)
- Das mit dem "Hauptartikel" habe ich umgesetzt. Im übrigen teile ich viele Deiner Einschätzungen, aber für was sich Textdateien eignen, ist wohl zum großen Teil subjektiv.--Cactus26 15:30, 7. Jan. 2010 (CET)
Der Artikel in dieser Version ist Lesenswert. --Vux 01:39, 8. Jan. 2010 (CET)
Weitere Anmerkungen 80.146.x.x
Nachtrag zu meinen obigen Anmerkungen: Die Anzahl der codierten Zeichen wird im weiteren Artikel als bekannt vorrausgesetzt oder man kann indirekt darauf schließen ("da Unicode weit mehr als 256 verschiedene Zeichen definiert" -> die anderen Codierungen (vermutlich) maximal 256; "nicht Bestandteil der ersten 128 standardisierten Zeichen des ASCII" -> ASCII: 128, ISO 8859: 128+weitere). Ich fände es daher besser, wenn in der Liste wenigstens grob die Zeichenanzahl (128/7 Bit; 128+128/8 Bit; >>256) angegeben wird.
Zur Kenntnis der richtigen Codierung: auch das kann man - wie Du schreibst - indirekt aus dem Artikel lesen (s. Verwendung einer falschen Zeichencodierung und Austausch zwischen unterschiedlichen Systemen). Ich weiß jedoch nicht, ob es einem OMA-Leser bewußt ist, daß man die Codierung der Datei erstmal gar nicht ansehen kann. Und ist die Verwendung von Byte Order Marks schon Konvention oder nur eine Möglichkeit? Was hältst Du von einem Beispiel wie dem folgenden:
57 69 6B 69 70 65 64 69 61 0A Dateiinhalt binär (HEX) W i k i p e d i a LF ASCII und ISO 8859 ï Ñ , Ñ ø Á À Ñ / RPT EBCDIC 500 und 273
Ich habe im Artikel noch etwas umgestellt, so daß in der Liste der Codierungen nur Unicode und im folgenden Absatz die Umsetzung Unicode<->Bytefolge behandelt wird. Der Einzelnachweis bezog sich doch auf die Verbreitung von UTF-8? 80.146.93.208 14:15, 8. Jan. 2010 (CET)
- Zunächst: Deine Änderung im Artikel kann ich nachvollziehen, dass mit der Quelle war so gedacht und ich sehe Deine Version als Verbesserung an.
- "Expliziter Hinweis bei den Codierungen, wie viel Zeichen möglich". Ich weiß nicht. Mir taucht die Zahl 256 ohnehin schon fast zu oft im Artikel auf, nicht an allen Stellen scheint es mir 100% korrekt, wenn man es pedantisch sieht. Die ersten 3 der Liste sind 7/8 Bit Codes. Das 8 Bit 256 Zeichen ermöglichen, wird mMn fast schon zu oft erwähnt (u.a. beim Unicode in diesem Abschnitt). Dass es bei 7-Bit die Hälfte ist, nun gut, das könnte man vlt. noch irgendwo unterbringen, wobei ich mich schwer tue einzuschätzen, ob das eine Information ist, die ein Laie tats. vermisst. Hättest Du eine Idee, wo man das sinnvoll ergänzen könnte?
- "Kenntnis der richtigen Codierung". Wenn man weiter ausführen wollte, dass man einer Textdatei nicht unbedingt ansieht, wie sie codiert ist, würde ich es direkt beim bisherigen Hinweis tun wollen ("wenn man eine unter Verwendung der falschen Zeichencodierung..."). Vorziehen würde ich einen solchen Hinweis nicht wollen, dazu ist es mMn zu selten ein Problem. Bei Deinem Beispiel glaube ich, dass es ohnehin nur die verstehen, die das Beispiel gar nicht brauchen ("hex" wird meiner Erfahrung nach bei vielen Laien stigmatisiert, wo das auftaucht, geben sie auf). Interessanter wäre vielleicht ein Vergleich von UTF-8 interpretiert als Windows-1252 (das kann vorkommen, wenn die BOM fehlt oder vom verarbeitenden Programm nicht beachtet wird). Das wäre dann aber nichts für Laien, zudem sehr MS-lastig. Wie verbreitet die BOM wirklich ist, weiß ich nicht genau. In Unix ist sie offentsichtlich verpönt, Microsoft setzt sie sehr konsequent ein.
- --Cactus26 15:01, 9. Jan. 2010 (CET)
Artikel des Tages
Ich habe diesen Artikel für den 12.02.2011 als Artikel des Tages vorgeschlagen. Gruß, --Gamma127 13:12, 5. Feb. 2011 (CET)
also entschuldigung, ich bin unter der email adresse haust48387@aol.com per email zu erreichen. eine seitenlange diskussion macht den inhalt eines artikels nicht besser. ich kann nur soviel dazu sagen: eine textdatei ist eine binärdatei, die durch spezielle programme auf "sichtgeräten" in menschenlesbare form gebracht wird. sie ist nicht mehr und nicht weniger als eine binärdatei. was wiederum die frage aufwirft was überhaupt dateien, bzw. bitblöcke in elektronischen speichermedien sind. (nicht signierter Beitrag von 89.204.137.253 (Diskussion) 14:58, 12. Feb. 2011 (CET))
- Deine Defintion ist ja nicht grundsätzlich falsch, im Artikel steht nichts, was Deiner Aussage widersprechen würde. Ich vermute nur, dass keiner, der nicht schon vorher wusste, was eine Textdatei ist, mit Deiner Definition etwas anfangen kann. Was eine Datei ist, ist eine andere Frage und gehört nicht in den Artikel Textdatei.--Cactus26 16:13, 12. Feb. 2011 (CET)
Zeichensatz und Zeichencodierung
In dem Artikel werden die beiden Begriffe teilweise wieder vergewaltigt. Unicode ist immer noch keine Zeichenkodierung und wird es auch nie sein. Siehe auch: http://www.joelonsoftware.com/articles/Unicode.html --87.171.122.246 21:42, 12. Feb. 2011 (CET)
- Wo stört Dich welche Formulierung?--Cactus26 09:51, 13. Feb. 2011 (CET)
- Eine habe ich verbessert, in der Einleitung war es wirklich verfälschend verkürzt.--Cactus26 11:23, 13. Feb. 2011 (CET)
Kritik!!!
Eine Textdatei ist eine Datei (Binärdatei), deren Inhalt durch andere Dateien (Binärdateien), auch Programme genannt, als Text auf Sichtgeräten (Drucker, Monitor) dargestellt werden kann. -- h. aust 89.204.137.158 12:42, 13. Feb. 2011 (CET)
Zur Untemauerung dieser Aussage, dass eine Textdatei ein Dateiformat darstellt, möchte ich auf folgenden Link angeben: http://www.itwissen.info/uebersicht/lexikon/Text-Dateien.html?page=0
Falls sie weiterhin diesen Unsinn verbreiten, sollten sie zumindest das "in der Informationstechnologie" herausnehmen, Außer sie betrachten Buchdruck als Informationstechnologie und Bücher als Textdateien, das ist allerdings unwahrscheinlich, da sie auf den modernen Begriff Infomationstechnologie (früher EDV) verweisen! Ich halte es nachwievor für unangebracht und unverantwortlich diesen Begriff in dieser Weise zu "mißbrauchen"! -- h.aust (nicht signierter Beitrag von 89.204.137.182 (Diskussion) 12:36, 17. Apr. 2011 (CEST))
- Troll? Wenn der erste Satz ein zu kritisierender Inhalt sein soll: Der kommt nicht vor. Wenn der erste Satz eine korrigierte Form der Definition einer Textdatei sein soll, dann ist die schlicht und ergreifend falsch, im Artikel wird es vollkommen korrekt dargestellt: Im engeren Sinn versteht man darunter Dateien, die nur direkt druckbare Zeichen enthalten, erst im erweiterten Sinn auch Binärdateien (.pdf, .doc usw.), die sich dann durch zusätzlichen Aufwand in eine Textwiedergabe umsetzen lassen können. Insofern erachte ich die Darstellung im angegebenen Link auch als nicht korrekt (bzw. von Ihnen als zu verkürzt interpretiert) und weiß mich darin mit den anderen hier beteiligten Autoren einig. --PeterFrankfurt 02:33, 18. Apr. 2011 (CEST)
- gudn tach!
- @h. aust: ich habe nicht verstanden (und anscheinend geht es PeterFrankfurt da aehnlich wie mir), was genau am artikel von Ihnen kritisiert wird. koennten Sie das bitte praezisieren? -- seth 00:57, 24. Apr. 2011 (CEST)
Abgrenzung Binärdatei/Textdatei in Einleitung
Es geht hier um die (sinnvolle) Aussage, dass auch Textdateien in einem Binärformat (oder 'binär') gespeichert werden. Der Leser soll dies wissen, sonst könnte bei ihm die Frage entstehen, wie denn nun Textdateien gespeichert aussehen; denn für Binärdateien würde er das mit 'binär' assoziieren. Zusätzlich wäre also auch ein Hinweis nützlich, warum eine Binärdatei 'Binärdatei' heißt. Was hier (siehe 18:53, 11. Jun. 2013) schon mal vorgeschlagen war.--VÖRBY (Diskussion) 08:59, 13. Jun. 2013 (CEST)
- Ich hoffe, Du hast nichts dagegen, dass ich den Text der Absatzüberschrift geändert habe. Mein folgender Vorschlag, den ich parallel zu Deinem Beitrag entwickelt habe, dürfte Deine Anregungen beinhalten, wenn ich es richtig sehe.--Cactus26 (Diskussion) 09:25, 13. Jun. 2013 (CEST)
Ich hoffe, es ist möglich, hier noch mal zu einer sachlichen Auseinandersetzung zurückzukommen.
- zunächst: die Abgrenzung zur Binärdatei ist entscheidend und sollte in der Einleitung angesprochen werden.
- Es sollte auch vermittelt werden, dass der Begriff "Binärdatei" eigentlich eine Abstraktion darstellt, da das Speicherabbild aller Dateien binär ist (ich bin überzeugt, dass ist vielen nicht klar)
- Diese Abstraktion, die die Unterscheidung ermöglich, liegt in der Interpretation des Speicherabbilds
- der Begriff "physisch" mag fehlinterpretierbar sein. Ich glaube zwar kaum, dass der Begriff in Verbindung mit "Datei" falsch aufgefasst werden kann, da "Datei" eine Abstraktion ist, die unabhängig vom wirklichen physischen Speichermedium ist. Insofern wäre "physisch" hier in gewissem Sinne metaphorisch aufzufassen (was im IT-Slang üblich ist). Das Adjektiv wegzulassen ("Interpretation des Inhalts" macht die Erläuterung sinnlos, da die Abstraktionsebene dann nicht festgelegt wird und nahe liegend ist, sie mit dem Inhalt der Textdatei den Text zu assoziieren. Eine Alternative wäre "binär" ("Interpretation der Daten" ist keine Alternative, da hier ebenfalls die Abstraktionsebene nicht festgelegt wird
- Kausalität (die Begriffe Binär- und Textdatei werden komplementär verwendet, weil ... Interpretation ... im Vordergrund). Zugegeben, hier wird eine Ebene übersprungen und der bezug ist etwas unscharf. Da die Interpretation im Vordergrund steht, macht der Begriff "Binärdatei" überhaupt erst richtig Sinn und ermöglicht so erst eine Abgrenzung beider Typen (Lsg.vorschlag s.u.)
- Gedankenfaden wird unterbrochen. Ein Gedankenfaden besteht zweifellos, unterbrochen wird er nicht, da das Thema ja nicht gewechselt wird. Die Satzumstellung aufgrund "Kausalität" dürfte aber zudem auch hier für Verbesserung sorgen (siehe Vorschlag unten). (Man könnte den Faden sogar verstärken, indem man die vorige Aussage aufgreift. Allerdings ist etwas schwierig, dass das nicht zu kompliziert gerät (und wieder angreifbare Kausalitäten beinhaltet). Mir gelingt im Moment keine "druckreife" Formulierung, der Gedanke wäre, dass keine speziellen Programme erforderlich sind, weil die Interpretation als sequentielle Zeichenfolge vergleichsweise unkompliziert ist, weil sie von keinen (naja, fast) zusätzlichen Konventionen/Definitionen/Annnahmen abhängt.)
Also mein Vorschlag wäre folgender:
- Im Grunde ist auch das Speicherabbild von Textdateien binär, allerdings steht die Interpretation des binären Inhalts im Vordergrund und die Begriffe werden meist komplementär verwendet.
Ganz überraschend ist es vielleicht nicht, dass zu diesem eigentlich ausgesprochen banalen IT-Begriff so viele Meinungen existieren. Etwas überraschend ist dann aber doch, dass sich die meisten der Richtigkeit ihres Meinung dann so sicher sind. Ich möchte bitten, dass ihr bei allen subjektiven Vorlieben bedenken solltet, dass der derzeitige Inhalt schon einen Kompromiss aus vielen Meinungen darstellt, er wurde schon an einigen Stellen repliziert, war bereits ADT. So ganz falsch kann er nicht sein. --Cactus26 (Diskussion) 09:25, 13. Jun. 2013 (CEST)
- Liebe Mitdiskutanten,
- Bitte mal ehrlich. Ist so eine spezielle Frage denn wirklich in der Einleitung zu klären?
- Ich halte es für ziemliche Haarspalterei, die Frage, wie man den Speicherauszug einer Textdatei, die dazu in einem Editor geladen werden müsste, überhaupt hier zu klären. Darauf wird sich niemals eine zufriedenstellende Antwort finden lassen, die dazu noch der Belegpflicht standhält.
- Überhaupt driftet das ganze in meinen Augen schon sehr in die Richtung der TF. Außerdem ist es gemäß WP:ART auch überhaupt nicht nötig, dermaßen ins Detail zu gehen.
- Eine Unterscheidung zwischen Text- und anderen Datei ist durchaus wichtig, aber das lässt sich nicht durch diesen Spezialfall erläutern. Ich schlage vor, diesen Satz einfach herauszunehmen. Es spielt einfach keine Rolle. --Plankton314 (Diskussion) 11:11, 13. Jun. 2013 (CEST)