Beim Arbeiten mit Software- oder Weblösungen trifft man immer wieder CSV-Dateien an. Aber wie ist eine CSV-Datei aufgebaut?
Vorname,Name,Ort
Andrea,Steiner,Bern
Hans,Meier,"Berlin, Mitte"
Peter,Müller,Paris
Sandra,Weber,Wien
CSV Dateiformat
CSV-Dateien sind Textdateien mit der entsprechenden Dateiendung, wobei die Daten in einer einfachen Tabellenform mittels Trennzeichen abgebildet werden (siehe obiges Beispiel).
Jede Textzeile entspricht dabei einem Datensatz mit Feldern resp. Spalten, welche mit dem definierten Trennzeichen wie Komma abgetrennt sind. Bei Bedarf können Feldinhalte mit Textbegrenzer wie mit einem doppelten Anführungszeichen eingefasst werden, sobald ein Komma oder Zeilenumbruch zum Feldinhalt gehört (siehe Beispiel mit "Berlin, Mitte").
CSV selber steht für “comma-separated values” oder auch “character-separated values”, da das Feldtrennzeichen je nach Anwendung verschieden sein kann (z.B. Komma, Semikolon, Doppelpunkt).
Unter Umständen hast du auch schon TSV-Dateien angetroffen. Dies sind grundsätzlich auch CSV-Dateien, wobei das Trennzeichen hier als Tabulator definiert ist.
Kein offizieller Standard
Da kein offizieller Standard vorliegt und das CSV-Format im RFC 4180 von IETF nur grundlegend beschrieben ist, triffst du die CSV-Dateien in der Praxis mit unterschiedlichsten Ausprägungen und Encodings an.
Der smasi CSV-Wizard von 2S-Software kann hier behilflich sein, die Formate für die gewünschte Zielanwendung richtigzustellen.
Vorteile und Nachteile
Vorteile
CSV-Dateien können einfach erstellt und in einem beliebigen Texteditor gut gelesen werden. Aufgrund der wenigen Steuerzeichen sind die Textdateien relativ schlank.
Nachteile
Für strukturierte Inhalte oder verschachtelte Baumstrukturen ist das CSV-Format hingegen weniger geeignet. In dem Fall sind JSON- oder XML-Dateien vorzuziehen. Zudem können CSV-Dateien nicht validiert werden und es gibt keinen offiziellen Standard.
Im Vergleich zu einem Microsoft Excel-Dokument kann eine CSV-Datei nicht mehrere Blätter enthalten und es werden keine Formatierungen und Formeln unterstützt.
Anwendungszweck einer CSV-Datei
CSV ist ein weitverbreitetes Format für den Datenaustausch, da fast jede Softwarelösung eine Export- und Importmöglichkeit von CSV-Dateien anbietet. Aufgrund der unterschiedlichen Auslegungen der Formate müssen die Dateien oft mit einem geeigneten Werkzeug wie smasi CSV-Wizard umgeformt werden.
Empfehlung
Grundsätzlich wird empfohlen die Formatbeschreibung gemäss RFC 4180 anzuwenden, wobei aber möglichst das TSV-Format mit Tabulator anstelle vom Komma als Trennzeichen genutzt werden sollte. Hier die Empfehlung aus der Praxis:
Möglichst das TSV-Format mit dem Tabulator als Feldtrennzeichen verwenden.
Die erste Zeile soll die passenden Überschriften aller Spalten umfassen.
Sobald ein Tabulator oder ein Zeilenumbruch in einem Feldinhalt enthalten ist, sollen doppelte Anführungszeichen genutzt werden. Ansonsten soll darauf verzichtet werden.
Eine Zahl ist ohne Tausendertrennzeichen abzubilden.
Ein Datum ist im SQL-Format (YYYY-MM-DD hh:mm:ss) abzubilden.
Weitere Informationen
smasi CSV-Wizard als hilfreiches Tool für Umformatierungen
Formatbeschreibung RFC 4180 von IETF (Internet Engineering Task Force)