docs/cut: cut.txt annotate

annotate cut.txt @ 15:77d1f55bba08

Weitere Ueberarbeitungen

author	markus schnalke <meillo@marmaro.de>
date	Tue, 12 May 2015 07:35:33 +0200
parents	bf5e41260f89
children	4d8196c836d8

rev	line source
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	1 cut - cut out selected fields of each line of a file
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	2 ----------------------------------------------------
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	3 markus schnalke <meillo@marmaro.de>
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	4 2015-05
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	5
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	6
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	7 Cut ist ein klassisches Programm im Unix-Werkzeugkasten.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	8 In keinem ordentlichen Tutorial zur Shellprogrammierung fehlt
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	9 es, denn es ist ein schoenes, praktisches und anschauliches
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	10 Helferlein. Hier soll ein wenig hinter seine Fassade geschaut
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	11 werden.
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	12
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	13
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	14 Funktionsweise
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	15
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	16 Urspruenglich hatte cut zwei Modi, die spaeter um einen dritten
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	17 erweitert wurden. Cut schneidet entweder gewuenschte Zeichen aus
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	18 den Zeilen der Eingabe oder gewuenschte, durch Trennzeichen
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	19 definierte, Felder.
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	20
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	21 Der Zeichenmodus ist optimal geeignet um Festbreitenformate zu
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	22 zerteilen. So kann man damit beispielsweise bestimmte
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	23 Zugriffsrechte aus der Ausgabe von `ls -l' ausschneiden, in
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	24 diesem Beispiel die Rechte des Besitzers:
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	25
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	26 $ ls -l foo
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	27 -rw-rw-r-- 1 meillo users 0 May 12 07:32 foo
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	28
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	29 $ ls -l foo \| cut -c 2-4
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	30 rw-
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	31
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	32 Oder die Schreibrechte des Besitzers, der Gruppe und der
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	33 Welt:
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	34
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	35 $ ls -l \| cut -c 3,6,9
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	36 ww-
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	37
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	38 Mit cut lassen sich aber auch Strings kuerzen.
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	39
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	40 $ long=12345678901234567890
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	41 $ echo "$long" \| cut -c -10
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	42 1234567890
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	43
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	44 Dieser Befehl gibt die ersten maximal 10 Zeichen von
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	45 `$long' aus. (Alternativ kann man hierfuer `printf
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	46 "%.10s\n" "$long"' verwenden.)
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	47
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	48 Geht es aber nicht um die Darstellung von Zeichen, sondern um
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	49 ihre Speicherung, dann ist `-c' nicht unbedingt geeignet.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	50 Frueher, als US-ASCII als Zeichensatz und -kodierung
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	51 noch omnipraesent war, wurde jedes Zeichen mit genau einem
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	52 Byte gespeichert. Somit selektierte `cut -c' gleichermassen
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	53 sowohl Ausgabezeichen als auch Bytes. Mit dem Aufkommen von
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	54 Multibyte-Kodierungen (wie UTF-8) musste man sich jedoch von
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	55 dieser Annahme loesen. In diesem Zug bekam cut mit
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	56 POSIX.2-1992 einen Bytemodus (Option `-b'). Will man
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	57 also nur die ersten maximal 500 Bytes vor dem
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	58 Newline-Zeichen stehen haben (und den Rest stillschweigend
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	59 ignorieren), dann macht man das mit:
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	60
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	61 $ cut -b -500
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	62
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	63 Den Rest kann man sich mit `cut -b 501-' einfangen. Diese
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	64 Funktion ist insbesondere fuer POSIX wichtig, da man so
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	65 Textdateien mit begrenzter Zeilenlaenge erzeugen kann.
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	66 [ http://pubs.opengroup.org/onlinepubs/9699919799/utilities/cut.html#tag_20_28_17
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	67
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	68 Auch wenn der Bytemodus neu eingefuehrt wurde, so sollte er
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	69 sich doch nur so verhalten wie der alte Zeichenmodus normalerweise
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	70 implementiert war. Beim Zeichenmodus aber wurde durch POSIX.2
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	71 eine andere Implementierungsweise gefordert. Das Problem war
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	72 also nicht, den neuen Bytemodus zu implementieren, sondern
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	73 den Zeichenmodus neu zu implementieren.
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	74
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	75 Neben dem Zeichen- und Byte-Modus bietet cut noch den
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	76 Feld-Modus, den man mit `-f' einleitet. Mit ihm
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	77 koennen Felder ausgewaehlt werden. Das Trennzeichen (per
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	78 Default der Tab) kann mit `-d' geaendert werden.
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	79
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	80 Der typische Anwendungsfall fuer cut im Feld-Modus ist die
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	81 Auswahl von Information aus der passwd-Datei. So z.B. der
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	82 Benutzername, seine ID und das Homeverzeichnis:
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	83
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	84 $ cut -d: -f1,3,6 /etc/passwd
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	85 root:0:/root
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	86 bin:1:/bin
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	87 daemon:2:/sbin
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	88 mail:8:/var/spool/mail
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	89 ...
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	90
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	91 (Die Argumente fuer die Optionen koennen bei cut uebrigens
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	92 mit Whitespace abgetrennt oder direkt angehaengt folgen.)
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	93
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	94 Dieser Feld-Modus ist fuer einfache tabellarische Dateien,
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	95 wie eben die passwd, gut geeignet. Er kommt aber schnell an
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	96 seine Grenzen. Gerade der haeufige Fall, dass an Whitespace
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	97 in Felder geteilt werden soll, wird damit nicht abgedeckt.
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	98 Der Delimiter kann nur genau ein Zeichen sein. Es kann also
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	99 nicht sowohl an Leerzeichen als auch an Tabs getrennt werden.
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	100 Auch unterteilt cut an jedem Trennzeichen. Zwei aneinander
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	101 stehende Trennzeichen fuehren zu einem leeren Feld. Dieses
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	102 Verhalten widerspricht den Erwartungen, die man an die
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	103 Verarbeitung einer Datei mit Whitespace-getrennten Feldern
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	104 hat. Manche Implementierungen von cut, z.B. die von FreeBSD,
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	105 haben aber Erweiterungen, die das gewuenschte Verhalten fuer
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	106 Whitespace-getrennte Felder bieten. Ansonsten, d.h. wenn
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	107 man portabel bleiben will, verwendet man awk in diesen
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	108 Faellen.
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	109
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	110 Awk bietet noch eine weitere Funktion, die cut missen
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	111 laesst: Das Tauschen der Feld-Reihenfolge in der Ausgabe. Bei
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	112 cut ist die Reihenfolge der Feldauswahlangabe irrelevant; ein
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	113 Feld kann selbst mehrfach angegeben werden. So gibt der Aufruf
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	114 von `cut -c 5-8,1,4-6' die Zeichen Nummer 1, 4, 5, 6, 7 und 8
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	115 in genau dieser Reihenfolge aus. Die Auswahl entspricht damit
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	116 der Mengenlehre in der Mathematik: Jedes angegebene Feld wird
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	117 Teil der Ergebnismenge. Die Felder der Ergebnismenge sind
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	118 dabei immer gleich geordnet wie in der Eingabe. Um die Worte
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	119 der Manpage XXX von Version 8 Unix wiederzugeben: ``In data base
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	120 parlance, it projects a relation.''
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	121 [ XXX
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	122 Cut fuehrt also die Datenbankoperation Projektion auf
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	123 Textdateien aus. Die Wikipedia erklaert das folgendermassen:
7 21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	124
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	125 Die Projektion entspricht der Projektionsabbildung aus der
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	126 Mengenlehre und kann auch Attributbeschränkung genannt
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	127 werden. Sie extrahiert einzelne Attribute aus der
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	128 ursprünglichen Attributmenge und ist somit als eine Art
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	129 Selektion auf Spaltenebene zu verstehen, das heißt, die
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	130 Projektion blendet Spalten aus.
21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	131
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	132 [ http://de.wikipedia.org/wiki/Projektion_(Informatik)#Projektion
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	133
7 21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	134
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	135 Geschichtliches
5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	136
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	137 Cut erblickte 1982 mit dem Release von UNIX System III das
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	138 Licht der oeffentlichen Welt. Wenn man die Quellen von System
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	139 III durchforstet, findet man die Quellcodedatei cut.c mit dem
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	140 Zeitstempel 1980-04-11.
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	141 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=SysIII/usr/src/cmd
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	142 Das ist die aelteste Manifestation des Programms, die ich
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	143 aufstoebern konnte. Allerdings spricht die sccsid im
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	144 Quellcode von Version 1.5. Es muss also noch eine
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	145 Vorgeschichte geben. Zu dieser habe ich leider keinen Zugang
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	146 gefunden.
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	147 XXX mail an TUHS
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	148
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	149 Nun ein Blick auf die BSD-Linie: Dort ist mein
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	150 fruehester Fund ein cut.c mit dem Dateimodifikationsdatum
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	151 1986-11-07
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	152 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-UWisc/src/usr.bin/cut
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	153 als Teil der Spezialversion 4.3BSD-UWisc,
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	154 [ http://gunkies.org/wiki/4.3_BSD_NFS_Wisconsin_Unix
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	155 die im Januar 1987 veroeffentlicht wurde.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	156 Die Implementierung unterscheidet sich nur minimal von der
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	157 in System III.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	158 Im bekannteren 4.3BSD-Tahoe (1988) taucht cut nicht auf.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	159 Das darauf folgende 4.3BSD-Reno (1990) liefert aber wieder
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	160 ein cut mit aus. Dieses cut ist ein von Adam S. Moskowitz und
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	161 Marciano Pitargue neu implementiertes cut, das 1989 in BSD
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	162 aufgenommen wurde.
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	163 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-Reno/src/usr.bin/cut
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	164 Seine Manpage
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	165 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-Reno/src/usr.bin/cut/cut.1
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	166 erwaehnt bereits die erwartete Konformitaet mit POSIX.2.
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	167 XXX 2 oder 3 modi? Draft 9: 2 modi? Draft 11.2 hat 3 modi!
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	168 Nun sollte man wissen, dass POSIX.2 erst im September
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	169 1992 veroeffentlicht wurde, also gut zwei Jahren nachdem die
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	170 Manpage und das Programm geschrieben wurden. Das Programm
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	171 wurde folglich anhand von Arbeitsversionen des Standards
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	172 implementiert. Ein Blick in den Code bekraeftigt diese Vermutung.
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	173 In der Funktion zum parsen der Feldauswahlliste findet sich
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	174 dieser Kommentar:
0 5efb052a0d9e Zwischenstand markus schnalke <meillo@marmaro.de> parents: diff changeset	175
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	176 This parser is less restrictive than the Draft 9 POSIX spec.
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	177 POSIX doesn't allow lists that aren't in increasing order or
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	178 overlapping lists.
12 9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	179
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	180 Im Draft 11.2 (1991-09) fordert POSIX diese Flexibilitaet bereits
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	181 ein:
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	182
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	183 The elements in list can be repeated, can overlap, and can
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	184 be specified in any order.
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	185
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	186 Die Versionsnummern und Aenderungsdatums der aelteren
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	187 BSD-Implementierungen kann man aus den SCCS-IDs (die vom
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	188 damaligen Versionskontrollsystem in den Code eingefuegt wurden)
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	189 ablesen. So z.B. bei 4.3BSD-Reno: ``5.3 (Berkeley) 6/24/90''.
12 9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	190
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	191 Das cut der GNU Coreutils enthaelt folgenden Copyrightvermerk:
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	192
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	193 Copyright (C) 1997-2015 Free Software Foundation, Inc.
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	194 Copyright (C) 1984 David M. Ihnat
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	195
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	196 Der Code hat also ziemlich alte Urspruenge. Wie aus weiteren
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	197 Kommentaren zu entnehmen ist, wurde der Code zuerst von David
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	198 MacKenzie und spaeter von Jim Meyering ueberarbeitet. Letzterer
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	199 hat den Code 1992 auch ins Versionkontrollsystem eingestellt.
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	200 Weshalb die Jahre zwischen 1992 und 1997 nicht im Copyright-Vermerk
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	201 auftauchen, ist unklar.
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	202
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	203 Trotz der vielen Jahreszahlen aus den 80er Jahren gehoert cut,
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	204 aus Sicht des urspruenglichen Unix, zu den juengeren Tools.
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	205 Wenn cut auch ein Jahrzehnt aelter als Linux, der Kernel, ist,
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	206 so war Unix doch schon ueber zehn Jahre alt, als cut das
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	207 erste Mal auftauchte. Insbesondere gehoerte cut auch noch nicht
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	208 zu Version 7 Unix, das die Ausgangsbasis aller modernen
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	209 Unix-Systeme darstellt. Die weit komplexeren Programme sed
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	210 und awk waren dort schon vertreten. Man muss sich also
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	211 fragen, warum cut ueberhaupt noch entwickelt wurde, wo es
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	212 schon zwei Programme gab, die die Funktion von cut abdecken
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	213 konnten. Ein Argument fuer cut war sicher seine Kompaktheit und
4 d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	214 die damit verbundene Geschwindigkeit gegenueber dem damals
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	215 traegen awk. Diese schlanke Gestalt ist es auch, die der Unix
d0b61c2bd25c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 3 diff changeset	216 Philosopie entspricht: Mache eine Aufgabe und die richtig!
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	217 Cut ueberzeugte. Es wurde in andere Unix Varianten uebernommen,
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	218 standardisiert und ist heutzutage ueberall anzutreffen.
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	219
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	220 Die urspruengliche Variante (ohne -b) wurde schon 1985 in
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	221 der System V Interface Definition, einer wichtigen formalen
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	222 Beschreibung von UNIX System V, spezifiziert und tauchte
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	223 anschliessend in allen relevanten Standards auf. Mit POSIX.2
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	224 im Jahre 1992 wurde cut zum ersten Mal in der heutigen Form
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	225 (mit -b) standardisiert.
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	226 XXX sicher?
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	227
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	228
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	229 Multibyte-Unterstuetzung
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	230
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	231 Nun sind der Bytemodus und die damit verbundene
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	232 Multibyte-Verarbeitung des POSIX-Zeichenmodus bereits seit
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	233 1992 standardisiert, wie steht es aber mit deren Umsetzung?
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	234 Welche Versionen implementieren POSIX korrekt?
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	235 Die Situation ist dreiteilig: Es gibt traditionelle
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	236 Implementierungen, die nur -c und -f kennen. Dann gibt es
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	237 Implementierungen die -b zwar kennen, es aber lediglich als Alias
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	238 fuer -c handhaben. Diese Implementierungen funktionieren mit
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	239 Single-Byte-Encodings (z.B. US-ASCII, Latin1) korrekt, bei
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	240 Multi-Byte-Encodings (z.B. UTF-8) verhaelt sich ihr -c aber
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	241 wie -b (und -n wird ignoriert). Schliesslich gibt es noch
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	242 Implementierungen, die -b und -c tatsaechlich POSIX-konform
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	243 implementieren.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	244
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	245 Traditionelle Zwei-Modi-Implementierungen sind z.B. die von
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	246 System III, System V und die aller BSDs bis in die 90er.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	247
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	248 Pseudo-Multibyte-Implementierungen bieten GNU und die
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	249 modernen NetBSDs und OpenBSDs. Man darf sich durchaus fragen,
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	250 ob dort ein Schein von POSIX-Konformitaet gewahrt wird.
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	251 Teilweise findet man erst nach genauerer Suche heraus, dass
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	252 -c und -n nicht wie erwartet funktionieren; teilweise machen es
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	253 sich die System auch einfach, indem sie auf
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	254 Singlebyte-Zeichenkodierungen beharren, das aber dafuer klar
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	255 darlegen:
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	256
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	257 Since we don't support multi-byte characters, the -c and -b
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	258 options are equivalent, and the -n option is meaningless.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	259
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	260 [ openbsd XXX
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	261
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	262 Tatsaechlich standardkonforme Implementierungen, die
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	263 Multibytes korrekt handhaben, bekommt man bei einem modernen
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	264 FreeBSD und bei den Heirloom Tools. Bei FreeBSD hat Tim Robbins
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	265 im Sommer 2004 den Zeichenmodus POSIX-konform reimplementiert.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	266 [ https://svnweb.freebsd.org/base?view=revision&revision=131194
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	267 Warum die beiden anderen grossen BSDs diese Aenderung nicht
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	268 uebernommen haben, bleibt offen. Es scheint aber an der im
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	269 obigen Kommentar formulierten Grundausrichtung zu liegen.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	270
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	271 Wie findet man als Nutzer heraus, ob beim cut(1) des eigenen
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	272 Systems Multibytes korrekt unterstuetzt werden? Zuerst ist
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	273 entscheidend, ob das System selbst mit einem Multibyte-Encoding
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	274 arbeitet, denn tut es das nicht, dann entsprechen sich naemlich
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	275 Zeichen und Bytes und die Frage eruebrigt sich. Man kann das
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	276 herausfinden indem man sich das Locale anschaut, aber einfacher
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	277 ist es, ein typisches Mehrbytezeichen, wie z.B. einen Umlaut,
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	278 auszugeben und zu schauen ob dieses in einem oder in mehreren
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	279 Bytes kodiert ist:
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	280
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	281 $ echo ä \| od -c
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	282 0000000 303 244 \n
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	283 0000003
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	284
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	285 In diesem Fall sind es zwei Bytes: oktal 303 und 244 . (Den
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	286 Zeilenumbruch fuegt echo(1) hinzu.)
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	287
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	288 Mit dem Programm iconv(1) kann man Text explizit in bestimmte
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	289 Kodierungen konvertieren. Hier Beispiele, wie die Ausgabe
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	290 bei Latin1 und wie sie bei UTF-8 aussieht.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	291
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	292 $ echo ä \| iconv -t latin1 \| od -c
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	293 0000000 344 \n
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	294 0000002
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	295
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	296 $ echo ä \| iconv -t utf8 \| od -c
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	297 0000000 303 244 \n
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	298 0000003
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	299
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	300 Die Ausgabe auf dem eigenen System (ohne die iconv-Konvertierung)
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	301 wird recht sicher einer dieser beiden Ausgaben entsprechen.
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	302
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	303 Nun zum Test der cut-Implementierung. Hat man ein UTF-8-System,
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	304 dann sollte sich eine POSIX-konforme Implementierung so verhalten:
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	305
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	306 $ echo ä \| ./cut -c 1 \| od -c
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	307 0000000 303 244 \n
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	308 0000003
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	309
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	310 $ echo ä \| ./cut -b 1 \| od -c
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	311 0000000 303 \n
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	312 0000002
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	313
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	314 $ echo ä \| ./cut -b 1 -n \| od -c
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	315 0000000 \n
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	316 0000001
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	317
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	318 Bei einer Pseudo-POSIX-Implementierung ist die Ausgabe in
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	319 allen drei Faellen wie die mittlere: Es wird das erste Byte
7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	320 ausgegeben.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	321
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	322
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	323 Implementierungen
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	324
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	325 Nun ein Blick auf den Code. Betrachtet wird eine Auswahl an
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	326 Implementierungen.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	327
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	328 Fuer einen ersten Eindruck ist der Umfang des Quellcodes
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	329 hilfreich. Typischerweise steigt dieser ueber die Jahre an. Diese
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	330 Beobachtung kann hier in der Tendenz, aber nicht in jedem Fall,
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	331 bestaetigt werden. Die Unterstuetzung des Byte-Modus (-b)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	332 erfordert zwangslaeufig mehr Code, deshalb sind die
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	333 POSIX-konformen Implementierungen tendenziell umfangreicher.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	334
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	335
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	336 SLOC Zeilen Bytes Gehoert zu Dateidatum Kategorie
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	337 -----------------------------------------------------------------
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	338 116 123 2966 System III 1980-04-11 (trad)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	339 118 125 3038 4.3BSD-UWisc 1986-11-07 (trad)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	340 200 256 5715 4.3BSD-Reno 1990-06-25 (trad)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	341 200 270 6545 NetBSD 1993-03-21 (trad)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	342 218 290 6892 OpenBSD 2008-06-27 (pseudo)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	343 224 296 6920 FreeBSD 1994-05-27 (trad)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	344 232 306 7500 NetBSD 2014-02-03 (pseudo)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	345 340 405 7423 Heirloom 2012-05-20 (POSIX)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	346 382 586 14175 GNU coreutils 1992-11-08 (pseudo)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	347 391 479 10961 FreeBSD 2012-11-24 (POSIX)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	348 588 830 23167 GNU coreutils 2015-05-01 (pseudo)
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	349 XXX verlinken
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	350
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	351
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	352 Das Kandidatenfeld teilt sich grob in vier Gruppen: (1) Die zwei
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	353 urspruenglichen Implementierungen, die sich nur minimal
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	354 unterscheiden, mit gut 100 SLOCs. (2) Die fuenf BSD-Versionen mit
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	355 gut 200 SLOCs. (3) Die zwei POSIX-konformen Programme und
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	356 die alte GNU-Version mit 340-390 SLOCs. Und (4) die moderne
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	357 GNU-Variante mit fast 600 SLOCs.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	358
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	359 Die Abweichung zwischen logischen Codezeilen (SLOC, ermittelt mit
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	360 SLOCcount) und der Anzahl von Zeilenumbruechen in der Datei (`wc
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	361 -l') erstreckt sich ueber einen Faktor von 1.06 bei den aeltesten
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	362 Vertretern bis zu Faktor 1.5 bei GNU. Der groesste
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	363 Einflussfaktor darauf sind Leerzeilen, reine Kommentarzeilen und
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	364 die Groesse des Lizenzblocks am Dateianfang.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	365
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	366 Betrachtet man die Abweichungen zwischen den logischen Codezeilen
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	367 und der Dateigroesse (`wc -c'), so pendelt das Teilnehmerfeld
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	368 zwischen 25 und 30 Bytes je Anweisung. Die Heirloom-Implementierung
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	369 weicht mit nur 21 nach unten ab, die GNU-Implementierungen mit
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	370 fast 40 nach oben. Dies liegt bei GNU hauptsaechlich an deren
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	371 Programmierstil, mit spezieller Einrueckung und langen Bezeichnern.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	372 Ob man die Heirloom-Implementierung als besonders kryptisch
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	373 oder als besonders elegant bezeichnen will, das soll der
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	374 eigenen Einschaetzung des Lesers ueberlassen bleiben.
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	375
1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	376
11 04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	377 Die interne Struktur des C-Codes ist meist aehnlich. Neben der
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	378 obligatorischen main-Funktion, die die Kommandozeilenargumente
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	379 verarbeitet, gibt es im Normalfall eine Funktion, die die
13 bf5e41260f89 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 12 diff changeset	380 Feldauswahl in eine interne Datenstruktur ueberfuehrt. Desweiteren
11 04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	381 haben fast alle Implementierungen separate Funktionen fuer die
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	382 zwei bzw. drei Modi. Bei den POSIX-konformen Implementierungen
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	383 wird die `-b -n'-Kombination als weiterer Modus behandelt, und
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	384 damit in einer eigenen Funktion umgesetzt. Nur bei der fruehen
04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	385 System III-Implementierung (und seiner 4.3BSD-UWisc-Variante)
13 bf5e41260f89 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 12 diff changeset	386 wird ausser den Fehlerausgaben nichts aus der main-Funktion
bf5e41260f89 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 12 diff changeset	387 ausgelagert.
11 04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	388
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	389 Cut-Implementierungen haben typischerweise zwei limitierende
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	390 Groessen: Die Maximalanzahl unterstuetzter Felder und die maximale
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	391 Zeilenlaenge. Bei System III ist die Anzahl der moeglichen Felder
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	392 und ebenso die Zeilenlaenge auf 512 begrenzt. 4.3BSD-Reno und die
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	393 BSDs der 90er Jahre haben ebenfalls fixe Grenzen (_BSD_LINE_MAX
12 9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	394 bzw. _POSIX2_LINE_MAX). Bei modernen FreeBSDs, NetBSDs, bei
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	395 allen GNU-Implementierungen und bei Heirloom kann sowohl
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	396 die Felderanzahl als auch die maximale Zeilenlaenge beliebig
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	397 gross werden; der Speicher dafür wird dynamisch alloziiert.
9f17c512fb5c Zwischenstand markus schnalke <meillo@marmaro.de> parents: 11 diff changeset	398 OpenBSD ist ein Hybrid aus fixer Maximalzahl an Feldern, aber
15 77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	399 beliebiger Zeilenlaenge. XXX fgetln
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	400 Die begrenzte Felderanzahl scheint jedeoch kein praktisches
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	401 Problem darzustellen, da _POSIX2_LINE_MAX mit mindestens 2048
77d1f55bba08 Weitere Ueberarbeitungen markus schnalke <meillo@marmaro.de> parents: 13 diff changeset	402 durchaus genug Platz bieten sollte.
11 04a8a33fc48a Zwischenstand markus schnalke <meillo@marmaro.de> parents: 10 diff changeset	403
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	404
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	405 Beschreibungen
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	406
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	407 Interessant ist auch ein Vergleich der Kurzbeschreibungen von
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	408 cut, wie sie sich in der Titelzeile von Manpages oder manchmal
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	409 auch am Anfang der Quellcodedatei finden. Die folgende Liste
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	410 ist grob zeitlich geordnet und nach Abstammung gruppiert:
3 7cd149433a96 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 2 diff changeset	411
7cd149433a96 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 2 diff changeset	412
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	413 System III cut out selected fields of each line of a file
3 7cd149433a96 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 2 diff changeset	414 System III (src) cut and paste columns of a table (projection of a relation)
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	415 System V cut out selected fields of each line of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	416 HP-UX cut out (extract) selected fields of each line of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	417
3 7cd149433a96 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 2 diff changeset	418 4.3BSD-UWisc (src) cut and paste columns of a table (projection of a relation)
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	419 4.3BSD-Reno select portions of each line of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	420 NetBSD select portions of each line of a file
7 21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	421 OpenBSD 4.6 select portions of each line of a file
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	422 FreeBSD 1.0 select portions of each line of a file
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	423 FreeBSD 10.0 cut out selected portions of each line of a file
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	424 SunOS 4.1.3 remove selected fields from each line of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	425 SunOS 5.5.1 cut out selected fields of each line of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	426
8 1dc4a9dca829 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 7 diff changeset	427 Heirloom Tools cut out selected fields of each line of a file
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	428 Heirloom Tools (src) cut out fields of lines of files
2 3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	429
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	430 GNU coreutils remove sections from each line of files
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	431
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	432 Minix select out columns of a file
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	433
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	434 Version 8 Unix rearrange columns of data
3659d2502d61 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 1 diff changeset	435 ``Unix Reader'' rearrange columns of text
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	436
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	437 POSIX cut out selected fields of each line of a file
1 a3f18ccc3996 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 0 diff changeset	438
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	439
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	440 Die mit ``(src)'' markierten Beschreibungen sind aus dem
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	441 jeweiligen Quellcode entnommen.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	442 Der POSIX-Eintrag enthaelt die Beschreibung des Standards.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	443 Der ``Unix Reader'' ist ein rueckblickendes Textdokument von
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	444 Doug McIlroy, das das Auftreten von Tools in der Geschichte
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	445 des Research Unix zum Thema hat.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	446 [ XXX
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	447 Eigentlich sollte seine
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	448 Beschreibung der in Version 8 Unix entsprechen. Die
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	449 Abweichung koennte sowohl ein Uebertragungsfehler als auch
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	450 eine nachtraegliche Korrektur sein.
e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	451 Alle uebrigen Beschreibungen entstammen den Manpages.
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	452
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	453 Oft ist mit der Zeit die POSIX-Beschreibung uebernommen
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	454 worden, wie beispielsweise bei FreeBSD zu sehen.
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	455 [ https://svnweb.freebsd.org/base?view=revision&revision=167101
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	456 XXX fixme!
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	457
7 21ca59543b07 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 6 diff changeset	458 Interessant ist, dass die GNU coreutils seit Anbeginn vom
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	459 Entfernen von Teilen der Eingabe sprechen, wohingegen die
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	460 Kommandozeilenangabe klar ein Auswaehlen darstellt. Die
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	461 Worte ``cut out'' sind vielleicht auch nur etwas zu
9 e67bd0d48bd6 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 8 diff changeset	462 missverstaendlich. HP-UX hat sie deshalb praezisiert.
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	463
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	464 Auch beim Begriff, was selektiert wird, ist man sich
5 00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	465 uneins. Die einen reden von Feldern (POSIX), andere von
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	466 Abschnitten bzw. Teilen (BSD) und wieder andere von Spalten
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	467 (Research Unix). Ironischerweise leistet sich gerade Version
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	468 8 Unix, das eigentlich um eine sehr treffende Weltsicht
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	469 bemueht ist, mit ``rearrange columns of data'' die
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	470 unzutreffendste der Beschreibungen.
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	471
00097c80a853 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 4 diff changeset	472
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	473 Autoreninfo
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	474
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	475 Markus Schnalke interessiert sich fuer die Hintergruende
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	476 von Unix und seinen Werkzeugen. Fuer die Erarbeitung dieses
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	477 Textes wurde er regelrecht zum Historiker.
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	478
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	479
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	480 Lizenz
10 7e1214b556b9 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 9 diff changeset	481
6 bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	482 CC0 (und kann damit auch unter CC BY-SA 4.0 Unported
bf2ac5df0063 Zwischenstand markus schnalke <meillo@marmaro.de> parents: 5 diff changeset	483 veroeffentlicht werden)

Mercurial > docs > cut

annotate cut.txt @ 15:77d1f55bba08