docs/cut

annotate cut.txt @ 15:77d1f55bba08

Weitere Ueberarbeitungen
author markus schnalke <meillo@marmaro.de>
date Tue, 12 May 2015 07:35:33 +0200
parents bf5e41260f89
children 4d8196c836d8
rev   line source
meillo@6 1 cut - cut out selected fields of each line of a file
meillo@6 2 ----------------------------------------------------
meillo@6 3 markus schnalke <meillo@marmaro.de>
meillo@6 4 2015-05
meillo@0 5
meillo@0 6
meillo@1 7 Cut ist ein klassisches Programm im Unix-Werkzeugkasten.
meillo@8 8 In keinem ordentlichen Tutorial zur Shellprogrammierung fehlt
meillo@9 9 es, denn es ist ein schoenes, praktisches und anschauliches
meillo@9 10 Helferlein. Hier soll ein wenig hinter seine Fassade geschaut
meillo@9 11 werden.
meillo@0 12
meillo@0 13
meillo@4 14 Funktionsweise
meillo@4 15
meillo@8 16 Urspruenglich hatte cut zwei Modi, die spaeter um einen dritten
meillo@9 17 erweitert wurden. Cut schneidet entweder gewuenschte Zeichen aus
meillo@9 18 den Zeilen der Eingabe oder gewuenschte, durch Trennzeichen
meillo@8 19 definierte, Felder.
meillo@0 20
meillo@9 21 Der Zeichenmodus ist optimal geeignet um Festbreitenformate zu
meillo@8 22 zerteilen. So kann man damit beispielsweise bestimmte
meillo@9 23 Zugriffsrechte aus der Ausgabe von `ls -l' ausschneiden, in
meillo@9 24 diesem Beispiel die Rechte des Besitzers:
meillo@0 25
meillo@15 26 $ ls -l foo
meillo@15 27 -rw-rw-r-- 1 meillo users 0 May 12 07:32 foo
meillo@15 28
meillo@4 29 $ ls -l foo | cut -c 2-4
meillo@4 30 rw-
meillo@0 31
meillo@4 32 Oder die Schreibrechte des Besitzers, der Gruppe und der
meillo@4 33 Welt:
meillo@0 34
meillo@4 35 $ ls -l | cut -c 3,6,9
meillo@4 36 ww-
meillo@0 37
meillo@4 38 Mit cut lassen sich aber auch Strings kuerzen.
meillo@0 39
meillo@10 40 $ long=12345678901234567890
meillo@10 41 $ echo "$long" | cut -c -10
meillo@10 42 1234567890
meillo@0 43
meillo@10 44 Dieser Befehl gibt die ersten maximal 10 Zeichen von
meillo@15 45 `$long' aus. (Alternativ kann man hierfuer `printf
meillo@10 46 "%.10s\n" "$long"' verwenden.)
meillo@0 47
meillo@4 48 Geht es aber nicht um die Darstellung von Zeichen, sondern um
meillo@8 49 ihre Speicherung, dann ist `-c' nicht unbedingt geeignet.
meillo@8 50 Frueher, als US-ASCII als Zeichensatz und -kodierung
meillo@4 51 noch omnipraesent war, wurde jedes Zeichen mit genau einem
meillo@4 52 Byte gespeichert. Somit selektierte `cut -c' gleichermassen
meillo@4 53 sowohl Ausgabezeichen als auch Bytes. Mit dem Aufkommen von
meillo@4 54 Multibyte-Kodierungen (wie UTF-8) musste man sich jedoch von
meillo@4 55 dieser Annahme loesen. In diesem Zug bekam cut mit
meillo@9 56 POSIX.2-1992 einen Bytemodus (Option `-b'). Will man
meillo@4 57 also nur die ersten maximal 500 Bytes vor dem
meillo@0 58 Newline-Zeichen stehen haben (und den Rest stillschweigend
meillo@0 59 ignorieren), dann macht man das mit:
meillo@0 60
meillo@6 61 $ cut -b -500
meillo@0 62
meillo@4 63 Den Rest kann man sich mit `cut -b 501-' einfangen. Diese
meillo@8 64 Funktion ist insbesondere fuer POSIX wichtig, da man so
meillo@8 65 Textdateien mit begrenzter Zeilenlaenge erzeugen kann.
meillo@4 66 [ http://pubs.opengroup.org/onlinepubs/9699919799/utilities/cut.html#tag_20_28_17
meillo@0 67
meillo@10 68 Auch wenn der Bytemodus neu eingefuehrt wurde, so sollte er
meillo@10 69 sich doch nur so verhalten wie der alte Zeichenmodus normalerweise
meillo@10 70 implementiert war. Beim Zeichenmodus aber wurde durch POSIX.2
meillo@10 71 eine andere Implementierungsweise gefordert. Das Problem war
meillo@10 72 also nicht, den neuen Bytemodus zu implementieren, sondern
meillo@10 73 den Zeichenmodus neu zu implementieren.
meillo@10 74
meillo@10 75 Neben dem Zeichen- und Byte-Modus bietet cut noch den
meillo@8 76 Feld-Modus, den man mit `-f' einleitet. Mit ihm
meillo@4 77 koennen Felder ausgewaehlt werden. Das Trennzeichen (per
meillo@4 78 Default der Tab) kann mit `-d' geaendert werden.
meillo@0 79
meillo@8 80 Der typische Anwendungsfall fuer cut im Feld-Modus ist die
meillo@8 81 Auswahl von Information aus der passwd-Datei. So z.B. der
meillo@10 82 Benutzername, seine ID und das Homeverzeichnis:
meillo@0 83
meillo@6 84 $ cut -d: -f1,3,6 /etc/passwd
meillo@9 85 root:0:/root
meillo@9 86 bin:1:/bin
meillo@9 87 daemon:2:/sbin
meillo@9 88 mail:8:/var/spool/mail
meillo@9 89 ...
meillo@0 90
meillo@0 91 (Die Argumente fuer die Optionen koennen bei cut uebrigens
meillo@8 92 mit Whitespace abgetrennt oder direkt angehaengt folgen.)
meillo@0 93
meillo@4 94 Dieser Feld-Modus ist fuer einfache tabellarische Dateien,
meillo@4 95 wie eben die passwd, gut geeignet. Er kommt aber schnell an
meillo@9 96 seine Grenzen. Gerade der haeufige Fall, dass an Whitespace
meillo@0 97 in Felder geteilt werden soll, wird damit nicht abgedeckt.
meillo@0 98 Der Delimiter kann nur genau ein Zeichen sein. Es kann also
meillo@0 99 nicht sowohl an Leerzeichen als auch an Tabs getrennt werden.
meillo@0 100 Auch unterteilt cut an jedem Trennzeichen. Zwei aneinander
meillo@4 101 stehende Trennzeichen fuehren zu einem leeren Feld. Dieses
meillo@8 102 Verhalten widerspricht den Erwartungen, die man an die
meillo@8 103 Verarbeitung einer Datei mit Whitespace-getrennten Feldern
meillo@8 104 hat. Manche Implementierungen von cut, z.B. die von FreeBSD,
meillo@9 105 haben aber Erweiterungen, die das gewuenschte Verhalten fuer
meillo@8 106 Whitespace-getrennte Felder bieten. Ansonsten, d.h. wenn
meillo@9 107 man portabel bleiben will, verwendet man awk in diesen
meillo@9 108 Faellen.
meillo@0 109
meillo@4 110 Awk bietet noch eine weitere Funktion, die cut missen
meillo@8 111 laesst: Das Tauschen der Feld-Reihenfolge in der Ausgabe. Bei
meillo@8 112 cut ist die Reihenfolge der Feldauswahlangabe irrelevant; ein
meillo@15 113 Feld kann selbst mehrfach angegeben werden. So gibt der Aufruf
meillo@8 114 von `cut -c 5-8,1,4-6' die Zeichen Nummer 1, 4, 5, 6, 7 und 8
meillo@8 115 in genau dieser Reihenfolge aus. Die Auswahl entspricht damit
meillo@8 116 der Mengenlehre in der Mathematik: Jedes angegebene Feld wird
meillo@9 117 Teil der Ergebnismenge. Die Felder der Ergebnismenge sind
meillo@9 118 dabei immer gleich geordnet wie in der Eingabe. Um die Worte
meillo@9 119 der Manpage XXX von Version 8 Unix wiederzugeben: ``In data base
meillo@9 120 parlance, it projects a relation.''
meillo@9 121 [ XXX
meillo@8 122 Cut fuehrt also die Datenbankoperation Projektion auf
meillo@10 123 Textdateien aus. Die Wikipedia erklaert das folgendermassen:
meillo@7 124
meillo@7 125 Die Projektion entspricht der Projektionsabbildung aus der
meillo@7 126 Mengenlehre und kann auch Attributbeschränkung genannt
meillo@7 127 werden. Sie extrahiert einzelne Attribute aus der
meillo@7 128 ursprünglichen Attributmenge und ist somit als eine Art
meillo@7 129 Selektion auf Spaltenebene zu verstehen, das heißt, die
meillo@7 130 Projektion blendet Spalten aus.
meillo@7 131
meillo@8 132 [ http://de.wikipedia.org/wiki/Projektion_(Informatik)#Projektion
meillo@8 133
meillo@7 134
meillo@0 135 Geschichtliches
meillo@0 136
meillo@4 137 Cut erblickte 1982 mit dem Release von UNIX System III das
meillo@4 138 Licht der oeffentlichen Welt. Wenn man die Quellen von System
meillo@4 139 III durchforstet, findet man die Quellcodedatei cut.c mit dem
meillo@4 140 Zeitstempel 1980-04-11.
meillo@1 141 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=SysIII/usr/src/cmd
meillo@4 142 Das ist die aelteste Manifestation des Programms, die ich
meillo@8 143 aufstoebern konnte. Allerdings spricht die sccsid im
meillo@8 144 Quellcode von Version 1.5. Es muss also noch eine
meillo@8 145 Vorgeschichte geben. Zu dieser habe ich leider keinen Zugang
meillo@8 146 gefunden.
meillo@9 147 XXX mail an TUHS
meillo@0 148
meillo@10 149 Nun ein Blick auf die BSD-Linie: Dort ist mein
meillo@8 150 fruehester Fund ein cut.c mit dem Dateimodifikationsdatum
meillo@8 151 1986-11-07
meillo@8 152 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-UWisc/src/usr.bin/cut
meillo@8 153 als Teil der Spezialversion 4.3BSD-UWisc,
meillo@6 154 [ http://gunkies.org/wiki/4.3_BSD_NFS_Wisconsin_Unix
meillo@6 155 die im Januar 1987 veroeffentlicht wurde.
meillo@8 156 Die Implementierung unterscheidet sich nur minimal von der
meillo@8 157 in System III.
meillo@8 158 Im bekannteren 4.3BSD-Tahoe (1988) taucht cut nicht auf.
meillo@8 159 Das darauf folgende 4.3BSD-Reno (1990) liefert aber wieder
meillo@8 160 ein cut mit aus. Dieses cut ist ein von Adam S. Moskowitz und
meillo@8 161 Marciano Pitargue neu implementiertes cut, das 1989 in BSD
meillo@8 162 aufgenommen wurde.
meillo@1 163 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-Reno/src/usr.bin/cut
meillo@4 164 Seine Manpage
meillo@1 165 [ http://minnie.tuhs.org/cgi-bin/utree.pl?file=4.3BSD-Reno/src/usr.bin/cut/cut.1
meillo@4 166 erwaehnt bereits die erwartete Konformitaet mit POSIX.2.
meillo@15 167 XXX 2 oder 3 modi? Draft 9: 2 modi? Draft 11.2 hat 3 modi!
meillo@4 168 Nun sollte man wissen, dass POSIX.2 erst im September
meillo@10 169 1992 veroeffentlicht wurde, also gut zwei Jahren nachdem die
meillo@8 170 Manpage und das Programm geschrieben wurden. Das Programm
meillo@10 171 wurde folglich anhand von Arbeitsversionen des Standards
meillo@15 172 implementiert. Ein Blick in den Code bekraeftigt diese Vermutung.
meillo@15 173 In der Funktion zum parsen der Feldauswahlliste findet sich
meillo@15 174 dieser Kommentar:
meillo@0 175
meillo@15 176 This parser is less restrictive than the Draft 9 POSIX spec.
meillo@15 177 POSIX doesn't allow lists that aren't in increasing order or
meillo@15 178 overlapping lists.
meillo@9 179
meillo@15 180 Im Draft 11.2 (1991-09) fordert POSIX diese Flexibilitaet bereits
meillo@15 181 ein:
meillo@12 182
meillo@15 183 The elements in list can be repeated, can overlap, and can
meillo@15 184 be specified in any order.
meillo@15 185
meillo@15 186 Die Versionsnummern und Aenderungsdatums der aelteren
meillo@15 187 BSD-Implementierungen kann man aus den SCCS-IDs (die vom
meillo@15 188 damaligen Versionskontrollsystem in den Code eingefuegt wurden)
meillo@15 189 ablesen. So z.B. bei 4.3BSD-Reno: ``5.3 (Berkeley) 6/24/90''.
meillo@12 190
meillo@12 191 Das cut der GNU Coreutils enthaelt folgenden Copyrightvermerk:
meillo@12 192
meillo@12 193 Copyright (C) 1997-2015 Free Software Foundation, Inc.
meillo@12 194 Copyright (C) 1984 David M. Ihnat
meillo@12 195
meillo@12 196 Der Code hat also ziemlich alte Urspruenge. Wie aus weiteren
meillo@12 197 Kommentaren zu entnehmen ist, wurde der Code zuerst von David
meillo@12 198 MacKenzie und spaeter von Jim Meyering ueberarbeitet. Letzterer
meillo@12 199 hat den Code 1992 auch ins Versionkontrollsystem eingestellt.
meillo@12 200 Weshalb die Jahre zwischen 1992 und 1997 nicht im Copyright-Vermerk
meillo@12 201 auftauchen, ist unklar.
meillo@12 202
meillo@12 203 Trotz der vielen Jahreszahlen aus den 80er Jahren gehoert cut,
meillo@10 204 aus Sicht des urspruenglichen Unix, zu den juengeren Tools.
meillo@1 205 Wenn cut auch ein Jahrzehnt aelter als Linux, der Kernel, ist,
meillo@4 206 so war Unix doch schon ueber zehn Jahre alt, als cut das
meillo@9 207 erste Mal auftauchte. Insbesondere gehoerte cut auch noch nicht
meillo@4 208 zu Version 7 Unix, das die Ausgangsbasis aller modernen
meillo@4 209 Unix-Systeme darstellt. Die weit komplexeren Programme sed
meillo@4 210 und awk waren dort schon vertreten. Man muss sich also
meillo@4 211 fragen, warum cut ueberhaupt noch entwickelt wurde, wo es
meillo@9 212 schon zwei Programme gab, die die Funktion von cut abdecken
meillo@9 213 konnten. Ein Argument fuer cut war sicher seine Kompaktheit und
meillo@4 214 die damit verbundene Geschwindigkeit gegenueber dem damals
meillo@4 215 traegen awk. Diese schlanke Gestalt ist es auch, die der Unix
meillo@4 216 Philosopie entspricht: Mache eine Aufgabe und die richtig!
meillo@9 217 Cut ueberzeugte. Es wurde in andere Unix Varianten uebernommen,
meillo@9 218 standardisiert und ist heutzutage ueberall anzutreffen.
meillo@1 219
meillo@9 220 Die urspruengliche Variante (ohne -b) wurde schon 1985 in
meillo@5 221 der System V Interface Definition, einer wichtigen formalen
meillo@9 222 Beschreibung von UNIX System V, spezifiziert und tauchte
meillo@9 223 anschliessend in allen relevanten Standards auf. Mit POSIX.2
meillo@9 224 im Jahre 1992 wurde cut zum ersten Mal in der heutigen Form
meillo@9 225 (mit -b) standardisiert.
meillo@15 226 XXX sicher?
meillo@1 227
meillo@1 228
meillo@9 229 Multibyte-Unterstuetzung
meillo@8 230
meillo@8 231 Nun sind der Bytemodus und die damit verbundene
meillo@8 232 Multibyte-Verarbeitung des POSIX-Zeichenmodus bereits seit
meillo@8 233 1992 standardisiert, wie steht es aber mit deren Umsetzung?
meillo@10 234 Welche Versionen implementieren POSIX korrekt?
meillo@9 235 Die Situation ist dreiteilig: Es gibt traditionelle
meillo@8 236 Implementierungen, die nur -c und -f kennen. Dann gibt es
meillo@10 237 Implementierungen die -b zwar kennen, es aber lediglich als Alias
meillo@8 238 fuer -c handhaben. Diese Implementierungen funktionieren mit
meillo@8 239 Single-Byte-Encodings (z.B. US-ASCII, Latin1) korrekt, bei
meillo@8 240 Multi-Byte-Encodings (z.B. UTF-8) verhaelt sich ihr -c aber
meillo@8 241 wie -b (und -n wird ignoriert). Schliesslich gibt es noch
meillo@8 242 Implementierungen, die -b und -c tatsaechlich POSIX-konform
meillo@8 243 implementieren.
meillo@8 244
meillo@8 245 Traditionelle Zwei-Modi-Implementierungen sind z.B. die von
meillo@8 246 System III, System V und die aller BSDs bis in die 90er.
meillo@8 247
meillo@10 248 Pseudo-Multibyte-Implementierungen bieten GNU und die
meillo@15 249 modernen NetBSDs und OpenBSDs. Man darf sich durchaus fragen,
meillo@15 250 ob dort ein Schein von POSIX-Konformitaet gewahrt wird.
meillo@15 251 Teilweise findet man erst nach genauerer Suche heraus, dass
meillo@15 252 -c und -n nicht wie erwartet funktionieren; teilweise machen es
meillo@15 253 sich die System auch einfach, indem sie auf
meillo@15 254 Singlebyte-Zeichenkodierungen beharren, das aber dafuer klar
meillo@15 255 darlegen:
meillo@8 256
meillo@15 257 Since we don't support multi-byte characters, the -c and -b
meillo@15 258 options are equivalent, and the -n option is meaningless.
meillo@8 259
meillo@15 260 [ openbsd XXX
meillo@8 261
meillo@8 262 Tatsaechlich standardkonforme Implementierungen, die
meillo@8 263 Multibytes korrekt handhaben, bekommt man bei einem modernen
meillo@8 264 FreeBSD und bei den Heirloom Tools. Bei FreeBSD hat Tim Robbins
meillo@9 265 im Sommer 2004 den Zeichenmodus POSIX-konform reimplementiert.
meillo@8 266 [ https://svnweb.freebsd.org/base?view=revision&revision=131194
meillo@8 267 Warum die beiden anderen grossen BSDs diese Aenderung nicht
meillo@8 268 uebernommen haben, bleibt offen. Es scheint aber an der im
meillo@8 269 obigen Kommentar formulierten Grundausrichtung zu liegen.
meillo@8 270
meillo@8 271 Wie findet man als Nutzer heraus, ob beim cut(1) des eigenen
meillo@8 272 Systems Multibytes korrekt unterstuetzt werden? Zuerst ist
meillo@8 273 entscheidend, ob das System selbst mit einem Multibyte-Encoding
meillo@9 274 arbeitet, denn tut es das nicht, dann entsprechen sich naemlich
meillo@9 275 Zeichen und Bytes und die Frage eruebrigt sich. Man kann das
meillo@9 276 herausfinden indem man sich das Locale anschaut, aber einfacher
meillo@9 277 ist es, ein typisches Mehrbytezeichen, wie z.B. einen Umlaut,
meillo@9 278 auszugeben und zu schauen ob dieses in einem oder in mehreren
meillo@9 279 Bytes kodiert ist:
meillo@8 280
meillo@8 281 $ echo ä | od -c
meillo@8 282 0000000 303 244 \n
meillo@8 283 0000003
meillo@8 284
meillo@8 285 In diesem Fall sind es zwei Bytes: oktal 303 und 244 . (Den
meillo@8 286 Zeilenumbruch fuegt echo(1) hinzu.)
meillo@8 287
meillo@9 288 Mit dem Programm iconv(1) kann man Text explizit in bestimmte
meillo@10 289 Kodierungen konvertieren. Hier Beispiele, wie die Ausgabe
meillo@10 290 bei Latin1 und wie sie bei UTF-8 aussieht.
meillo@8 291
meillo@8 292 $ echo ä | iconv -t latin1 | od -c
meillo@8 293 0000000 344 \n
meillo@8 294 0000002
meillo@8 295
meillo@8 296 $ echo ä | iconv -t utf8 | od -c
meillo@8 297 0000000 303 244 \n
meillo@8 298 0000003
meillo@8 299
meillo@8 300 Die Ausgabe auf dem eigenen System (ohne die iconv-Konvertierung)
meillo@8 301 wird recht sicher einer dieser beiden Ausgaben entsprechen.
meillo@8 302
meillo@8 303 Nun zum Test der cut-Implementierung. Hat man ein UTF-8-System,
meillo@8 304 dann sollte sich eine POSIX-konforme Implementierung so verhalten:
meillo@8 305
meillo@10 306 $ echo ä | ./cut -c 1 | od -c
meillo@10 307 0000000 303 244 \n
meillo@8 308 0000003
meillo@8 309
meillo@10 310 $ echo ä | ./cut -b 1 | od -c
meillo@10 311 0000000 303 \n
meillo@8 312 0000002
meillo@8 313
meillo@10 314 $ echo ä | ./cut -b 1 -n | od -c
meillo@10 315 0000000 \n
meillo@10 316 0000001
meillo@10 317
meillo@10 318 Bei einer Pseudo-POSIX-Implementierung ist die Ausgabe in
meillo@10 319 allen drei Faellen wie die mittlere: Es wird das erste Byte
meillo@10 320 ausgegeben.
meillo@8 321
meillo@8 322
meillo@8 323 Implementierungen
meillo@8 324
meillo@9 325 Nun ein Blick auf den Code. Betrachtet wird eine Auswahl an
meillo@9 326 Implementierungen.
meillo@9 327
meillo@9 328 Fuer einen ersten Eindruck ist der Umfang des Quellcodes
meillo@9 329 hilfreich. Typischerweise steigt dieser ueber die Jahre an. Diese
meillo@8 330 Beobachtung kann hier in der Tendenz, aber nicht in jedem Fall,
meillo@9 331 bestaetigt werden. Die Unterstuetzung des Byte-Modus (-b)
meillo@9 332 erfordert zwangslaeufig mehr Code, deshalb sind die
meillo@9 333 POSIX-konformen Implementierungen tendenziell umfangreicher.
meillo@8 334
meillo@8 335
meillo@9 336 SLOC Zeilen Bytes Gehoert zu Dateidatum Kategorie
meillo@9 337 -----------------------------------------------------------------
meillo@9 338 116 123 2966 System III 1980-04-11 (trad)
meillo@9 339 118 125 3038 4.3BSD-UWisc 1986-11-07 (trad)
meillo@9 340 200 256 5715 4.3BSD-Reno 1990-06-25 (trad)
meillo@9 341 200 270 6545 NetBSD 1993-03-21 (trad)
meillo@9 342 218 290 6892 OpenBSD 2008-06-27 (pseudo)
meillo@9 343 224 296 6920 FreeBSD 1994-05-27 (trad)
meillo@9 344 232 306 7500 NetBSD 2014-02-03 (pseudo)
meillo@9 345 340 405 7423 Heirloom 2012-05-20 (POSIX)
meillo@9 346 382 586 14175 GNU coreutils 1992-11-08 (pseudo)
meillo@9 347 391 479 10961 FreeBSD 2012-11-24 (POSIX)
meillo@9 348 588 830 23167 GNU coreutils 2015-05-01 (pseudo)
meillo@9 349 XXX verlinken
meillo@8 350
meillo@8 351
meillo@9 352 Das Kandidatenfeld teilt sich grob in vier Gruppen: (1) Die zwei
meillo@9 353 urspruenglichen Implementierungen, die sich nur minimal
meillo@9 354 unterscheiden, mit gut 100 SLOCs. (2) Die fuenf BSD-Versionen mit
meillo@9 355 gut 200 SLOCs. (3) Die zwei POSIX-konformen Programme und
meillo@9 356 die alte GNU-Version mit 340-390 SLOCs. Und (4) die moderne
meillo@9 357 GNU-Variante mit fast 600 SLOCs.
meillo@8 358
meillo@9 359 Die Abweichung zwischen logischen Codezeilen (SLOC, ermittelt mit
meillo@9 360 SLOCcount) und der Anzahl von Zeilenumbruechen in der Datei (`wc
meillo@9 361 -l') erstreckt sich ueber einen Faktor von 1.06 bei den aeltesten
meillo@9 362 Vertretern bis zu Faktor 1.5 bei GNU. Der groesste
meillo@9 363 Einflussfaktor darauf sind Leerzeilen, reine Kommentarzeilen und
meillo@9 364 die Groesse des Lizenzblocks am Dateianfang.
meillo@8 365
meillo@9 366 Betrachtet man die Abweichungen zwischen den logischen Codezeilen
meillo@9 367 und der Dateigroesse (`wc -c'), so pendelt das Teilnehmerfeld
meillo@9 368 zwischen 25 und 30 Bytes je Anweisung. Die Heirloom-Implementierung
meillo@9 369 weicht mit nur 21 nach unten ab, die GNU-Implementierungen mit
meillo@10 370 fast 40 nach oben. Dies liegt bei GNU hauptsaechlich an deren
meillo@9 371 Programmierstil, mit spezieller Einrueckung und langen Bezeichnern.
meillo@9 372 Ob man die Heirloom-Implementierung als besonders kryptisch
meillo@9 373 oder als besonders elegant bezeichnen will, das soll der
meillo@9 374 eigenen Einschaetzung des Lesers ueberlassen bleiben.
meillo@8 375
meillo@8 376
meillo@11 377 Die interne Struktur des C-Codes ist meist aehnlich. Neben der
meillo@11 378 obligatorischen main-Funktion, die die Kommandozeilenargumente
meillo@11 379 verarbeitet, gibt es im Normalfall eine Funktion, die die
meillo@13 380 Feldauswahl in eine interne Datenstruktur ueberfuehrt. Desweiteren
meillo@11 381 haben fast alle Implementierungen separate Funktionen fuer die
meillo@11 382 zwei bzw. drei Modi. Bei den POSIX-konformen Implementierungen
meillo@11 383 wird die `-b -n'-Kombination als weiterer Modus behandelt, und
meillo@11 384 damit in einer eigenen Funktion umgesetzt. Nur bei der fruehen
meillo@11 385 System III-Implementierung (und seiner 4.3BSD-UWisc-Variante)
meillo@13 386 wird ausser den Fehlerausgaben nichts aus der main-Funktion
meillo@13 387 ausgelagert.
meillo@11 388
meillo@15 389 Cut-Implementierungen haben typischerweise zwei limitierende
meillo@15 390 Groessen: Die Maximalanzahl unterstuetzter Felder und die maximale
meillo@15 391 Zeilenlaenge. Bei System III ist die Anzahl der moeglichen Felder
meillo@15 392 und ebenso die Zeilenlaenge auf 512 begrenzt. 4.3BSD-Reno und die
meillo@15 393 BSDs der 90er Jahre haben ebenfalls fixe Grenzen (_BSD_LINE_MAX
meillo@12 394 bzw. _POSIX2_LINE_MAX). Bei modernen FreeBSDs, NetBSDs, bei
meillo@12 395 allen GNU-Implementierungen und bei Heirloom kann sowohl
meillo@12 396 die Felderanzahl als auch die maximale Zeilenlaenge beliebig
meillo@12 397 gross werden; der Speicher dafür wird dynamisch alloziiert.
meillo@12 398 OpenBSD ist ein Hybrid aus fixer Maximalzahl an Feldern, aber
meillo@15 399 beliebiger Zeilenlaenge. XXX fgetln
meillo@15 400 Die begrenzte Felderanzahl scheint jedeoch kein praktisches
meillo@15 401 Problem darzustellen, da _POSIX2_LINE_MAX mit mindestens 2048
meillo@15 402 durchaus genug Platz bieten sollte.
meillo@11 403
meillo@8 404
meillo@2 405 Beschreibungen
meillo@1 406
meillo@9 407 Interessant ist auch ein Vergleich der Kurzbeschreibungen von
meillo@9 408 cut, wie sie sich in der Titelzeile von Manpages oder manchmal
meillo@9 409 auch am Anfang der Quellcodedatei finden. Die folgende Liste
meillo@9 410 ist grob zeitlich geordnet und nach Abstammung gruppiert:
meillo@3 411
meillo@3 412
meillo@2 413 System III cut out selected fields of each line of a file
meillo@3 414 System III (src) cut and paste columns of a table (projection of a relation)
meillo@2 415 System V cut out selected fields of each line of a file
meillo@2 416 HP-UX cut out (extract) selected fields of each line of a file
meillo@2 417
meillo@3 418 4.3BSD-UWisc (src) cut and paste columns of a table (projection of a relation)
meillo@2 419 4.3BSD-Reno select portions of each line of a file
meillo@2 420 NetBSD select portions of each line of a file
meillo@7 421 OpenBSD 4.6 select portions of each line of a file
meillo@2 422 FreeBSD 1.0 select portions of each line of a file
meillo@10 423 FreeBSD 10.0 cut out selected portions of each line of a file
meillo@2 424 SunOS 4.1.3 remove selected fields from each line of a file
meillo@2 425 SunOS 5.5.1 cut out selected fields of each line of a file
meillo@2 426
meillo@8 427 Heirloom Tools cut out selected fields of each line of a file
meillo@9 428 Heirloom Tools (src) cut out fields of lines of files
meillo@2 429
meillo@2 430 GNU coreutils remove sections from each line of files
meillo@2 431
meillo@2 432 Minix select out columns of a file
meillo@2 433
meillo@2 434 Version 8 Unix rearrange columns of data
meillo@2 435 ``Unix Reader'' rearrange columns of text
meillo@2 436
meillo@9 437 POSIX cut out selected fields of each line of a file
meillo@2 438
meillo@9 439
meillo@9 440 Die mit ``(src)'' markierten Beschreibungen sind aus dem
meillo@9 441 jeweiligen Quellcode entnommen.
meillo@9 442 Der POSIX-Eintrag enthaelt die Beschreibung des Standards.
meillo@9 443 Der ``Unix Reader'' ist ein rueckblickendes Textdokument von
meillo@5 444 Doug McIlroy, das das Auftreten von Tools in der Geschichte
meillo@9 445 des Research Unix zum Thema hat.
meillo@9 446 [ XXX
meillo@9 447 Eigentlich sollte seine
meillo@9 448 Beschreibung der in Version 8 Unix entsprechen. Die
meillo@9 449 Abweichung koennte sowohl ein Uebertragungsfehler als auch
meillo@9 450 eine nachtraegliche Korrektur sein.
meillo@9 451 Alle uebrigen Beschreibungen entstammen den Manpages.
meillo@5 452
meillo@9 453 Oft ist mit der Zeit die POSIX-Beschreibung uebernommen
meillo@5 454 worden, wie beispielsweise bei FreeBSD zu sehen.
meillo@5 455 [ https://svnweb.freebsd.org/base?view=revision&revision=167101
meillo@9 456 XXX fixme!
meillo@5 457
meillo@7 458 Interessant ist, dass die GNU coreutils seit Anbeginn vom
meillo@5 459 Entfernen von Teilen der Eingabe sprechen, wohingegen die
meillo@5 460 Kommandozeilenangabe klar ein Auswaehlen darstellt. Die
meillo@10 461 Worte ``cut out'' sind vielleicht auch nur etwas zu
meillo@9 462 missverstaendlich. HP-UX hat sie deshalb praezisiert.
meillo@5 463
meillo@10 464 Auch beim Begriff, was selektiert wird, ist man sich
meillo@5 465 uneins. Die einen reden von Feldern (POSIX), andere von
meillo@5 466 Abschnitten bzw. Teilen (BSD) und wieder andere von Spalten
meillo@5 467 (Research Unix). Ironischerweise leistet sich gerade Version
meillo@5 468 8 Unix, das eigentlich um eine sehr treffende Weltsicht
meillo@5 469 bemueht ist, mit ``rearrange columns of data'' die
meillo@5 470 unzutreffendste der Beschreibungen.
meillo@5 471
meillo@5 472
meillo@6 473 Autoreninfo
meillo@6 474
meillo@6 475 Markus Schnalke interessiert sich fuer die Hintergruende
meillo@6 476 von Unix und seinen Werkzeugen. Fuer die Erarbeitung dieses
meillo@6 477 Textes wurde er regelrecht zum Historiker.
meillo@6 478
meillo@6 479
meillo@6 480 Lizenz
meillo@10 481
meillo@6 482 CC0 (und kann damit auch unter CC BY-SA 4.0 Unported
meillo@6 483 veroeffentlicht werden)