Hier beginnt Teil VII: Physische Datenorganisation |
|
mit den Kapiteln |
|
20 Vom Zeichen zur Datenbank |
|
21 Dateitechniken |
|
22 Speichermedien |
|
Wie kommen die Daten in die Datenbank? Oder weiter gefasst: Was sind die Grundlagen unserer digitalen Welt? Zumindest ein wenig sollen diese Fragen hier beantwortet werden, auch um ein besseren Verständnis der Begrifflichkeit und des Gesamtzusammenhanges zu ermöglichen. Dazu wird der Weg vom einzelnen Zeichen zur Datenbank, jeweils auch mit den parallelen Elementen der logischen Modellierung, dargestellt. Insgesamt geht es also um den Weg Zeichen - Datenfeld - Datensatz - Datei - Datenbank. |
|
|
|
20.1 Die Ebenen |
|
Zeichen, Bytes, Bits, Datenelemente |
Kleinste Einheit - Zeichen |
Sozusagen ganz am Anfang sind die Zeichen, numerisch oder alphabetisch, die durch Bytes ausgedrückt werden (vgl. Kapitel 18). Digitale Daten bestehen aus solchen einzelnen Zeichen. Sie sind die kleinste Einheit, die aufbewahrt (gespeichert) werden kann. |
|
Ihre innere Struktur besteht aus einer Folge von Bits (Abk. für binary digit). Diese stellen die elementare Einheit dar, die man zur Darstellung beliebiger Information im Computer verwendet. Ein Bit kann nur zwei verschiedene Werte annehmen, die man z.B. mit "0" und "1" bezeichnen kann. Die Arbeit mit Bits wäre mühsam, deshalb bildet man Informationseinheiten, die aus mehreren Bits bestehen, beispielsweise aus 8, 16 oder 32 Bits oder auch im Falle von Bildern aus sehr viel mehr Bits. Wie bei der Bildung von Wörtern aus einzelnen Buchstaben gibt es feste Regeln, wie diese Bitfolgen aufgebaut werden müssen. Vgl. hierzu und zu den Zeichensätzen Kapitel 18. |
|
Es müssen also alle Daten zur Verarbeitung in einem Computer in einen binären (d.h. zweiwertigen) Code umgesetzt werden, d.h. in eine bestimmte Folge von Binärzeichen. Seien es Zahlen oder Texte, Bilder oder Töne, alle Datenelemente müssen in eine Folge von der Art 10011100 umgewandelt werden. Dann kann der Computer mit seinen Programmen damit umgehen. |
Folge von Binärzeichen |
Die kleinste Einheit zur Darstellung eines Zeichens verwendet acht Bits und wird Byte genannt. Unabhängig davon, wie lang die einzelnen Gruppen von Bits sind, mit denen unterschiedliche Computer arbeiten, sie müssen immer ein Vielfaches von acht darstellen. Ein Byte ist also eine Folge von acht Bits. Diese können insgesamt 28 (256) verschiedene 0/1-Konstellationen aufweisen, so dass genau so viele Zeichen (Buchstaben, Ziffern oder Sonderzeichen) dargestellt werden können. |
Vom Byte zum Bit |
Das Byte ist in der Informationsverarbeitung eine Basiseinheit für den Umgang mit Daten, aber auch für den Umfang von Daten. In Bytes wird die Menge der zu verarbeitenden Daten angegeben oder auch die Größe von Datenspeichern (die Anzahl der darin enthaltenen Bytes). Möchte man eine größere Anzahl Bytes benennen, so verwendet man dafür Vorsilben, ähnlich wie bei Längen- oder Gewichtsangaben. 1 Kilobyte entspricht dann 1024 Bytes, da 210 gleich 1024 ist. Die Vorsilben sind hier immer Vielfache von 1024. |
Basiseinheit Byte |
Größere Einheiten von Bytes |
|
Bezeichnung |
Abkürzung |
Anzahl Bytes |
Byte |
B |
20= 1 Byte |
Kilobyte |
KB |
210 = 1024 Bytes |
Megabyte |
MB |
220 = 1024 KB |
Gigabyte |
GB |
230 = 1024 MB |
Terabyte |
TB |
240 = 1024 GB |
Petabyte |
PB |
250 = 1024 TB |
Zetabyte |
ZB |
260 = 1024 PB |
| |
Mehrere Bytes lassen sich zu einem Maschinenwort oder kurz Wort zusammenfassen. Die Anzahl der zusammengefassten Bytes oder Bits ist charakteristisch für den betreffenden Rechner. Das Maschinenwort gibt im Rechner die Verarbeitungsbreite der Daten an und wird von ihm als Einheit geführt und interpretiert. Ältere Computer haben Wortlängen von zwei Bytes (16-Bit-Rechner), üblich sind heute aber vier Bytes (32-Bit-Rechner) bzw. acht Bytes (64-Bit-Rechner).
|
Maschinenwort, Wort |
Attributsausprägungen, Felder |
|
Die betrachtete Ebene ist ab hier ein einzelnes Feld bzw. eine einzelne Attributsausprägung. Wir wenden uns also wieder dem Datenbankkontext zu. |
|
Mehrere Zeichen zusammen bilden ein Datenfeld (kurz: Feld). Z.B. mit Müller als Name einer Person, 4520,00 als Gehalt einer Person. Damit kommen Objekte / Beziehungen ins Spiel und der in Kapitel 3 besprochene Zusammenhang zwischen Attributen und Objekten / Beziehungen. |
Datenfeld, Wert |
Jedes Datenfeld hat eine Bezeichnung, z.B. Vorname und einen eingetragenen Wert (Eintrag), z.B. Thomas. Ein solches Feld ist die kleinste auswertungsfähige Dateneinheit. |
|
Auf dieser Ebene kommen die in den Kapiteln 18 und 19 vorgestellten Datentypen ins Spiel. Für jedes Feld wird der Datentyp gewählt, der möglichst viel von der Semantik des zugehörigen Attributs ausdrückt. Er legt auch fest, wie die Werte im Rechner repräsentiert werden, z.B. als Zahlen, Text usw. (vgl. hierzu Kapitel 18). |
Datentypen |
In der Datenmodellierung entspricht dem Datenfeld ein Attribut ("Vorname") und dem Wert die Attributsausprägung ("Thomas"). Auch hier werden die zugehörigen Objekte / Beziehungen bereits reflektiert, da sie für die Definition von Attributen benötigt werden. |
Attribut mit Ausprägung |
Datensätze, Tupel |
|
Die betrachtete Ebene ist hier ein einzelnes Objekt bzw. eine einzelne Beziehung. |
|
Werden die Datenfelder zusammengefasst, die ein Objekt / eine Beziehung beschreiben (entsprechend den Kapiteln 4 - 13), erhält man einen Datensatz (engl. record). Ein Datensatz kann z.B. Felder mit Kundennummern, Nachnamen, Vornamen, Wohnorten, Regionen, betreuenden Niederlassungen usw. enthalten. Im Datenbanksinne beschreibt dann ein Datensatz genau ein Objekt / eine Beziehung. Dies entspricht einem Tupel einer Relation mit seinen Attributen. |
|
Dateien, Relationen |
|
Die betrachtete Ebene ist hier die Datei bzw. die Objekt- oder Beziehungsklasse. |
|
Alle gleichartigen Datensätze zu denselben Objekten / Beziehungen werden zu einer Datei (engl. file) zusammengefasst. So werden in einer Angestelltendatei alle Mitarbeiter mit ihren Attributsausprägungen abgelegt, also z.B. der Angestellte Thomas Müller, die Angestellte Karin Maier usw. Jede Datei hat eine eindeutige Bezeichnung. |
Datei |
Dateien sind physisch auf einem Datenträger, in einem (externen) Speicher untergebracht. Sie sind das einzige Mittel, Daten dauerhaft, das heißt über die Beendigung der Verarbeitung hinaus, zu speichern. Dies wird auch persistente Datenhaltung genannt. |
|
In der Datenmodellierung entspricht dem eine Relation, ebenfalls mit eindeutiger Bezeichnung. Sie enthält zu jedem Objekt / jeder Beziehung ein Tupel, die Datei als Ganzes beschreibt alle Tupel, d.h. die Objekt- oder Beziehungsklasse. |
Relationen |
Datenbank, Datenmodell |
|
Oberste Ebene: Datenbank |
|
Die oberste Ebene bildet die Datenbank (engl. data base). Sie besteht aus mehreren Dateien, zwischen denen inhaltliche Abhängigkeiten bestehen, wie in Kapitel 5 und danach gesehen. Die konkrete Umsetzung der Beziehungen wurde in Kapitel 19 vorgestellt. Die Datenbank eines Unternehmens umfasst also beispielsweise neben der Angestelltendatei auch Dateien mit den Kundendaten, mit Lieferantendaten, mit Produktdaten usw. Eine unternehmesweite Datenbank kann zwischen einigen Hundert und mehreren Tausend Dateien umfassen. |
|
In der Datenmodellierung entspricht dem das Datenmodell, wie im Buch gezeigt und in den Kapiteln 16 und 17 durch weitere Beispiele erläutert. |
|
20.2 Übersicht |
|
Die folgende Abbildung zeigt für den Datenbankkontext ab der Ebene der Felder die Begriffe der physischen, logischen und konzeptionellen Ebene im Zusammenhang. |
|
1
|
|
|
Abbildung 20.2-1: |
Begrifflichkeiten der physischen, logischen und konzeptionellen Ebene |
|
|
|
Die waagrechten Pfeile zeigen den Zusammenhang zwischen den Begriffen der verschiedenen Ebenen ("entspricht"), die senkrechten den innerhalb der Ebenen ("baut auf"). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|