Hier beginnt Teil VII: Physische Datenorganisation

mit den Kapiteln

20 Vom Zeichen zur Datenbank

21 Dateitechniken

22 Speichermedien

Wie kommen die Daten in die Datenbank? Oder weiter gefasst: Was sind die Grundlagen unserer digitalen Welt? Zumindest ein wenig sollen diese Fragen hier beantwortet werden, auch um ein besseren Verständnis der Begrifflichkeit und des Gesamtzusammenhanges zu ermöglichen. Dazu wird der Weg vom einzelnen Zeichen zur Datenbank, jeweils auch mit den parallelen Elementen der logischen Modellierung, dargestellt. Insgesamt geht es also um den Weg Zeichen - Datenfeld - Datensatz - Datei - Datenbank.

20.1 Die Ebenen

Zeichen, Bytes, Bits, Datenelemente

Kleinste Einheit - Zeichen

Sozusagen ganz am Anfang sind die Zeichen, numerisch oder alphabetisch, die durch Bytes ausgedrückt werden (vgl. Kapitel 18). Digitale Daten bestehen aus solchen einzelnen Zeichen. Sie sind die kleinste Einheit, die aufbewahrt (gespeichert) werden kann.

Ihre innere Struktur besteht aus einer Folge von Bits (Abk. für binary digit). Diese stellen die elementare Einheit dar, die man zur Darstellung beliebiger Information im Computer verwendet. Ein Bit kann nur zwei verschiedene Werte annehmen, die man z.B. mit "0" und "1" bezeichnen kann. Die Arbeit mit Bits wäre mühsam, deshalb bildet man Informationseinheiten, die aus mehreren Bits bestehen, beispielsweise aus 8, 16 oder 32 Bits oder auch im Falle von Bildern aus sehr viel mehr Bits. Wie bei der Bildung von Wörtern aus einzelnen Buchstaben gibt es feste Regeln, wie diese Bitfolgen aufgebaut werden müssen. Vgl. hierzu und zu den Zeichensätzen Kapitel 18.

Es müssen also alle Daten zur Verarbeitung in einem Computer in einen binären (d.h. zweiwertigen) Code umgesetzt werden, d.h. in eine bestimmte Folge von Binärzeichen. Seien es Zahlen oder Texte, Bilder oder Töne, alle Datenelemente müssen in eine Folge von der Art 10011100 umgewandelt werden. Dann kann der Computer mit seinen Programmen damit umgehen.

Folge von Binärzeichen

Die kleinste Einheit zur Darstellung eines Zeichens verwendet acht Bits und wird Byte genannt. Unabhängig davon, wie lang die einzelnen Gruppen von Bits sind, mit denen unterschiedliche Computer arbeiten, sie müssen immer ein Vielfaches von acht darstellen. Ein Byte ist also eine Folge von acht Bits. Diese können insgesamt 28 (256) verschiedene 0/1-Konstellationen aufweisen, so dass genau so viele Zeichen (Buchstaben, Ziffern oder Sonderzeichen) dargestellt werden können.

Vom Byte zum Bit

Das Byte ist in der Informationsverarbeitung eine Basiseinheit für den Umgang mit Daten, aber auch für den Umfang von Daten. In Bytes wird die Menge der zu verarbeitenden Daten angegeben oder auch die Größe von Datenspeichern (die Anzahl der darin enthaltenen Bytes). Möchte man eine größere Anzahl Bytes benennen, so verwendet man dafür Vorsilben, ähnlich wie bei Längen- oder Gewichtsangaben. 1 Kilobyte entspricht dann 1024 Bytes, da 210 gleich 1024 ist. Die Vorsilben sind hier immer Vielfache von 1024.

Basiseinheit Byte

Größere Einheiten von Bytes

Bezeichnung

Abkürzung

Anzahl Bytes

Byte

B

20= 1 Byte

Kilobyte

KB

210 = 1024 Bytes

Megabyte

MB

220 = 1024 KB

Gigabyte

GB

230 = 1024 MB

Terabyte

TB

240 = 1024 GB

Petabyte

PB

250 = 1024 TB

Zetabyte

ZB

260  = 1024 PB


Mehrere Bytes lassen sich zu einem Maschinenwort oder kurz Wort zusammenfassen. Die Anzahl der zusammengefassten Bytes oder Bits ist charakteristisch für den betreffenden Rechner. Das Maschinenwort gibt im Rechner die Verarbeitungsbreite der Daten an und wird von ihm als Einheit geführt und interpretiert. Ältere Computer haben Wortlängen von zwei Bytes (16-Bit-Rechner), üblich sind heute aber vier Bytes (32-Bit-Rechner) bzw. acht Bytes (64-Bit-Rechner).

Maschinenwort, Wort

Attributsausprägungen, Felder

Die betrachtete Ebene ist ab hier ein einzelnes Feld bzw. eine einzelne Attributsausprägung. Wir wenden uns also wieder dem Datenbankkontext zu.

Mehrere Zeichen zusammen bilden ein Datenfeld (kurz: Feld). Z.B. mit Müller als Name einer Person, 4520,00 als Gehalt einer Person. Damit kommen Objekte / Beziehungen ins Spiel und der in Kapitel 3 besprochene Zusammenhang zwischen Attributen und Objekten / Beziehungen.

Datenfeld, Wert

Jedes Datenfeld hat eine Bezeichnung, z.B. Vorname und einen eingetragenen Wert (Eintrag), z.B. Thomas. Ein solches Feld ist die kleinste auswertungsfähige Dateneinheit.

Auf dieser Ebene kommen die in den Kapiteln 18 und 19 vorgestellten Datentypen ins Spiel. Für jedes Feld wird der Datentyp gewählt, der möglichst viel von der Semantik des zugehörigen Attributs ausdrückt. Er legt auch fest, wie die Werte im Rechner repräsentiert werden, z.B. als Zahlen, Text usw. (vgl. hierzu Kapitel 18).

Datentypen

In der Datenmodellierung entspricht dem Datenfeld ein Attribut ("Vorname") und dem Wert die Attributsausprägung ("Thomas"). Auch hier werden die zugehörigen Objekte / Beziehungen bereits reflektiert, da sie für die Definition von Attributen benötigt werden.

Attribut mit Ausprägung

Datensätze, Tupel

Die betrachtete Ebene ist hier ein einzelnes Objekt bzw. eine einzelne Beziehung.

Werden die Datenfelder zusammengefasst, die ein Objekt / eine Beziehung beschreiben (entsprechend den Kapiteln 4 - 13), erhält man einen Datensatz (engl. record). Ein Datensatz kann z.B. Felder mit Kundennummern, Nachnamen, Vornamen, Wohnorten, Regionen, betreuenden Niederlassungen usw. enthalten. Im Datenbanksinne beschreibt dann ein Datensatz genau ein Objekt / eine Beziehung. Dies entspricht einem Tupel einer Relation mit seinen Attributen.

Dateien, Relationen

Die betrachtete Ebene ist hier die Datei bzw. die Objekt- oder Beziehungsklasse.

Alle gleichartigen Datensätze zu denselben Objekten / Beziehungen werden zu einer Datei (engl. file) zusammengefasst. So werden in einer Angestelltendatei alle Mitarbeiter mit ihren Attributsausprägungen abgelegt, also z.B. der Angestellte Thomas Müller, die Angestellte Karin Maier usw. Jede Datei hat eine eindeutige Bezeichnung.

Datei

Dateien sind physisch auf einem Datenträger, in einem (externen) Speicher untergebracht. Sie sind das einzige Mittel, Daten dauerhaft, das heißt über die Beendigung der Verarbeitung hinaus, zu speichern. Dies wird auch persistente Datenhaltung genannt.

In der Datenmodellierung entspricht dem eine Relation, ebenfalls mit eindeutiger Bezeichnung. Sie enthält zu jedem Objekt / jeder Beziehung ein Tupel, die Datei als Ganzes beschreibt alle Tupel, d.h. die Objekt- oder Beziehungsklasse.

Relationen

Datenbank, Datenmodell

Oberste Ebene: Datenbank

Die oberste Ebene bildet die Datenbank (engl. data base). Sie besteht aus mehreren Dateien, zwischen denen inhaltliche Abhängigkeiten bestehen, wie in Kapitel 5 und danach gesehen. Die konkrete Umsetzung der Beziehungen wurde in Kapitel 19 vorgestellt. Die Datenbank eines Unternehmens umfasst also beispielsweise neben der Angestelltendatei auch Dateien mit den Kundendaten, mit Lieferantendaten, mit Produktdaten usw. Eine unternehmesweite Datenbank kann zwischen einigen Hundert und mehreren Tausend Dateien umfassen.

In der Datenmodellierung entspricht dem das Datenmodell, wie im Buch gezeigt und in den Kapiteln 16 und 17 durch weitere Beispiele erläutert.

20.2 Übersicht

Die folgende Abbildung zeigt für den Datenbankkontext ab der Ebene der Felder die Begriffe der physischen, logischen und konzeptionellen Ebene im Zusammenhang.


1

Abbildung 20.2-1:

Begrifflichkeiten der physischen, logischen und konzeptionellen Ebene

Die waagrechten Pfeile zeigen den Zusammenhang zwischen den Begriffen der verschiedenen Ebenen ("entspricht"), die senkrechten den innerhalb der Ebenen ("baut auf").