• Keine Ergebnisse gefunden

Auswertung nach Dateneingabe

4. Methodenentwicklung: Umgang mit defekten Daten

4.6 Inventarische Auswertung

4.6.6 Erkennung von Grad 4: schwere Ausprägung

4.6.7.6 Auswertung nach Dateneingabe

Abfragen an die Fragmentary Data Datenbank:

Durch den allgemeinen Datenbankstandard MySQL 5.5 können diverse Abfragen mit-tels SQL an die Datenbank gesendet werden. Da die pathologischen Ereignisse aus den Befundbögen durch die digitale Eingabe zu Zahlen überführt wurden, können diese anhand verschiedenster Dimensionen aus der Datenbank exportiert und aufgelistet werden. Filtern der eingegebenen Daten ist anhand des untersuchten Gelenks, der Körperseite, des Alters und des Geschlechts möglich, vgl. Abb. 14.

Abb. 14: Filtermöglichkeiten der vorliegenden Daten in der Datenbank. Filtern ist nach Teilgelenk, Körperseite, Altersgruppe und Geschlecht möglich.

Da neben der Körperseite standardmäßig fünf Werte für den Pathologiegrad, fünf Ab-stufungen für das Geschlecht und weitere elf für die Altersklasse existieren (vgl. Kap.

4.6.7.5), sind detaillierte Antworten auf verschiedenste Fragestellungen möglich.

Export aus der Fragmentary Data Datenbank:

Das Ergebnis der Abfrage wird im unteren Bereich der Suchmaske in tabellarischer Form ausgegeben, wie Abb. 15 zeigt.

Abb. 15: Ergebnis einer Suche an die „Fragmentary Data“ Datenbank; gesucht wurde nach einer Schulterarthrose, hierbei alle drei möglichen Teilgelenke (Articulatio Humeri, Articulatio Acromioclavicularis und Articulatio Sternoclavicularis) für die linke Körperseite (alle Altersklassen und Geschlechter).

Das Ergebnis kann als Excel-Datei abgespeichert werden. Die Kopfzeilen werden dabei zur Benennung der Spalten mit übernommen.

Erstellung einer Excel Masterdatei als Basis zur statistischen Bearbeitung:

Nach der Selektion der gewünschten Daten, beispielsweise aller Schulterarthrosen aller Altersklassen und aller Geschlechter von einer Körperseite, werden diese in eine Excel-Datei übertragen, damit sie für die statistischen Hilfsmittel verarbeitbar sind. Die hier entstehende Excel-Datei nennt sich Fragmentary Data Excel Master.xlsx50 und soll alle Gelenkschäden in dem vom Statistik-Programm R benötigten Format enthalten.

Hierfür sind zwei Schritte nötig:

1. Für jedes der vier großen Gelenke müssen die Werte je Körperseite in einen eigenen Reiter in Excel gebracht werden, also: Schulter links, Schulter rechts, Ellenbogen links, Ellenbogen rechts, Hüfte links, Hüfte rechts, Knie links und Knie rechts.

2. Zusammenfassen der Werte, welche für die Gelenkschäden stehen, in einem einzigen Arbeitsblatt, neben Befundnummer, Altersgruppe und Geschlecht.

Nachdem nicht jeder Befund eine arthrotische Schädigung an jedem Gelenk aufgewie-sen hat, gibt es zwischen den jeweiligen Excel-Reitern der vier großen Gelenke unter-schiedlich viele Zeilen. Damit die Gelenkschäden der vier großen Gelenke aller Befunde in der zusammenfassenden Master-Datei in eine Zeile gelangen, müssen also „Lücken“

zwischen den Befundnummern aufgefüllt werden. Fehlt also eine Befundnummer bei einem Gelenk und einer Körperseite, so wird eine Zeile mit lauter Nullen eingefügt, da dann kein einziges Skelettelement vorhanden war, auch kein gesundes, und demnach nicht eingegeben werden konnte.

Werte-Transformation zur Aufbereitung der Daten zur Bearbeitung in R:

Für die statistische Bearbeitung ist der Grad der Schädigung zweitrangig. Für die ma-thematische Verarbeitung ist es daher nur wichtig, ob ein Gelenk beschädigt ist oder nicht. Ziel für die Verarbeitung im Statistik-Programm R ist daher ein Excel-Arbeitsblatt, welches als Werte nur noch drei Werte aufweist:

0 für „Gelenk vorhanden und gesund“

1 für „Gelenk vorhanden und erkrankt“

2 für „Gelenk fehlt“

Dieser Wert soll demnach eine Gesamtaussage für den Zustand des ganzen Gelenks darstellen. Dies macht eine Werte-Transformation nötig, da in der Dateneingabe zum einen Werte für die Skelettelemente jedes Teilgelenks eingegeben wurden, nicht für das gesamte Gelenk, zum anderen wurden die Werte in einer Skala von 0 bis 4 einge-geben, nicht von 0 bis 2. Um also diese Transformation durchzuführen, muss eine Zeile aus den Excel-Reitern der jeweiligen großen Gelenke, welche ja für einen Befund ste-hen, zu einem gesamtgültigen Wert zusammengefasst werden.

Für die Umwandlung gibt es drei Formeln. Die erste Formel prüft, ob in einem Befund alle Skelettelemente fehlen. Wenn ja, so gilt für das gesamte Gelenk der Status „2“, also: das Gelenk fehlt. Die zweite Formel prüft, ob es in einem Befund nur gesunde (und ggfs. auch fehlende), nicht aber beschädigte Gelenke gibt. Wenn ja, so gilt für das

50Die aufbereitete Master-Datei ist im Anhang 9.12.6 referenziert und auf der Daten-DVD enthalten.

gesamte Gelenk der Status „0“, also: Gelenk vorhanden und gesund. Sobald mindes-tens ein Skelettelement eines Teilgelenks des untersuchten großen Gelenks eine leich-te, mittlere oder schwere Form der Arthrose aufweist, so gilt für das gesamte Gelenk der Status „1“, also: Gelenk vorhanden und erkrankt.

Die Werte-Transformation wird für jeden einzelnen Datensatz der vier großen Gelenke à zwei Körperseiten durchgeführt, sodass insgesamt 542 transformierte Werte aus 8 Reitern in der Fragmentary Data Master Tabelle mit der jeweiligen Befundnummer, Alter und Geschlecht zusammengeführt werden. Diese Übersichtstabelle gibt Auf-schluss über den Status eines einzelnen Individuums in Bezug auf arthrotische Schädi-gungen der vier großen Gelenke. Wenn nun in einer Zeile mehrfach die Zahl 2 vorliegt, so lässt sich daran ersehen, dass dieses Individuum mehrere beschädigte Gelenke auf-weist. Ob diese in einem kausalen Zusammenhang zueinander stehen, kann logischer-weise nur anhand des Individualbefundes diskutiert werden.

Datenprüfung mittels der statistischen Datenverarbeitungsumgebung R:

Die Prüfung der erhobenen Daten aus der Methode der Inventarischen Auswertung erfolgt über R Studio, vgl. Kapitel 4.7.3. Zur Arbeit mit R Studio wird Quelltext in der Syntax R benötigt. Die in dieser Arbeit verwendeten R Skripte sind im Anhang enthal-ten51.

Das Skript beginnt mit dem Setzen des Arbeitsverzeichnisses, welches den Ordner an-gibt, in welchem die benötigte CSV Datei mit den zu verarbeitenden Werten enthalten ist. Anschließend folgt das Einlesen der Quelldatei. Diese hält in jeweils einer Spalte Werte für die folgenden Beschriftungen: Befundnummer, Alter, Geschlecht, Zustand Schulter links, Zustand Schulter rechts, Zustand Ellenbogen links, Zustand Ellenbogen rechts, Zustand Hüfte links, Zustand Hüfte rechts, Zustand Knie links und Zustand Knie rechts. Die Werte für den Zustand des Gelenks können dabei entweder 0, 1 oder 2 ein-nehmen, vgl. S. 80.

Da die Werte der Befundnummer nach sortiert sind, wird im folgenden Abschnitt des Skripts die Sortierung der Alters- und Geschlechts-Werte in die korrekte Reihenfolge gebracht, wie im Kapitel 4.6.7.4 angegeben.

Nachfolgend wird ein Überblick über die Daten erzeugt, indem die Anzahl der ver-schiedenen Alters- und Geschlechtsbestimmungen summiert wird.

Als nächster Schritt wird das Vorkommen der Werte 0, 1 oder 2 für das gewählte große Gelenk und die gewählte Körperseite summiert. Diese Anzahlen sind die Basis für die Berechnung des gewichteten Mittels und hier ein Kontrollschritt, da die Summe dieser Werte die Kardinalität des eingegebenen Datenpools treffen muss, um sicherzustellen, dass alle Daten erfasst sind.

51vgl. Kapitel 9.10.2.

Der folgende Skriptabschnitt berechnet das gewichtete Mittel und ist das komplexe Herzstück des R Quelltexts. Zunächst wird der Datenrahmen gesteckt; die soeben ein-gelesenen Daten werden gesamt erfasst. Dann werden die gerade aufbereiteten Daten in Variablen aufgegriffen und je Alterswert und Geschlechtswert durch die Formel ite-riert. Es sind also zwei Schleifen, die ineinander verschachtelt ablaufen und somit eine hohe Zahl von Iterationszyklen verursachen. Hierbei werden eigene Variablen defi-niert, welche temporär im Ablauf einer Schleife benötigt werden.

Tab. 24: Im Rahmen der Hauptiteration des R Skripts verwendete Variablen.

Nummer Variable

1 Anzahl der Personen52 insgesamt 2 Anzahl der Personen52 und defekt 3 Anzahl der Personen52 und gesund 4 Anzahl der Personen52 und unbekannt

Dabei werden die Variablen Nummer 2 und 3 (vgl. Tab. 24) jeweils von den Datensät-zen, die fehlten, bereinigt.

Es folgt ein Kontrolltest, der prüft, ob die gesamte Anzahl mit der Summe von Anzahl der defekten am Gelenk und Körperseite, Anzahl der gesunden und Anzahl der Unbe-kannten übereinstimmt. Diese Prüfung muss positiv erfolgen, damit mit dem Datensatz weitergearbeitet werden kann.

Als Ergebnisse folgen dann drei Werte:

1. Anteil der defekten, bereinigt nach Alter und Geschlecht, für die Gesamtpopulation 2. Anteil der defekten, an den Individuen, wo eine Information vorliegt

3. Anteil der defekten für die Gesamtpopulation

Von besonderem Wert ist das Ergebnis 2, da dieses in Bezug zum tatsächlich vorhan-denen Skelettmaterial steht. Die Werte 1 und 3 sind eher als Kontrollwerte erzeugt worden. Wert 3 zeigt dabei den Anteil der ausgezählten defekten Gelenke in Relation zur gesamten Population (unabhängig davon, ob Gelenke vorhanden waren oder nicht); für die Auswertung ist dieser Wert nicht verwertbar, da er in falscher Relation steht, doch muss der Wert theoretisch immer kleiner als Wert 2 sein53. Wert 1 zeigt den Anteil der defekten, bereinigt nach Alter und Geschlecht, also mit dem jeweiligen Gewichtungsfaktor multipliziert und ist ebenso als Kontrollwert zu verstehen. Er darf nicht > 1 liegen, da dies bei korrekter Dateneingabe rechnerisch unmöglich ist. Die Werte 1 und 3 dienen somit als Marker, ob Wert 2 vertraut werden kann oder nicht.

52mit dem zur Iteration stehenden Alter und Geschlecht.

53außer es würden bei einem Gelenk alle Elemente überliefert sein und es keine fehlenden Skelettelemente geben;

dies ist in der Praxis für Emmering jedoch nicht der Fall.