MAL-Homepage Inhaltsverzeichnis



MAL Dokumentation: Datensammelsystem




Inhalt:

1. ALLGEMEINES
2. DATENSTRUKTUR
3. SAMMELN DER MESSDATEN
4. WERTEDEFINITIONEN
5. GRUPPEN
6. KATEGORIEN
7. ANALYSEN UND DATENEXPORTE
7.1. Allgemeines
7.2. Wertelisten
8. HISTOGRAMME
8.1. Einfaches Histogramm
8.2. Mehrfache Histogramme
9. QUANTILE
9.1. Quantile mit Verteilungskurve
9.2. Quantile-Tabelle
9.3. Quantile-Balkendiagramme
10. KORRELATIONEN
10.1. Regressionen
10.2. Einfache Regression
10.3. Multiple Regression
10.4. Reliabilitätstests
10.5. Korrelationsmatrizen
10.6. Hauptkomponentenanalyse
11. VERGLEICHE
11.1. Vergleich von Gruppen
11.2. Vergleich per gestufter Variable
11.3. Vergleich von Kategorien
11.4. Varianzanalysen (ANOVA)
11.5. XY-Plots
12. CLUSTER-ANALYSE
13. KURVEN
13.1. Gruppenvergleich von Kurven
13.2. Zeitvergleich von Kurven
14. TRENDS
14.1. Trends von Einzelwerten
14.2. Trend-Tabellen
14.3. Zeitverläufe von Einzelwerten
15. MUSTERERKENNUNG
15.1. Trainings- und Testset vorbereiten
15.2. Einrichten und Konfigurieren
15.3. Analyse der Mustererkennungen
15.4. Neuronale Netze
15.5. Random Forest
15.6. Naive Bayes Klassifikation
15.7. Mustererkennung mit multipler Regression
15.8. Die Treffermatrix
16. AUSLASTUNGSKURVEN
17. EXPORTE
17.1. Export von Einzelwerten
17.2. Export von Tabellen
18. STYLE-SHEETS
18.1. Testen von Style-Sheets
18.2. Entwurf von Style-Sheets
19. PROGAMMSTUKTUR
19.1. Collection-Klassen
19.2. Berechnungs-Klassen
19.3. Eintragen von Messdaten


1. ALLGEMEINES

Das Datensammelsystem ist eine Datenbank, in die Messdaten von verschiedenen unabhängigen medizinischen Erfassungssystemen personenbezogen geschrieben werden können. Das System ist so konzipiert, dass die Erfassungssysteme nicht notwendiger Weise in einem gemeinsamen Netzwerk betrieben werden müssen.

Die Zuordnung der Messdaten zu einer Person erfolgt jeweils über die Sozialversicherungsnummer. Daher ist es erforderlich, dass diese bei der Messdatenerfassung (Archivierung der Messdaten im lokalen
Messdaten-Archiv) korrekt eingegeben wird.

Die Datensanalyse ist so konzipiert, dass für verschiedene Projekte oder Anwender Konfigurationsdaten für die Analysen zusammengestellt werden können. Sind die Analysen erst einmal konfiguriert, können sie mit wenigen Mausklicken gestartet werden. Die Konfigurationsdaten sind von den Messdaten getrennt, daher kann man einmal eingerichtete Analysen mit neuen Daten versorgen ohne sie neu zu konfigurieren.

Für Testzwecke kann man das Demo-Messdatenarchiv downloaden und auf "C:\MessArchiv" expandieren. Das Demo-Datensammlung kann von der MAL-Konsole durch Aufruf des Wortes datensammlung geöffnet werden. Sie enthält allerdings nur Messdaten von einem Probanden, was für statistische Analysen in der Regel nicht ausreicht. Der Transfer weiterer Messdaten vom Demo-Messdatenarchiv in die Demo-Datensammlung ist im Kapitel Klinische Befunde beschrieben.

MAL-Homepage Inhaltsverzeichnis


2. DATENSTRUKTUR

Die Daten im Datensammelsystem werden in Baumstrukturen abgelegt. Jedem Proband ist die Wurzel eines Baumes zugeordnet.

Die erste Verästelung teilt die Messdaten in die einzelnen Erfassungssysteme auf.

Es ist nicht erforderlich, dass für alle Probanden die gleichen Messungen eingetragen sind, daher können die Bäume unterschiedlichen Aufbau haben. Die Struktur der Verästelungsebenen ist aber für alle Probanden einheitlich.

Pro Messsystem können ein oder mehrere Messungen erfasst und archiviert sein. Im obigen Bild ist das durch unterschiedliche Messtage angedeutet. In Wahrheit erfolgt die Identifikation der Einzelmessungen über die beim Eintragen ins Mess-Archiv vergebene
Identifikation.

Im Datensammelsystem werden nur vorverarbeitete Messdaten (statistische Größen, Skalare, Texte und Kurven) abgespeichert. Die Struktur der gespeicherten Daten hängt vom Datenerfassungssystem bzw. der nachgeschalteten Routine für die Messdatenanalyse ab.

MAL-Homepage Inhaltsverzeichnis


3. SAMMELN DER MESSDATEN

Das Eintragen von Daten ins Datensammelsystem muss für jedes Erfassungssystem vom
Mess-Archiv aus manuell vorgenommen werden.

Voraussetzung ist, dass eine entsprechende Analyseroutine (Laufband_Kraftauswertung, Video_Schrittparameter, Biodex_Analyse, Posturographie_Analyse) mit insert / Analyse in die Tabelle mit den Archivierungs- und Analyseroutinen eingetragen wird. Vorzugsweise wählt man dabei die Varianten für Messungsvergleich, da diese das serielle Sammeln von vielen Messungen in einem Arbeitsschritt ermöglichen.

Mit dem Menüpunkt Konfiguration / Analyse kann unter Ausgabeformat "Datensammlung" ausgewählt werden. Damit wird erreicht, dass beim Start der Analyse die Ergebnisse nicht am Bildschirm angezeigt, sondern in die Datensammlung transferiert werden.

MAL-Homepage Inhaltsverzeichnis


4. WERTEDEFINITIONEN

Die Bedeutung der Messgrößen ist in den gerätespezifischen Beschreibungen zu finden und zwar

Pro Messung wird normalerweise eine Vielzahl von Daten gesammelt. Die Struktur der gesammelten Daten hängt auch von der Art der Messdatenquelle ab. Um statistische Berechnungen durchführen zu können ist es erforderlich, pro Messung einen Skalarwert zu berechnen. Die dafür erforderlichen Berechnungscodes sind in der Tabelle Wertedefinitionen einzutragen. Die Berechnung selbst wird immer dann ausgeführt, wenn die Skalarwerte benötigt werden. Daher können einmal eingetragene Berechnungen auch nach einem Update der gesammelten Messdaten wieder verwendet werden.

Mit dem Menüpunkt Insert wird ein neuer Berechnungscode definiert.

Die Definition der Berechnung erfolgt menügeführt anhand von Beispiel-Messdaten. Es sind also keine Programmierkenntisse erforderlich. Nach der Eingabe von Bezeichnung und Kommentar wird daher die Probanden-Datenbank geöffnet. Jeweils mit Doppelklick kann man einen Beispiel-Probanden, ein Beispiel-Erfassungsystem und eine Beispiel-Messung auswählen.

Mit Doppelklick auf die Beispiel-Messung wird dann definiert, wie der Skalarwert berechnet werden soll. Dieser Teil der Bedienung ist abhängig von der Art des Messdaten-Erfassungsystem.

Bei Messdaten vom Diagnostischen Laufband, Videometrie-Schnelltest, und Biodex erscheint zunächst folgendes Menü zur groben Auswahl der auszuwertenden Daten:



Stichprobe
Bei der Auswahl von Stichprobe muss noch genauer defniert werden, wie aus der Stichprobe oder den Stichproben der Skalarwert berechnet werden soll. Folgendes Beispiel würde den mittleren Schrittlängenunterschied zwischen linker und rechter Seite berechnen:



Der so definierte Eintrag in der Wertetabelle berechnet also für jede Laufbandmessung einen Skalarwert auf folgende Weise:

  1. Pro Bewegungszyklus wird die Differenz zwischen linker und rechter Schrittlänge berechnet.
  2. Von diesen Differenzen wird der Mittelwert berechnet.
Die Eingabefelder unter der Übersschrift "ABSTUFUNG" können dazu verwendet werden, den Messwert in numerische oder nominal skalierte Stufen einzuteilen. Die Stufengrenzen müssen links in die Felder Grenze_1 bis Grenze_7 in aufsteigender Reihenfolge eingegeben werden. Wird in eines der Felder Stufe_1 etc. ein Name eingetragen, so werden die Stufen nominal skaliert. In diesem Fall wird für Stufen, die keinen Namen besitzen kein Wert berechnet.

Texte
Bei Texten besteht die Möglichkeit nach Strings zu suchen (Eingabefeld Zeichenfolge). Die dabei berechneten Skalarwerte können die Werte 0 und 1 (0 = nicht gefunden, 1 = gefunden) annehmen. Das folgende Bild zeigt eine Eingabemaske wie sie in ähnlicher Form bei den meisten textbasierten Wertedefinitionen vorkommt:

Das Feld Datensatz muss zwingend ausgefüllt werden, der Rest ist optional (kann leer gelassen werden). Will man die berechneten Texte in Kategorien einteilen, so muss in das Feld klassifizieren_nach der Name einer Kategoriesierung (aus der Tabelle Kategorisierungen) eingetragen werden. Im Feld Kategorie_als kann ausgewählt werden, ob der Name oder der Index der Kategorie als Ergebnis berechnet werden soll.

Schließlich muss der neuen Berechnung noch ein eindeutiger Name gegeben werden, unter dem der Skalarwert bei statistischen Analysen aufgerufen werden kann. Im Allgemeinen reicht der vom System vorgeschlagene Name aus. Er kann aber ebenso wie ein dazupassender Kommentar in die abschließende Maske eingegeben werden.




Durch einen Doppelklick auf einen Eintrag in der Wertetabelle wird der Menüpunkt Histogramm gestartet, der die Werteverteilung anzeigt. Ist die Stichprobe groß genug, so wird rechts oben auch der p-Wert von einem Chi-Quadrat-Test auf Normalverteilung eingetragen (p-Wert > 0.05 .. normalverteilt). Ist die Stichprobe nicht normalverteilt, so kann eventuell mit Subemenu / Normal ein Normalisierungs-Polynom berechnet werden. Es muss ein Grad für das Polynom eingegeben werden (die Freiheitsgrade der Stichprobe reduziert sich um den Grad des Polynoms, daher sollte dieses Verfahren nur bei großen Stichproben verwendet werden). Das dabei berechnete Wort 'normalisieren' kann mit Copy and Paste in den Code der Werteberechnung eingetragen werden (der Code wird mit dem Menüpunkt Code angezeigt). Der Aufruf des Wortes 'normalisieren' sollte immer unmittelbar vor 'set_label' erfolgen. Bei manchen schiefsymmetrischen Verteilungen kann man auch mit Logarithmieren gute Erfolge erzielen. Natürlich kann man auch beide Verfahren (und noch andere) kombinieren.

Mit dem Menüpunkt Gruppe kann die Anzeige auf eine vordefinierte Probandengruppe (siehe Kapitel
Gruppen) eingeschränkt werden.

Mit Submenu / Sort werden die Werte in der Tabelle alphabetisch aufsteigend sortiert.

Mit dem Menüpunkt Code kann der für die Werteberechnung generierte MAL-Code editiert werden. Zu Beachten ist, dass bei Fehlern im Code keine Fehlermeldungen abgesetzt werden. Die Ausgabe von Fehlermeldungen bei der Berechnung von Skalarwerten ist unterdrückt, weil in vielen Fällen die Skalarwerte nicht berechnet werden können (z.B. wenn die erforderlichen Messwerte bei einem Probanden nicht erfasst wurden). Für die Fehlersuche in einem Berechnungscode muss man daher den Menuüpunkt Test verwenden. Dieser Menupunkt ruft den markierten Berechnungscode mit eingeschalteten Fehlermeldungen für einen einzelnen Probanden, den man aus der Datenbank auswählen muss, auf.

MAL-Homepage Inhaltsverzeichnis


5. GRUPPEN

Eine Gruppe ist eine Menge von Probanden, die nach bestimmten Kriterien ausgewählt wurde. Mit dem Menüpunkt Gruppen im Hauptmenue wird die Tabelle mit den definierten Probandengruppen geöffnent.

Mit Insert können in diese Tabelle neue Gruppen eingefügt werden, dabei muss zunächst eine eindeutige Bezeichnung und ein Kommentar eingegeben werden und danach stehen die Varianten

zur Auswahl.

Basisgruppen sind jene Gruppen, bei denen die Auswahl der Probanden direkt per
Suchmaske erfolgt, während bei Kombinationen eine Formel für die Verknüpfung bereits definierter Gruppen definiert werden kann. Die Verknüpfungsformeln werden in der üblichen MAL-Syntax definiert. Die bereits definierten Gruppen stehen als Variablen zur Verfügung und können nebst der standardmäßigen boolschen Verknüpfungen (and, or, not) auch mit den Operatoren '+' (wie Oder-Verknüpfung), '-' (entspricht 'not and') und '%' bearbeitet werden. Der Operator '%' muss mit einer vorangestellten Prozentangabe (0..100) verwendet werden und dient zur zufälligen Auswahl einer Teilmenge.

Beispiel:
Alle Parkinson - 50 %
berechnet von allen Probanden außer jenen der Gruppe 'Parkinson' 50 Prozent.

Mit dem Menüpunkt Anzeigen wird für die markierte Gruppe die Liste der Probanden und deren Anzahl angezeigt.

Hinweis: Die Berechnung der zu den Gruppen gehörigen Probanden erfolgt immer, wenn die Definition einer Gruppe geändert wird, oder wenn neue Probanden mit Administration / Import in die Datensammlung geholt wurden. Bei sonstigen Änderungen in den gesammelten Messdaten (z.B. wenn auf eine andere Datenbank-Datei gewechselt wird) müssen die Gruppen mit Administration / Gruppen aktualisieren neu berechnet werden.

MAL-Homepage Inhaltsverzeichnis


6. KATEGORIEN

Die Kategorien dienen dazu Texte in bestimmte Klassen einzuteilen. Zum Beispiel kann es für manche Analysen erforderlich sein, Gruppen zusammengehöriger Diagnosen zu bilden. Beim Einrichten einer neuen Klassifikation mit dem Menüpunkt Insert wird zunächst die Angabe einer Bezeichnung und eines Kommentars gefordert. Danach muss der Messwert, der in Kategorien eingeteilt werden soll, ausgewählt werden (aus der Tabelle Wertedefinitionen). Hier können nur Text-Messwerte (keine Skalare oder Kurven) verwendet werden.

Bei einer neu eingerichteten Klassifizierung sind zunächst alle Texte der Kategorie '?' zugeordnet. Die Zuordnung zu neuen Kategorien muss manuell durchgeführt werden. Das geschieht durch einen Doppelklick auf die neue Klassifizierung oder mit dem Menüpunkt Klassifizierung. Im daraufhin erscheinenden Menü wählt man zunächst Texts aus und erhält damit eine Tabelle aller auftretenden Texte, wobei links in der Spalte 'Kategorie' die aktuelle Kategorie des jeweiligen Textes eingetragen ist. Mit einem Doppelklick auf einen Text (entspricht dem Menüpunkt Single) kann dieser einer Kategorie zugeordnet werden.

Mit der Kombination von Find und All kann eine Menge von Texten einer Kategorie zugeordnet werden, indem zum Beispiel zuerst mit Find alle Texte, die die Zeichenfolge "Fraktur" enthalten gesucht werden und dann alle gefundenen Einträge mit All der Kategorie 'Frakturen' zugeordnet werden.

Der Menüpunkt Categories zeigt an, welche Kategorien bereits definiert wurden und wie viele Texte ihnen jeweils zugeordnet sind.

Bei der Anwendung von Kategorisierungen bei der Datenanalyse werden jeweils die Texte durch die Namen ihrer Kategorien ersetzt.

MAL-Homepage Inhaltsverzeichnis


7. ANALYSEN UND DATENEXPORTE

7.1. Allgemeines

Der Menüpunkt Berechnungen im Hauptmenü des Datensammelsystems öffnet eine Tabelle mit statistischen Analysen und Routinen für den Datenexport.

Ein Doppelklick auf einen Eintrag oder der Menüpunkt Start startet die entsprechende Berechnung. Die Anzeige der Ergebnisse erfolgt normalerweise am Bildschirm. Eine Ausgabe auf Drucker oder Datei (im JPEG-Format) kann unter Administration / Configuration eingeschaltet werden, indem in das Feld enable_Printouts 1 eingetragen wird. Es erscheint dann in der Folge nach jeder Bildschirmanzeige ein Menü, bei dem die zuletzt angezeigte Graphik auf Datei oder Drucker ausgegeben werden kann. Der Wert 0 bei enable_Printouts unterdrückt dieses Menü.

Der Menüpunkt Konfigurieren dient zum Konfigurierten der markierten Berechnung. Welche Parameter eingestellt werden können hängt von der jeweiligen Berechnungsart ab (siehe unten).

Mit Insert kann eine neue Berechnung in die Tabelle eingefügt werden. Nach dem Ausfüllen der Maske mit Bezeichnung und Kommentar erscheint ein Menü zur Auswahl der Berechnungsart mit folgender Struktur:



MAL-Homepage Inhaltsverzeichnis


7.2. Wertelisten

Viele der Analysen benötigen eine frei wählbare Anzahl von Eingangsvariablen. Daher wird bei der Konfiguration derartigen Analysen meist unter dem Menüpunkt Werteliste eine Tabelle für die Definition dieser Werte angeboten. Sie sieht etwa wie folgt aus:

Mit dem Menüpunkt Insert können neue Werte in die Liste eingetragen werden, wobei mit dem nachfolgenden Untermenü zwei Möglichkeiten zur Auswahl stehen:

MAL-Homepage Inhaltsverzeichnis


8. HISTOGRAMME

Der einfachste Weg ein Histogramm eines Messwerts zu erhalten ist ein Doppelklick auf den enstprechenden Messwert in der Wertetabelle (Aufruf des Wortes
datensammlung und Menüpunkt Wertedefinitionen). Will man nur die Werte eine bestimmten Probandengruppe anzeigen, so kann man zuvor den Menüpunkt Gruppe aufrufen. Allerdings lässt sich bei dieser Art von Histogramm die Beschriftung nicht einstellen und ein Ausdruck der Graphik ist nicht möglich.

MAL-Homepage Inhaltsverzeichnis


8.1. Einfaches Histogramm

In die Berechnungsliste kann mit Insert / Histogramme / Einfaches Histogramm eine neue Histogrammberechnung eingetragen werden. Durch Markieren des neuen Eintrags und Auswahl des Menuepunkts Konfigurieren sind die Parameter Titel, Abszisse, Ordinate, Wert und Gruppe einstellbar. Die ersten drei Parameter sind für die Beschriftung der Graphik, Wert dient zur Auswahl eines Skalarwertes aus der
Wertetabelle und Gruppe dient zur Auswahl der Probandengruppe aus der Gruppentabelle.

Der Parameter pro_Proband bestimmt, wie die Skalarwerte der einzelnen Messungen jedes Probanden verknüpft oder selektiert werden sollen. Folgende Werte sind möglich:

MAL-Homepage Inhaltsverzeichnis


8.2. Mehrfache Histogramme

Mehrfache Histogramme dienen primär dem visuellen Vergleich mehrerer Skalarwerte. Die integrierte Varianzanalyse (Einweg-ANOVA) ermöglicht aber auch eine statistische Beurteilung der Abweichungen zwischen einzelnen Messwerten und/oder Probandengruppen. Mit Insert / Histogramme / Mehrfache Histogramme wird eine entsprechende Berechnung eingerichtet. Welche Messwerte dargestellt werden sollen kann man im Konfigurationsmenü mit dem Menüpunkt Wertetabelle einstellen.

Wählt man im Konfigurationsmenü den Menüpunkt Parameter, so kann man noch die Darstellungsform (Balken oder Kurven) und die Bildaufteilung (Einzelbilder oder Gesamtbild) einstellen. Bei der Auswahl von "Einzelbilder" wird jeder Messwerte in einem eigenen Koordinatensystem dargestellt. Wenn die Werteliste wie im obigen Beispiel konfiguriert ist, wird die Ganggeschwindigkeit von Männern und Frauen verglichen. Das Ergebnis sieht etwa wie folgt aus:

Mit insert können neue Messwerte in die Wertetabelle eingefügt werden. Dabei erscheint jeweils eine Eingabemaske mit folgenden Parametern:

von_Tag
Die Tagesangaben sind relativ zum Erfassungstag des ersten in der Tabelle angegebenen Messwertes, wenn dieser berechnet werden kann. Andernfalls wird das Datum des zweiten oder gegebenenfalls dritten etc. Eintrags in der Tabelle herangezogen.

Beschriftung_Abszisse
Wenn in Parameter / Bildaufteilung "Gesamtbild" eingestellt ist, gibt es für alle Messwerte nur eine gemeinsame X-Achse. In diesem Fall wird die Achsenbeschriftung vom ersten Eintrag in der Tabelle verwendet.

MAL-Homepage Inhaltsverzeichnis


9. QUANTILE

9.1. Quantile mit Verteilungskurve

Quantilbilder zeigen die Messwerte der Größe nach geordnet mit der Möglichkeit nach Grenzwerten (Quantil-Werten) zu suchen. Das Einrichten einer Quantil-Analyse erfolgt mit insert / Quantile / Verteilungskurve.

Konfiguration:

Zusätzlich zu den Parametern wie sie bei Histogrammen anzugeben sind, sind bei Quantil-Bildern noch die Grenzen der einzelnen Gruppen anzugeben. Die Angabe erfolgt in Prozentwerten in aufsteigender Reihenfolge, durch Blank getrennt. Bei obiger Konfiguration erscheint dann etwa folgendes Bild:

MAL-Homepage Inhaltsverzeichnis


9.2. Quantile-Tabelle

Quantile-Tabellen können für die Berechnung von Grenzwerten für die automatische Befundung verwendet werden. Es kann eine Liste mehrerer Messwerte angegeben werden.

Das Ergebnis wird in einem Editorfenster angezeigt und kann mit Copy and Paste in ein Excel-Sheet kopiert werden.

Beispiel:

Biodex


Wert Stichpr. 25% 50% 75% BX Alter 158 30 67.8434 77 LB Geschwin 33 1.01535 1.10949 1.16819
Das Einrichten erfolgt mit Insert / Quantile / Tabelle.

MAL-Homepage Inhaltsverzeichnis


9.3. Quantile-Balkendiagramme

Quantile-Balkendiagramme ermöglichen den optischen Vergleich von Quantilewerten mehrerer Messwerte und mehrerer Probandengruppen. Sie werden mit Insert / Quantile / Balkendiagramm eingerichtet. Wenn die Parametermaske etwa folgendermaßen ausgefüllt wird

so werden für alle Messwerte in der Messwerttabelle die Wertebreiche bei den vier verschiedenen Probandengruppen dargestellt.

Beispiel:

Die Balken reichen jeweils vom Minimum bis zum Maximum. Die farbigen Rechtecke reichen vom 25%- bis zum 75%-Quantil. Der Medianwert, also das 50%-Quantil ist durch die kleinen Marken etwa in der Mitte des Rechtecks markiert. Das entspricht den Grenzen, wie sie oben in der Parametermaske eingetragen wurden.

MAL-Homepage Inhaltsverzeichnis


10. KORRELATIONEN

10.1. Regressionen

Regressionen dienen dazu, die Abhängigkeit einer Messgröße von einer oder mehreren anderen graphisch zu veranschaulichen. Mit Insert / Regression wird eine neue Regression eingerichtet, wobei zwischen einer einfachen Regression (Abhängigkeit von einer Messgröße) oder einer multiplen Regression (Abhängigkeit von mehreren Messgrößen) ausgewählt werden kann.

MAL-Homepage Inhaltsverzeichnis


10.2. Einfache Regression

Konfiguration: Im Parameter unabhängiger_Wert ist ein Skalarwert für die X-Achse (Abszisse) einzutragen, der Wert für die Y-Achse ist im Parameter abhängiger_Wert einzutragen. Die eingetragenen Namen der Skalarwerte werden auch für die Achsenbeschriftung verwendet. Die Einheitenbezeichnungen fehlen dabei. Sie können aus der
Datenbank mit Messdaten / Anzeigen / Anzeigen ermittelt werden und in die Felder Einheit_Abs. bzw. Einheit_Ord. eingetragen werden.

Die Felder unabhängig_pro_Proband und abhängig_pro_Proband sind vom Prinzip her im Kapitel Histogramme beschrieben.

Die üblichste Form der Regression ist die lineare Regression (Grad=1). Mit Grad=2 wird eine quadratische Regression usw. berechnet. Bei linearen Regressionen wird zusätzlich der lineare Korrelationskoeffizient berechnet. Er ist ein Mass für die Abhängigkeit des Ordinatenwertes vom Abszissenwert (-0.5 .. 0.5 = wenig Korreltation, -1 .. -0.5 = negative Korrelation, 0.5 .. 1 = positive Korreltation).

MAL-Homepage Inhaltsverzeichnis


10.3. Multiple Regression

Bei multiplen Regressionen kann die lineare Abhängigkeit einer Messgröße von mehreren anderen untersucht werden. Die Messgrößen werden ähnlich wie bei
Varianzanalysen in eine Tabelle eingegeben, wobei jeweils der erste Messwert in der Tabelle der abhängige Wert ist. Der Umgang mit der Werteliste ist im Kapitel Werteliste beschrieben.

Beispiel:



Die Anzeige der Ergebnisse kann entweder in Form einer Tabelle oder als Graphik erfolgen. Ein Auswahlmenü erscheint am Ende der Berechnung. Bei der Darstellung als Tabelle werden die unabhängigen Messwerte nach dem %-Anteil des Einflusses auf den abhängigen Messwert sortiert. Der Einfluss wird berechnet, indem der Absolutwert des jeweiligen Regressionskoeffizienten durch die Streuung des entsprechende Messwertes dividiert wird. Der %-Anteil bezieht sich auf die Summe aller Einflusswerte.

Beispiel:
VIDEOMETRIE


Abhängige Größe: VI Schrittl links Mittelwe

+------------------------------------------------------+ I Wert I %-Anteil I Faktor I +------------------------------------------------------+ I VI Geschwin I 53.8869 I 32.1467 I I VI_Körpergr I 46.0428 I 9.06551 I I VI Hebehöhe links Mittelwe I 0.0690225 I 0.498507 I I VI Alter I 0.00135239 I -0.0441352 I +------------------------------------------------------+

Bestimmtheitsmass R^2: 0.849066 Stichprobe: 787
Man erkennt, dass die Geschwindigkeit und die Körpergröße den stärksten, die Hebehöhe weniger und das Alter der Probanden fast keinen Einfluss auf die Schrittlänge hat. Das Bestimmtheitsmaß liegt im Wertebereich 0..1 und gibt an, wie gut die abhängige Größe durch das Modell approximiert werden kann, also wie sehr sie von den unabhängigen Größen tatsächlich abhängt. Bei einem kleinen Bestimmtheitsmaß ist die Aussage der Tabelle gering.

Wählt man als Darstellungsart Graphik, so werden einzelne lineare Regressionen (keine multiple Regression) mit jeweils einer unabhängigen und der abhängigen Stichprobe dargestellt.

MAL-Homepage Inhaltsverzeichnis


10.4. Reliabilitätstests

Zur Überprüfung der Reproduzierbarkeit von Messergebnissen verwendet man die Analyseart "Intraclass-Correlation". Dabei gibt es drei Varianten:

Intraclass-Correlation
Bei der Intraclass-Correlation werden bei mehreren Probanden zwei oder mehrere Wiederholungsmessungen bei gleichen Bedingungen verglichen. Eine hohe Intraclass-Correlation (Wertebereich -1..1) erhält man, wenn die Unterschiede zwischen den Probanden deutlich größer sind als jene zwischen den Wiederholungen (siehe
David C. Howell, Intraclass Correlation)

Pearson-Correlation
Die Pearson-Correlation ist der Standard-Korrelationskoeffizient. Der Wertebereich liegt zwischen -1 und +1. Je größer der Wert, desto besser die Wiederholgenauigkeit. Es werden die Ergebnisse der ersten Messung mit jenen der zweiten verglichen (der Parameter Wiederholungen sollte auf 2 eingestellt werden).

Correlation-Significance
Die Variante Correlation-Significance ist eher von untergeordneter Bedeutung. Sie berechnet den Signifikanzwert der Korrelation zwischen erster und zweiter Messung (der Parameter Wiederholungen sollte auf 2 eingestellt werden). Eine Beschreibung des Berechnungsverfahren findet sich beim Wort
correlation_significance.



Mit Insert / Korrelation / Intraclass-Correlation wird eine neu Analyse eingerichtet. Wählt man Konfigurieren / Parameter, so erscheint folgende Eingabemaske:

Oben kann ein Titel für die Graphik eingetragen werden und darunter kann ausgewählt werden, welche Probandengruppe analysiert werden soll. Der Parameter Analyseart dient zur Auswahl der Auswertungsvariante. Die Parameter minimale_Zwischenzeit und maximale_Zwischenzeit bestimmen, wie lange der zeitliche Abstand zwischen der ersten und letzten Messung sein darf. Die Angabe erfolgt in Tagen, es können aber Kommastellen angegeben werden. Wenn bei einem Probanden mehrere Wiederholungssequenzen gefunden werden, die dem zeitlichen Kriterium entsprechen, dann kann mit dem Parameter Optimierung_der_Zwischenzeiten eingestellt werden, welche dieser Sequenzen verwendet werden soll.

Zur Unterdrückung von Scheinkorrelationen gibt es die Möglichkeit, ein bis zwei potentielle Störfaktoren anzugeben. Zum Beispiel kann man bei Kraftmessungen davon ausgehen, dass diese mit dem Körpergewicht korrelieren. Gibt man also das Körpergewicht als Störfaktor an, dann berechnet das Programm zuerst fuer jede Messgröße die Abhängigkeit vom Körpergewicht mittels linearer Regression. Das Produkt aus Störfaktor (in diesem Fall dem Körpergewicht) und dem Regressionsfaktor wird von der jeweiligen Messgröße subtrahiert. Damit ist sicher gestellt, dass die Messgröße nicht mehr mit dem Störfaktor korreliert.

Wird bei Zwischenergebnis_anzeigen 1 eingetragen, so erscheint jeweils nach der Berechnung einer Messgröße ein Editorfenster mit den für die Analyse verwendeten Daten.

Vor dem Start der Analyse muss noch mit Konfigurieren / Werte angegeben werden, welche Messwerte analysiert werden sollen. Sie können mit einem Doppelklick (Menüpunkt Single) einzeln ausgewählt werden. Oder man selektiert zuerst mit Find eine Teilmenge und wählt dann mit All alle aus. Mit dem Menüpunkt Edit öffnet sich ein Editorfenster, in dem alle ausgewählten Messwerte angezeigt werden. Hier kann man gegebenfalls auch die Reihenfolge ändern oder Messwerte entfernen.

Das folgende Bild zeigt einen Ausschnitt aus dem Ergebnis einer Intraclass-Correlation wenn als Darstellung "3d-Balken+Streuung" eingestellt wird:

MAL-Homepage Inhaltsverzeichnis


10.5. Korrelationsmatrizen

Für die Suche nach signifikanten Korrelationen bei einer größeren Menge von Messgrößen bietet sich die Analyse per Korrelationsmatrix an. Mit Insert / Regression / Korrelationsmatrix wird sie eingerichtet. Man definiert dann zunächst mit Konfigurieren / Unabhängige Werte eine Liste mit den unabhängigen Messgrößen und mit Konfigurieren / Abhängige Werte eine zweite Liste mit den abhängigen Messgrößen. Der Menüpunkt Konfigurieren / Berechnen bewirkt, dass für jede Messgröße aus der Liste der unabhängigen Werte lineare Korrelationen zu sämtlichen Messgrößen aus der Liste der abhängigen Werte berechnet werden (das kann längere Zeit in Anspruch nehmen).

Bei der Einstellung der Parameter (Konfigurieren / Parameter) kann unter anderem bei Korrelationsart eingestellt werden, ob Korrelationen oder Kovarianzen berechnet werden sollen.

Definition der Messgrößen:
Mit den Menüpunkten Konfigurieren / Unabhängige Werte oder Konfigurieren / Abhängige Werte wird zunächst eine Tabelle mit allen möglichen Messwerten geöffnet. Durch einen Doppelklick auf einen Messwert wird dieser zur bestehenden Messwertliste dazugefügt. Will man mehrere ähnlich bezeichnete Messgrößen dazufügen, so kann man mit Find eine Auswahl aus der Messwerttabelle treffen und diese mit All dazufügen. Der aktuelle Stand der Messwertliste kann mit Edit betrachtet oder verändert werden. Die Anzahl der Einträge in der Messwertliste kann mit dem Menüpunkt Info abgefragt werden.

Anzeige der Ergebnisse:
Nach der Berechnung kann mit Start / Matrix eine Matrix mit den Korrelationskoeffizienten angezeigt werden. Beispiel:

VI/LB-Korrelationsmatrix
Gruppe: LB_VI_Probanden


A B C D 1 0.32 0.08 -0.23 -0.21 2 0.23 0.36 -0.22 -0.20 3 -0.58 -0.17 0.58 0.56 4 -0.65 -0.21 0.67 0.65

Unabhängige Werte: 1 .. VI Schrittd Differen Mittelwe 2 .. VI Schrittl Differen Mittelwe 3 .. VI_Kontaktz_Differen_Mittelwe 4 .. VI_Standpha_L-R_Mittelwe

Abhängige Werte: A .. LB Schrittd Differen Mittelwe B .. LB Schrittl Differen Mittelwe C .. LB_Kontaktz_Differen_Mittelwe D .. LB_Standpha_L-R_Mittelwe
Mit der Funktion Start / Ranking wird eine Liste mit den der Größe nach geordneten Korrelationskoeffizienten geöffnet und Start / Histogramm zeigt deren Verteilung an.

MAL-Homepage Inhaltsverzeichnis


10.6. Hauptkomponentenanalyse

Die Hauptkomponentenanalyse (Principal Components Analysis) berechnet die Eigenwerte und Eigenvektoren der Korrelationsmatrix. Das Einrichten erfolgt mit Insert / Korrelation / Hauptkomponenten.

Die Konfiguration ist weitgehend wie bei der Analyse
Korrelationsmatrizen, allerdings muss die Liste der unabhängigen Werte stets gleich jener der abhängigen Werte sein, daher gibt es nur eine Liste, die mit Konfiguration / Werteliste geöffnet werden kann.

Mit Konfiguration / Berechnen wird die Berechnung der Korrelationsmatrix und anschließend der Eigenwerte und Eigenvektoren gestartet. Alternativ kann auch Konfiguration / Einzeln berechnen verwendet werden. Die beiden Varianten unterscheiden sich in der Art, wie die einzelnen Korrelationen der Korrelationsmatrix berechnet werden. Erstere bestimmt die Menge jener Probanden, bei denen alle geforderten Messwerte vorhanden sind, berechnet dann alle Messwerte und in der Folge alle Korrelationen. Zweitere durchsucht pro Korrelation alle Probanden aus der voreingestellten Probandengruppe und nimmt jene in die Berechnung auf, bei denen die zwei für die entsprechende Korrelation erforderlichen Messwerte vorhanden sind.

Die Variante Einzeln berechnen führt zwar zu sehr hoher Laufzeit, ermoeglicht aber die Einbeziehung von Probanden, bei denen nicht alle angeführten Messwerte vorhanden sind. Das ist insbesondere von Relevanz, wenn man Messwerte von mehr als zwei unterschiedlichen Messquellen heranzieht.

Will man zum Beispiel Werte von Videometrie, Laufband, Biodex und Posturographie einbeziehen, so wird man nur wenige Probanden finden, die alle vier Messungen durchgeführt haben. Es gibt aber eine größere Menge von Probanden, die Videometrie und Laufband absolviert haben. Von diesen werden bei Einzeln berechnen die entsprechenden Korrelationen zwischen Videmetrie und Laufband berechnet. Eine andere Menge von Probanden wird Laufband und Biodex absolviert haben. Von diesen werden die entsprechenden Korrelationen zwischen Laufband und Biodex berechnet.

Das bedeutet aber auch, dass die einzelnen Korrelationen der Korrelationsmatrix auf unterschiedlichen Stichproben basieren. Daher erscheint bei den Ergebnissen zusätzlich eine Matrix der Stichprobengrößen. Dort wo die Stichprobe als einzelne Zahl angeführt wird, erscheint jeweils die kleinste in der Matrix aufgetretende Anzahl.

Hinweis: Bei Einzeln berechnen können auch negative Eigenwerte (=Hauptkomponenten) auftreten. Der entsprechende Balken fehlt dann im Scree-Plot. Wenn es sich dabei um einen großen Eigenwert handelt, ist das Ergebnis in Frage zu stellen (siehe hier bzw. hier )

Wenn die Berechnung abgeschlossen ist kann mit Start ein Menü mit folgenden Punkten geöffnet werden:

Komponentenvergleich
Der Komponentenvergleich unterstützt die Interpretation der Hauptkomponenten. Durch die Angabe von Großbuchstaben können einzelne Hauptkomponenten für die Darstellung ausgesucht werden. Die Messwerte können dabei nach bestimmten Kriterien sortiert werden. Folgendes Bild zeigt zum Beispiel die ersten beiden Hauptkomponenten (A und B) von verschiedenen Messwerten der Videometrie. Die grünen Balken zeigen die Gewichte der Hauptkomponente A und die roten jene der Hauptkomponente B (die Legende fehlt im Bildausschnitt).

Man erkennt, dass die Hauptkomponente A (grün) offenbar die geschwindigkeitsabhängigen Teile repräsendiert, während die Hauptkomponente B (rot) Symmetrieabweichungen beschreibt.

MAL-Homepage Inhaltsverzeichnis


11. VERGLEICHE

11.1. Vergleich von Gruppen

Diese Analyse zeigt ein Balkendiagramm für einen Messwert bei verschiedenen Probandengruppen an. Sie wird mit Insert / Vergleich / Gruppen eingerichtet.

Die Auswahl der Probandengruppen erfolgt bei Konfiguration unter Gruppen. Dabei wird eine Tabelle mit allen in der
Gruppentabelle definierten Gruppen angezeigt.

Die gewünschten Gruppen können mit einem Doppelklick ausgewählt werden. Mit Clear kann die Auswahl rückgesetzt werden und mit Info kann angezeigt werden, welche Gruppen aktuell ausgewählt sind. Werden nur zwei Gruppen gewählt, so erscheint im Ergebnis der Signifikanzwert des Unterschiedes (Student T-Test).

Wählt man Konfiguration / Parameter so erscheint eine Eingabemaske. Mit dem Parameter Streuung_anzeigen kann eingestellt werden, ob die Streuungen der Stichproben mit eingeblendet werden sollen (0=keine Anzeige, 1=mit Anzeige).

MAL-Homepage Inhaltsverzeichnis


11.2. Vergleich per gestufter Variable

Es wird ein Skalarwert bei verschiedenen Probandengruppen verglichen, wobei die Einteilung in Gruppen über eine gestufte Variable erfolgt. Der Parameter pro_Proband bestimmt sowohl für den Messwert als auch die Stufung, wie bei Vorhandensein mehrerer Messungen bei einem Probanden vorgegangen wird. Wird dabei "Mittelwert", "Veränderung", "Steigerung" oder "Reduktion" ausgewählt, dann werden nur Probanden ausgewertet, bei denen alle Messungen in die gleiche Stufe fallen.

Beispiel der Konfiguration eines Stufenvergleichs:

Die Parameter haben folgende Bedeutung:

MAL-Homepage Inhaltsverzeichnis


11.3. Vergleich von Kategorien

Diese Analyse stellt ein Balkendiagramm für einen Messwert aufgeschlüsselt nach einem, in Kategorien eingeteilten, zweiten Messwert dar. Sie wird mit Insert / Vergleich / Kategorien eingerichtet.

Folgende Parameter sind einstellbar:

Der Text im Feld Titel wird in die Kopfzeile der Graphik eingeblendet. Das Feld Wert dient zur Auswahl des Messwertes aus der Wertetabelle und pro_Proband bestimmt, wie die Ergebnisse der einzelnen Messungen pro Proband verknüpft werden sollen.

Der Parameter Ordinate wird für die Beschriftung der Ordinate verwendet, Gruppe wählt die Probandengruppe und kategorisieren_nach die Kategorisierung aus. Der Parameter Kategorie_pro_Proband bestimmt, wie die Zuordnung eines Probanden erfolgen soll, wenn mehrere Einzelmessungen mit unterschiedlicher Kategorie vorliegen. Mögliche Einstellungen:

Die Funktion des Kategorievergleichs wird teilweise auch von der Analyse "Varianzanalyse" abgedeckt. Während bei der Varianzanalyse beim Vergleich mehrerer Kategorien aber immer nur entweder der erste oder der letzte Messwert eines Probanden herangezogen werden kann, kann hier wahlweise der Mittelwert oder die Veränderung während des Rehabaufenthalts verwendet werden Diese Auswahl erfolgt über den Parameter pro_Proband und und ist im Kapitel
Histogramme beschrieben.

MAL-Homepage Inhaltsverzeichnis


11.4. Varianzanalysen (ANOVA)

Mit insert/Vergleich/Varianzanalyse wird eine Varianzanalyse in die Berechnungstabelle eingetragen. Sie muss in der Folge markiert und mit dem Menüpunkt Kofigurieren entsprechend konfiguriert werden.

Es besteht die Möglichkeit Einweg- und Mehrweg-Varianzanalysen durchzuführen. Wird nur ein Merkmal angegeben, so wird automatisch eine Einweg-Varianzanalyse ausgeführt.

Mehrweg-Analysen haben den Nachteil, das die Stichprobengröße für jede Merkmalskombination gleich sein muss. Das Programm bestimmt daher zunächst die kleinste auftretende Stichprobe und läßt gegebenenfalls bei den anderen Merkmalskombinationen Werte weg. Damit aber nicht einzelne Merkmalsausprägungen die ganze Analyse zerstören (weil sie eine leere oder sehr kleine Stichprobe haben) besteht die Möglichkeit diese durch Eintragen in die Ausschlussliste (siehe unten) aus der Berechnung wegzulassen. Setzt man die Parameter 'Gruppieren' und 'Zwischenergebnis_anzeigen' in der Parametermaske auf eins, so erhält man einen Überblick über die zur Analyse verwendeten Messwerte. Die letztlich für die Analyse verwendete Stichprobengröße erscheint in der ANOVA-Tabelle rechts unten (n=...).

Beispiel:

+-----------------------------------------------------------------+
I Source      I SS      I df  I MS      I F         I p           I
+-----------------------------------------------------------------+
I Rehab       I 4316.43 I 1   I 4316.43 I 36.9281   I 2.01264e-09 I
I Bearbeiter  I 4450.33 I 6   I 741.722 I 6.34562   I 1.6244e-06  I
I Rehab/Bearb I 1782.08 I 6   I 297.014 I 2.54103   I 0.0193028   I
I Seite       I 21.3021 I 1   I 21.3021 I 0.182244  I 0.669583    I
I Rehab/Seite I 22.7429 I 1   I 22.7429 I 0.194571  I 0.659275    I
I Bearb/Seite I 70.8065 I 6   I 11.8011 I 0.100961  I 0.996279    I
I Reh/Bea/Sei I 15.7305 I 6   I 2.62175 I 0.0224298 I 0.999951    I
I Error       I 81821.1 I 700 I 116.887 I           I             I
I Total       I 92500.5 I 727 I         I           I n=26        I
+-----------------------------------------------------------------+


Mit Konfigurieren/Parameter wird folgende Eingabemaske geöffnet:

In das Feld Merkmalsnamen werden die Bezeichnungen für die Merkmale, jeweils durch Blank getrennt eingetragen (die Namen selbst dürfen daher keine Blanks enthalten). Die Anzahl der eingetragenen Merkmalsnamen muss mit der in der Wertetabelle angegebenen tatsächlich berechneten Anzahl von Merkmalen übereinstimmen (siehe unten).

Der Parameter Gruppe gibt an, aus welcher Probandengruppe die Messwerte genommen werden.

Die Parameter Gruppieren, Zwischenergebnisse_anzeigen und Exportfile dienen nur für die Ausgabe von Zwischenergebnissen und beeinflussen das Ergebnis der ANOVA nicht. Wenn der Parameter Zwischenergebnisse_anzeigen gesetzt ist, so wird im Zuge der Berechnung ein Editorfenster mit den gefundenen Messdaten geöffnet. Ist zusätzlich noch bei Gruppieren eine 1 gesetzt, so öffnet sich etwas später noch ein zweites Editorfenster, in dem die Daten so aufbereitet und gruppiert sind, wie sie letztlich der Varianzanalyse übergeben werden. Das Gruppieren erfordert allerdings etwas zusätzliche Laufzeit. Der Parameter Exportfile zeigt nur Wirkung, wenn auch Gruppieren gesetzt ist. Wenn hier kein Leerstring angegeben ist, so werden die aufbereiteten Daten in die entsprechnde Textdatei geschrieben (mit Tabs getrennt) und können in der Folge mit anderen Programmen weiter verarbeitet werden. Mit Konfigurieren/Werteliste wird die Liste der für die Berechnung verwendeten Messwerte geöffnet.

Im Prinzip wird zwar bei einer ANOVA nur immer ein Messwert bei verschiedenen Rahmenbedingungen getestet, aber eben diese Rahmenbedingungen (=Merkmalsausprägungen) bedingen, dass man unter Umständen verschiedene Werte aus der Wertetabelle des Datensammelsystems benötigt.

Beispiel: Schrittlänge links im Vergleich zu Schrittlänge rechts. Der Messwert ist die Schrittlänge und das Merkmal ist die Seite. Im Datensammelsystem sind aber 'Schrittlänge links' und 'Schrittlänge rechts' unterschiedliche Messwerte. Daher sind in der Werteliste zwei Einträge erforderlich, wobei der Eintrag mit dem Messwert 'Schrittlänge links' das Merkmal "links" als Textkonstante eingetragen hat. Analoges gilt für den Messwert 'Schrittlänge rechts'.


(Eine Beschreibung dieser Tabelle findet man auch bei den
Datenexporten.)



Ähnlich ist es mit dem Merkmal 'vor/nach Rehabilitation'. Dieses Merkmal ist durch die Parameter von_Tag und bis_Tag definiert und stellt somit für jeden Eintrag in der Werteliste eine Konstante dar. Als Konstanten können entweder Strings (unter Doppelapostroph) oder Zahlen verwendet werden.

Mit den Menüpunkten Insert oder Modify in der Werteliste wird folgende Eingabemaske geöffnet:

Im Feld Messwert muss der Name eines Messwerts aus der Messwerttabelle eingegeben werden. von_Tag und bis_Tag bestimmen das Zeitfenster in dem die Messwerte verwendet werden sollen. Der Tag Null ist immer jener, an dem der erste valide Messwert der Tabelle zum ersten mal erfasst wurde. Der Parameter pro Proband bestimmt, wie aus allen Messwerten die pro Proband innerhalb des Zeitfensters gefunden wurde ein einzelner Skalarwert bestimmt werde soll. In den meisten Fällen machen nur die Varianten 'Erster' oder 'Letzter' Sinn, da diese Auswahl in gleicher Weise für den Messwert und die Merkmale vorgenommen werden muss und z.B. für ein Merkmal 'Bearbeiter' kein Mittelwert gebildet werden kann.

Das Feld Merkmale ist eine Liste von durch Blank getrennten Konstanten (Zahlenwerte oder Strings) und/oder dynamisch berechneten Merkmalen. Dynamisch berechnete Merkmale Namen von Einträgen der Tabelle 'Wertedefinitionen". Man muss aber beachten, dass die Namen in den Tabellen keine Blanks enthalten dürfen (Blank ist das Trennzeichen in diesem Eingabefeld).

Die Ausschlußliste ist wie oben erwähnt erforderlich, um Merkmalskombinationen mit kleinen Stichproben aus der Berechnung auszuschließen. Mit dem Menüpunkt Ausschlussliste wird ein Editorfenster geöffnet.

Jede Zeile enthält die Auschlüsse für ein Merkmal. Im obigen Beispiel enthält also die erste Zeile die Ausschlüsse für 'Rehab', die zweite für 'Bearbeiter' und die dritte für 'Seite'. Wenn alle Werte eines Merkmals zugelassen werden sollen, so ist eine Leerzeile anzugeben.

Nach dem Start der fertig konfigurierten Varianzanalyse erscheint ein Menü mit den Punkten ANOVA , 2d-Balkendiagramm und 3d-Balkendiagramm. Der erste Punkt öffnet ein Editorfenster mit der ANOVA-Tabelle und die anderen eine Eingabemaske zur Bestimmung, nach welchen Merkmalen das oder die Balkendiagramm(e) berechnet werden sollen (bei Einweganalysen entfällt diese Maske). Man kann ein oder zwei Hauptmerkmale angeben. Bei nicht angegebenen Merkmalen wird der Mittelwert über alle Ausprägungen berechnet.

Wenn bei obigen Beispiel 3d-Balkendiagramm ausgewählt und 'Rehab' als erstes und 'Seite' als zweites Merkmal angebeben wird, so erscheint folgende Graphik:

Der Balken 'links','vor' zeigt den Mittelwert der Schrittlänge links vor Rehabiltiation über alle möglichen Bearbeiter. In der Klammer unter dem Balken steht die Stichprobengröße und der schraffierte Kasten zeigt den Streubereich.

MAL-Homepage Inhaltsverzeichnis


11.5. XY-Plots

Für Betrachtungen im zweidimensionalen Merkmalsraum kann die Analyseart XY-Plot hilfreich sein. Sie kann mit Insert / Vergleiche / XY-Plot eingerichtet werden. Mit einem Einfachklick wird die neu eingerichtete Analyse markiert und mit dem Menüpunkt Konfigurieren erscheint ein Menü mit den Punkten

Der Menüpunkt Parameter öffnet folgende Eingabemaske:

Die Texte der Felder Titel, Beschriftung_X-Achse und Beschriftung_Y-Achse werden direkt in die Graphik eingeblendet.

Mit dem Parameter Legende kann eingestell werden, an welchem Platz die Legende eingeblendet werden soll. Wird im Feld Zwischenergebnis_anzeigen der Wert 1 eingetragen, so werden im Zuge der Datenaufbereitung die Listen der Probanden und der entsprechenden Messwerte in einem Editor-Fenster angezeigt.

Unter Stichprobendarstellung können die Varianten "Einzelwerte", "Mittelwerte", "Mittelwerte+Pfeile" und "Ellipsen" ausgewählt werden. Im ersten Fall wird eine Marke pro Proband angezeigt und im zweiten eine Marke an der Stelle des jeweiligen Stichproben-Mittelwertes. Die Variante "Mittelwert+Pfeile" zeichnet jeweils einen Verbindungspfeil vom ersten zum zweiten und vom dritten zum vierten Mittelwert usw.. Die Variante "Ellipse" zeichnet für jede Stichprobe eine Ellipse, deren Hauptachse nach der ersten Hauptkomponente (Hauptträgheitsachse) ausgerichtet ist. Die Größe der Ellipse ist so gewählt, dass bei normalverteilten Stichproben etwa 65-70% aller Werte innerhalb liegen. Die Länge der Hauptachse entspricht 6 mal der Quadratwurzel des ersten Eigenwertes und die Länge der Nebenachse 6 mal der Quadratwurzel des zweiten Eigenwertes.

Beispiel der Stichprobendarstellungsart "Ellipse":
(Ein Beispiel für die Darstellung der gleichen Daten im Format "Einzelwerte" ist im Kapitel
Cluster-Analyse zu finden.)

Der Menüpunkt Werteliste öffnet eine Tabelle, in die mit Insert neue Stichproben eingetragen werden können (siehe auch Kapitel Wertelisten). Die Eingabemaske für die Definition einer neuen Stichprobe sieht wie folgt aus:

Unter Messwert ist der Name des Messwerts einzutragen, der auf der X-Achse aufgetragen werden soll und unter Messwert2 wird der Messwert für die Y-Achse eingetragen. Die Felder von_Tag und bis_Tag dienen zur Festlegung eines Zeitfensters relativ zur ersten erfassten Messung. Mit Gruppe wird die Probandengruppe definiert und Buchstabe bestimmt welches Zeichen für die Darstellung der entsprechenden Stichprobe verwendet werden soll.

MAL-Homepage Inhaltsverzeichnis


12. CLUSTER-ANALYSE

Die Cluster-Analyse teilt eine Stichprobe im multidimensionalen Merkmalsraum in eine vorgegeben Anzahl von Gruppen möglichst ähnlicher Probanden. Als Ähnlichkeitsfunktion wird die euklidische Distanz (das Abstandsquadrat) zum Gruppenzentrum (= Mittelwert der Gruppe) verwendet. Nähere Details zum Berechnungsverfahren findet man bei der Beschreibung des Wortes
cluster_analysis.

Das Einrichten einer Cluster-Analyse erfolgt mit Insert / Gruppenanalyse. Mit einem Einfachklick auf die neu eingerichtete Analyse und dem Menüpunkt Konfigurieren erreicht man das Konfigurationsmenü, das aus den Menüpunkten Parameter und Werteliste besteht.

Der Menüpunkt Parameter öffnet folgende Eingabemaske:

Mit dem Parameter Clusteranzahl wird festgelegt, in wie viele Gruppen die Stichprobe geteilt werden soll. In Sonderfällen (vor allem bei kleinen Stichproben) kann es vorkommen, dass manche Gruppen leer bleiben.

Der Menüpunkt Werteliste öffnet eine Tabelle, mit der die Zusammenstellung der Stichprobe definiert werden kann. Die Bedienung der Werteliste ist im Kapitel Wertelisten beschrieben. Als Besonderheit taucht der Parameter Gewichtung auf. Er bestimmt, wie stark jeder einzelne Messwert bei der Analyse ins Gewicht fallen soll. Die Berechnung ist wie folgt:

Zunächst wird jeder Messwert durch die Standardabweichung dividiert und dann mit dem Gewichtungsfaktor multipliziert, bevor er der Cluster-Analyse zugeführt wird.

Wird die Analyse mit einem Doppelklick auf den Eintrag in der Berechnungstabelle gestartet, so erscheint nach einiger Zeit (je nach Größe der Datenbank und Anzahl der Messwerte) ein Menü, mit dem bestimmt werden kann, wie die Ergebnisse der Cluster-Analyse weiter verarbeitet werden sollen:

Mit dem ersten Menüpunkt (Anzeigen) wird ein Editorfenster geöffnet, in dem die Aufteilung der Probanden angezeigt wird. Gruppen definieren erstellt für jeden Cluster einen Eintrag in der Gruppen-Tabelle. Man beachte, dass derart erstellte Gruppen beim Aktualisieren mit Administration / Gruppen aktualisieren nur aufgrund der bei der Gruppe gespeicherten Sozialversicherungsnummern aktualisiert werden. Sie können auf diese Weise also niemals wachsen. Um sie wirklich nach dem Update der Datensammlung auf den neuesten Stand zu bringen, müssen die Gruppen gelöscht und mit der Cluster-Analyse neu berechnet werden. Mit dem Menüpunkt Messwert definieren kann ein Eintrag in die Messwerttabelle generiert werden, der als Ergebnis jeweils die Cluster-Nummer (1..n) berechnet. Das ist allerdings nur möglich, wenn alle in der Werteliste angegebenen Messwerte vom gleichen Erfassungssystem (=Datenquelle) stammen.

Für die Betrachtung des Ergebnisses, insbesondere bei zweidimensionalen Merkmalsräumen, kann auch die Analyse XY-Plot verwendet werden. Zu diesem Zweck müssen zunächst mit dem Menüpunkt Gruppen definieren Probandengruppen angelegt werden.

MAL-Homepage Inhaltsverzeichnis


13. KURVEN

Wählt man bei der Defintion eines Eintrags in der
Wertedefinitionstabelle den Menüpunkt Kurven und trägt unter Berechnungsart "Kurve" ein (siehe unten stehendes Beispiel), so wird für jede Messung anstatt eines Skalarwertes eine Kurve berechnet. Mit einem Doppelklick auf den Messwert-Eintrag (entspricht dem Menüpunkt Histogramm) wird die mittlere Kurvenform und der Streuungsbereich angezeigt.

Beispiel für die Definition eines Kurven-Messwertes:



Beispiel für die mit dem Menüpunkt Histogramm angezeigte Kurve:



Die rote Kurve stellt die Mittelwertskurve über alle 2091 Einzelkurven dar, die grün strichlierten Kurven den Streubereich. Rechts oben ist in die Graphik die Anzahl der Messungen (Sample: 2091) sowie die mittlere, maximale und minimale Anzahl der Stützpunkte pro Messung eingeblendet (sind in diesem Fall alle gleich 100, weil die Kurven alle auf 100 Stützpunkte normalisiert sind).

MAL-Homepage Inhaltsverzeichnis


13.1. Gruppenvergleich von Kurven

Eine ausführlichere Darstellung von Kurven kann man erreichen, indem man in die Berechnungstabelle mit Insert / Kurven / Gruppenvergleich eine neu Kurvenanalyse einträgt und diese entsprechend konfiguriert.

Zunächst erscheint beim Konfigurieren folgende Parametermaske:



Im Parameter pro_Proband stehen die Möglichkeiten "Einzelwerte" und "Veränderung" zur Auswahl. "Einzelwerte" bedeutet, dass die Kurven aller Einzelmessungen in die nachfolgende Berechnung weitergeleitet werden, und "Veränderungen" bewirkt, dass statt dessen die Differenz zwischen letzter und erster Messung gebildet wird.

Unter Darstellung stehen die Varianten "Gesamtbild" (alle Kurven in ein Koordinatenkreuz), "Einzelbilder" (jede Kurve in ein eigenes Koordinatenkreuz) und "paarweise" (jeweils zwei aufeinanderfolgende Kurven in ein gemeinsames Koordinatnsystem) sowie "ASCII-Export" zur Verfügung. Die Auswahl von "ASCII-Export" bewirkt, dass die Kurvendaten auf die im Parameter ASCII-Export-File angegebene Datei exportiert werden.

Wird beim Parameter x/y-Plot "1" angegeben, so werden jeweils zwei Werte aus der Wertetabelle (
siehe unten) zu einem x/y-Plot herangezogen. Bei Angabe von "0" werden die Werte einzeln über die Zeit dargestellt (die Zeitangabe erfolgt in Samples).

Mit den Parameter x_Normierung und y_Normierung werden verschiedene Varianten der Messwertnormierung (jeweils vor der Mittelwertbildung) angeboten:

In das Feld Streuung_anzeigen kann 0 oder 1 eingetragen werden. 1 bewirkt, dass nebst der Mittelwertkurve zwei weitere, strichlierte Kurven (Mittelwert+Streuung und Mittelwert-Streuung) dargestellt werden. Im Fall von x/y-Plots ist die Anzeige der Streuung nicht sinnvoll.

Nach dem Abschließen der Parametermaske erschein die Wertetabelle:

In diese können mit Insert neue Kurvenwerte, ihre Beschränkung auf eine Probandegruppe und die Farbe für die Darstellung eingegeben werden (eine Beschreibung befindet sich im Kapitel Wertelisten). Bei x/y-Plots werden jeweils zwei aufeinanderfolgende Einträge für die Berechnung einer Kurve benötigt. Es muss also dann eine gerade Anzahl von Einträgen bestehen. Die Farbe der dargestellten Kurve wird bei x/y-Plots jeweils vom ersten der beide Einträge bestimmt.

MAL-Homepage Inhaltsverzeichnis


13.2. Zeitvergleich von Kurven

Ähnlich wie beim Gruppenvergleich von Kurven erscheint auch hier beim Konfigurieren zunächst eine Parametermaske:

Die Bedeutung der Parameter ist weitgehend gleich wie beim
Gruppenvergleich.

Die Wertetabelle beim Zeitvergleich von Kurven sieht etwa so wie bei der Varianzanalyse aus und ist im Kapitel Wertelisten genauer beschrieben:

MAL-Homepage Inhaltsverzeichnis


14. TRENDS

14.1. Trends von Einzelwerten

Trendanalysen von Einzelwerten werden mit Insert / Trend / Einzelwerte eingerichtet. Sie zeigen den zeitlichen Verlauf eines Skalarwertes für verschiedene Probanden auf. Die Zeitrechnung erfolgt in Tagen bezogen auf die erste erfasste Messung (=Tag Null). Wird im Parameter Regressionsgrad ein Wert größer Null eingetragen, so wird eine Regressionsgerade (oder Polynom bei Graden größer 1) eingezeichnet.

Die Werte der Trendkurven können wahlweise auf den Startwert, den Mittelwert oder nicht normiert werden (Parameter normieren_auf). Normieren auf den Startwert bedeutet z.B. dass alle Werte eines Probanden durch den Wert bei der ersten Messung dividiert werden.

Der Parameter einzeln_anzeigen dient nur für Kontrollzwecke bzw. zur Fehlersuche. Ist er ungleich Null, so wird für jeden Probanden ein eigenes Bild ausgegeben. Mit der Escape-Taste kann dann jeweils das aktuelle Bild geschlossen und zum nächsten geprungen werden. Ein Abbruch dieser Folge ist nicht vorgesehen.

MAL-Homepage Inhaltsverzeichnis


14.2. Trend-Tabellen

Analysen, die mit Insert / Trend / Tabelle eingerichtet werden erlauben verschiedenste Darstellungen des Rehabilitationserfolges bei mehreren Messwerten. Verglichen wird jeweils der erste und letzte erfasste Messwert jedes Probanden. Man muss dabei beachten, dass bei manchen Messwerten ein kleinerer Wert als besser angesehen werden muss (z.B. Schrittlängendifferenz). Für diesen Falls sollte in der Messwerttabelle beim Parameter Grad -1 eingetragen werden, dann wird der entsprechende Wert vor der Analyse mit -1 multipliziert.

Unter dem Menüpunkt Konfiguration / Parameter erscheint folgende Eingabemaske:

Der Parameter Auswergungsart hat folgende Möglichkeiten:

Tabelle

----------------------------------------------------------------------------------------------------------------------------------
                                        N     MW vor     MW nach    Differenz   Sign. [%]   Median vor   Median nach   Differenz  
----------------------------------------------------------------------------------------------------------------------------------
  LB Stabilität                         16    1.52275    1.71002    0.187272    82.9557     1.29488      1.54945       0.254568   
  VI Geschwin                           302   0.744431   0.852885   0.108454    99.7974     0.734094     0.861189      0.127095   
  BX Relativm links ke/kf_Fl Mittelwe   12    0.474876   0.601589   0.126713    91.6602     0.461095     0.613398      0.152303   
----------------------------------------------------------------------------------------------------------------------------------
Dieses Beispiel zeigt für zwei Messwerte die Stichprobengröße (N), den Mittelwert vor und nach Rehabilitation (MW vor/MW nach), die Differenz des Mittelwerts, die Signifikanz der Änderung (T-Test), den Medianwert vor und nach Rehabilitation und deren Differenz.

Kurven
Das folgende Bild zeigt beispielhaft die Ergebnisse bei der Auswertungsart "Kurven":

Die Kurve mit den Marken "V" verbindet die ersten erfassten Werte (vor Rehabilitation) und die Kurve "N" die letzen erfassten Werte (nach Rehabilitation).

sortiere Wolken
Die Wert nach Rehabilitation werden jeweils als Marken eingetragen, wobei sie von links nach rechts abhängig von den Werten vor der Rehabilitation sortiert sind.

Die Kurve zeigt den jeweiligen Wert vor der Rehabilitation an. Anhand dieser Darstellung kann man abschätzen, ob der Rehabilitationserfolg vom Ausgangswert abhängt.

sortierte Kurven
Bei dieser Auswertungsart wird auf der Ordinate die Differenz des jeweiligen Messwertes nach und vor Rehabilitation aufgetragen. Die Messwerte sind ebenso wie bei "sortierte Wolke" nach der Größe der Anfangswerte sortiert.

Die eingezeichnete Gerade ist die lineare Regressionsgerade.



MAL-Homepage Inhaltsverzeichnis


14.3. Zeitverläufe von Einzelwerten

Zeitverläufe dienen dazu, das Langzeitverhalten von Messgrößen zu überprüfen, um eventuelle Störeinflüsse oder Fehler im Messverfahren entdecken zu können. Sie können mit Insert / Trends / Zeitverlauf eingerichtet werden. Das folgende Beipiel zeigt Verlauf der Gehgeschwindigkeit beim
Videometrie-Schnelltest über etwa zwei Jahre.

In der ersten Phase wurde das System getestet, daher sind die Geschwindikeiten konstant sehr hoch.

MAL-Homepage Inhaltsverzeichnis


15. MUSTERERKENNUNG

Das Analyseverfahren "Mustererkennung" stellt einen gemeinsamen Bedienrahmen für Algorithmen vom Typ
Neuronale Netze, Random Forest, naive Bayes Klassifikation und multiple Regression dar.

Es wird das sogennannte Supervised Learning verwendet. Das bedeutet, dass der Mustererkennung zunächst eine Menge von Beispieldatensätzen (das Trainingset) bestehend aus Inputdaten und Sollvorgaben (Targets) präsentiert wird. Die Mustererkennung versucht dabei einen Zusammenhang zwischen Inputdaten und Sollvorgaben zu extrahieren. Dieser Vorgang wird Training genannt. In einem nachfolgenden Test wird anhand einer von den Beispieldaten disjunkten Menge (genannt Testset) überprüft, wie allgemeingültig der von der Mustererkennung gefundene Zusammenhang ist.

Je nach Beschaffenheit der Sollwerte (Target-Werte) wird zwischen Regression und Klassifizierung unterschieden. Bei Regressionen muss der Sollwert ein Skalar sein (Realzahl), bei Klassifizierungen eine Klassennummer (ganze Zahl 1 .. n) oder ein Klassenname (Textwert). Die Inputdaten müssen in jedem Fall aus einer Menge von Skalarwerten bestehen (Realvektor).

In der Praxis testet man mit einem bestimmten Trainings- und Testdatensatz verschiedene Mustererkennungssysteme (verschiedene Verfahren, verschiedene Parameter etc.) und sucht dann das erfolgreichste aus. Weil aber die Berechnung der Daten meist sehr zeitaufwändig ist, ist das Progamm so gestaltet, dass die Trainings- und Testdaten nur nach Änderung der Konfiguration neu berechnet und dann beim Analyseintrag in der Tabelle der Berechnungen gespeichert werden.

Sind die Trainings- und Testdaten einmal berechnet, kann man in die Liste der Algorithmen verschiedene Testverfahren eintragen, konfigurieren und testen. Man beachte, dass Neuronale Netze und der Random Forest mit zufälliger Initialisierung arbeit. Das heisst, dass auch zwei gleich konfigurierte Algorithmen unterschiedliche Lernerfolge haben können. Daher richtet man meisst mehrere gleichartige Lernverfahren ein, trainiert sie alle und sucht dann das erfolgreichste aus.

MAL-Homepage Inhaltsverzeichnis


15.1. Trainings- und Testset vorbereiten

Trainings- und Testsets werden durch Einträge in die Gruppentabelle des Datensammelsystems definiert (Datensammlung / Gruppen). Normalerweise nimmt man eine Grundmenge und teilt diese zufällig in die Trainings- und die Testmenge. Man nimmt also zum Beispiel 75% der Grundmenge in das Trainingsset und den Rest in die Testmenge. Um die Zuverlässigkeit des Tests zu garantieren, sollten keine Probanden in beiden Gruppen vorkommen. Daher muss folgendermaßen vorgegangen werden:

  1. Aus dem Hauptmenü der Datensammlung wird mit dem Menüpunkt Gruppen in die Gruppentabelle gewechselt und falls nicht vorhanden eine Gruppe mit der Grundmenge eingerichtet (Menüpunkt Insert).
  2. Danach richtet man das Trainingsset mit Insert / Kombination ein und konfiguriert dieses z.B. mit folgendem Berechnungscode:
    grundmenge 75 %
    
  3. Das Testset muss dann entsprechend folgendermaßen definiert werden:
    grundmenge trainingsset -
    
Man darf natürlich das Testset nicht mit 'grundmenge 25 %' definieren, weil durch die zufällige Auswahl der 25-Prozent sonst manche Probanden sowohl im Trainings- als auch im Testset aufscheinen.

MAL-Homepage Inhaltsverzeichnis


15.2. Einrichten und Konfigurieren

Einrichten:
Wenn man vom Hauptmenü der Datensammlung aus die Tabelle der Berechnungen geöffnet hat, kann man mit dem Menüpunkt Insert eine neue Berechnung einfügen. Nachdem man die Parameter Bezeichnung und Kommentar in die Maske eingegeben hat, erscheint ein Menü, aus dem man den Menpunkt Mustererkennung wählt. Danach muss man entscheiden, ob man ein Regressions- oder Klassifizierungsproblem bearbeiten möchte (
siehe oben).

Konfigurieren:
Mit einem Einfachklick auf die neue Berechnung und dem Menüpunkt Konfigurieren wird folgendes Menü geöffnet.

Mit dem Menüpunkt Parameter muss zunächst das Trainings- und Testset eingestellt werden. Bei Werteliste öffnet sich eine Tabelle, in die die Inputwerte und der Target-Wert eingetragen werden kann. Die Bedienung ist im Kapitel Wertelisten beschrieben.

Der jeweils letzte Eintrag in der Tabelle ist der Target-Wert (Sollwert). Im Falle einer Klassifizierung muss dazu folgendes beachtet werden:
Für den Parameter pro_Proband darf in der Regel nicht "Mittelwert" eingestellt werden, weil sonst unter Umständen nicht ganzzahlige Klassennummern entstehen. Die Einstellungen "Maximum", "Minimum", "erster", "letzter" haben dieses Problem nicht. Man kann auch einen Textwert verwenden, dann darf aber nur "erster" oder "letzter" eingestellt werden.

Der Menüpunkt Daten neu berechnen ist nur in Sonderfällen erforderlich (zum Beispiel, wenn das Test- oder Trainingsset neu eingestellt wurde, oder wenn die Daten in der Datenbank aktualisiert wurden). Nach Änderungen in der Werteliste wird automatisch gefragt, ob man die Daten neu berechnen will.

Der Menüpunkt Algorithmen öffnet eine Tabelle, in die man die gewünschten Mustererkennungen eintragen kann. Sie sieht etwa wie folgt aus:

In diese Tabelle kann man mit Insert ein neuronales Netz, einen Random Forest oder eine multiple Regression eintragen. Mit Konfiguration kann man die Parameter einstellen und mit Reset das jeweilige System initialisieren. Danach kann mit dem Menüpunkt Training trainiert und mit Show Results oder einem Doppelklick auf die entsprechende Tabellenzeile das Trainingsergebnis betrachtet werden. Die Kommentarspalte zeigt den Zustand bzw. den Lernerfolg (im Testset) der jeweiligen Mustererkennung an. Unter dem Menüpunkt Alle findet man die Möglichkeit, alle Einträge auf einmal zu Initialisieren oder zu Trainieren.

MAL-Homepage Inhaltsverzeichnis


15.3. Analyse der Mustererkennungen

Mit einem Doppelklick auf einen Mustererkennungs-Eintrag in der Tabelle der Berechnungen bzw. mit dem Menüpunkt Start wird die Analyse gestartet. Abhängig davon, ob es sich um eine Regressionsanalyse oder eine Klassifizierung handelt, erscheinen in der Folge unterschiedliche Auswahlsmenüs.

Bei Regressionsanalysen erscheint ein Menü mit den Punkten



Das Untermenü bei Klassifizierungen besteht derzeit nur aus einem Menüpunkt (nämlich Balkendiagramm), der ein zweireihiges Balkendiagram mit den Trefferquoten beim Training und beim Test darstellt.

MAL-Homepage Inhaltsverzeichnis


15.4. Neuronale Netze

Neuronale Netze können sowohl für Regressions- als auch Klassfizierungsaufgaben herangezogen werden. Es werden vollkonnektierte, analoge Feed Forward Netze mit sigmoider Charakteristik verwendet. Als Lernverfahren wird die sog. Backpropagation (supervised learning) verwendet. Nähere Details findet man im Kapitel
Neuronale Netze.

Wird in der Tabelle der Algorithmen bei einem neuronalen Netz der Menüpunkt Konfiguration ausgewählt, so erscheint folgende Maske:

Mit der obersten Zeile wird die Anzahl der Neuronen in jedem Layer eingestellt (siehe auch Neuronale Nezte). In diesem Beispiel hat das Netz also 4 Eingangsynapsen, 3 Neuronen im Hidden-Layer und einen Ausgang. Man beachte, dass die Anzahl der Eingangssynapsen stets der Anzahl der Einträge in der Wertetabelle minus eins entsprechen muss. Die Anzahl der Ausgänge muss bei Regressionsaufgaben immer eins und bei Klassifizierungsaufgaben immer gleich der Klassenanzahl sein.

Der Initialisierungsfaktor bestimmt in welchem Wertebereich die zufällige Initialisierung der Synapsen erfolgt. Der Parameter Interations_per_Training gibt die Anzahl der iterativen Lernschritte beim Training an. In der Regel gilt, je höher diese Zahl gewählt wird, desto besser ist der Lernerfolg. Allerdings steigt damit auch die Laufzeit beim Training. Außerdem kommt es gelegentlich vor, dass übertrainierte Netze schlechtere Erfolge beim Test habe als weniger trainierte. Man kann ein bereits trainiertes Netz auch weiter trainieren, indem man nochmals den Menüpunkt Training aufruf. Erst mit einem expliziten Aufruf von Reset wird das Netz neu initialisiert.

Als Besonderheit wird in der Datensammlung bei der Anwendung für Klassifizierung eine Nachiteration verwendet, die nach dem Training die Klassengrößen so optimiert, dass sie etwa den tatsächlichen Klassengrößen entsprechen. Diese Optimierung wird anhand der Trainingsdaten durchgeführt.

MAL-Homepage Inhaltsverzeichnis


15.5. Random Forest

Der Random-Forest Algorithmus zählt ähnlich wie die
neuronalen Netze zu den Data-Mining-Algorithmen, also jenen Algorithmen die zur Erkennung von Gesetzmäßigkeiten in multidimensionalen Merkmalsräumen bei großen Stichproben dienen. In der hier vorliegende Form wird der Algorithmus für die Klassifizierung n-dimensionaler Merkmalsvektoren mit Supervised Learning, also Lernen anhand von Beispielen bei denen die richtige Klasse vorgegeben ist, verwendet.

Der Algorithmus stammt von Leo Breiman und Adele Cutler (Copyright). Das Fortran-Original ist hier zu finden.

Wird in der Tabelle der Algorithmen bei einem Random Forest der Menüpunkt Konfiguration ausgewählt, so erscheint folgende Maske:

Betreffend der Parameter sieht man sich am besten die Dokumentation von Leo Breiman an. Im Prinzip müssen die Werte mit Versuch und Irrtum so lange korrigiert werden, bis der beste Lernerfolg erreicht ist. Die Einstellung der Klassengewichtung kann man anhand der Treffermatrix kontrollieren.

Random Forests werden bei jedem Training neu initialisiert, ein Reset ist also nicht erforderlich.

MAL-Homepage Inhaltsverzeichnis


15.6. Naive Bayes Klassifikation

Für das Klassifizierungsproblem können auch sogenannte Bayesian Classifiers verwendet werden. Sie berechnen die Wahrscheinlichkeit, mit der ein Datensatz zu einer bestimmten Klasse gehört und ordnen ihn dann jener Klasse mit der höchsten Wahrscheinlichkeit zu.

Beim hier verwendeten Verfahren werden zwei Annahmen getroffen:

  1. Die einzelnen Attribute sind unkorreliert. Daher die Bezeichnung 'naiv'
  2. Die Attribute sind normalverteilt
Die erste Annahme kann man nötigenfalls durch eine Hauptkomponentenanalyse vorweg erreichen. Man muss dazu in der Konfigurationsmaske den Wert Hauptkomponentenanylse_vorweg auf 1 setzen. In vielen Fällen ist das aber nicht erforderlich, um gute Resultate zu erzielen.

Für ein einziges Attribut lässt sich das Verfahren leicht auf folgende Weise beschreiben:

In der Trainingsphase wird von dem Attribut für jede Klasse der Mittelwert, die Streuung und die Anzahl der Klassenmitglieder bestimmt. Damit lässt sich in der Testphase mit Hilfe der Gauss'schen Glockenkurven die Wahrscheinlichkeit, mit der ein gegebener Wert zu einer bestimmten Klasse gehört berechnen.

Bei mehreren Attributen werden die Wahrscheinlichkeiten der einzelnen Attribute einfach miteinander multipliziert. Unter der Annahme 1 erhält man dann einen Wert, der der Wahrscheinlichkeit der Klassenzugehörigkeit proporitional ist.

Über den Parameter Nachiterationen kann eine iterative Optimierung eingestellt werden, sodass die geschätzen Klassengrößen im Trainingsset möglichst mit den tatsächlichen übereinstimmen. Die Angabe von Null unterdrückt diese Optimierung, die in der Regel eher zeitintensiv ist.

Der Parameter Mindestwahrscheinlichkeit ist ein Schwellwert, unter dem keine Klassenzuordnung getroffen wird. Samples, die keiner Klasse mit einer höheren Wahrscheinlichkeit als hier angegeben zugehören, werden in eine namenlose Klasse gegeben.

Siehe auch:
http://www-gs.informatik.tu-cottbus.de/gdm_v06.pdf bzw. Wort bayes_class

MAL-Homepage Inhaltsverzeichnis


15.7. Mustererkennung mit multipler Regression

Es wird ein lineares Regressionsmodell mit mehreren unabhängigen Variablen verwendet. Ähnlich wie bei der bekannten linearen Regression nach dem Modell y=k*x+d wird eine Optimierung nach der Kleinstquadrat-Methode durchgeführt. Eine genauere Beschreibung des mathematischen Verfahrens findet man bei der Dokumentation des Wortes
multi_regress.

Im Gegensatz zu den meisten anderen Mustererkennungsverfahren benötigt die multiple Regression keine Parameterisierung und wird auch nicht zufällig initialisiert (es ist überhaupt keine Initialisierung erforderlich). Sie liefert also bei einem bestimmten Trainingsdatensatz exakt ein Ergebnis.

MAL-Homepage Inhaltsverzeichnis


15.8. Die Treffermatrix

Bei Klassifizierungsaufgaben wird der Trainingserfolg mit der Trefferrate (prozentueller Anteil der richtig zugeordneten Probanden) und detailierter mit der Treffermatrix beschrieben. Die Treffermatrix enthält in jeder Spalte die Anzahl der tatsächlich vorkommenden Probanden einer Klasse (in der letzten Zeile ist die Summe der jeweiligen Spalte). Jede Zeile enthält die Zahl der von der Mustererkennung zugeordneten Probanden (in der rechtesten Spalte ist die Summe der jeweiligen Zeile). In der Hauptdiagonale finden sich also die Anzahlen der richig zugeordneten Probanden.

+-----------------> echte Klasse
|
|     84    35      119  L.Insult
|     29    66       95  R.Insult
|
|    113   101      214
V                        70.1% Treffer
  berechnete Klasse
Im vorliegenden Beispiel gibt es also 113 Patienten mit linkshirnigem Insult und 101 mit rechtshirnigem. Die Mustererkennung teilt aber 119 Probanden der Gruppe "L.Insult" und 95 der Gruppe "R.Insult" zu. Die Klasse "L.Insult" sollte also etwas weniger Gewicht erhalten. Von den 113 linkshirnigen Insulten erkennt die Mustererkennung 84 richtig und 29 werden versehentlich der Gruppe "R.Insult" zugeordnet.

MAL-Homepage Inhaltsverzeichnis


16. AUSLASTUNGSKURVEN

Auslastungskurven zeigen die Anzahl von Messungen pro Woche, die mit einer bestimmten Messquelle durchgeführt wurden. Die Analyse wird mit Insert / Auslastung eingerichtet. Beim Konfigurieren erscheint folgende Maske:

Zuerst ist der Name des Meßdaten-Erfassungssystems und der darzustellende Zeitbereich einzutragen. Der Parameter Glättung ist eine Glättungskonstante für eine Moving-Average-Glättung (0 .. keine Glättung). Will man die Graphik mit Excel darstellen, so kann in das Feld Excel_Path der Pfad von Ecxel.exe angegeben werden (enthält dieser Blanks, so muss der Pfadname unter Doppelapostroph gestellt werden).

Die Ausgabe mit MAL sieht etwa folgendermaßen aus:



MAL-Homepage Inhaltsverzeichnis


17. EXPORTE

17.1. Export von Einzelwerten

Die einfachste Methode Einzelwerte auf Textdatei zu schreiben ist, indem man die Tabelle
Wertedefinitionen öffnet, den gewünschten Wert markiert und den Menüpunkt Write to File / Values aufruft. Mit dem Menüpunkt Gruppe kann man den Datenexport auf eine bestimmte Probandengruppe beschränken.

Man kann aber auch einen Eintrag in der Tabelle der Berechnungen erstellen. Mit Exporten vom Typ Einzelwerte kann jeweils ein Skalarwert auf eine Textdatei exportiert werden.

Mit dem Parameter Dateiformat kann zwischen Excel- und Matlab-Format gewählt werden. Bei der Wahl der Dateinamen für die Zieldatei sollte man für Excel immer die Extension '.txt' und für Matlab '.m' wählen.

Hinweis: Damit die Daten von Excel korrekt gelesen werden, muss im Windows-Startmenü unter "Einstellungen / Systemsteuerung / Ländereinstellungen" das Dezimaltrennzeichen auf "." (Punkt) und das Trennzeichen für Zifferngruppen auf "," (Komma) eingestellt werden.

Als Zieldatei für den Matlab-Export kann man z.B. "c:\Matlab6p1\work\daten.m" einstellen. Dann kann man von Matlab aus die Daten durch Eingabe des Kommandos 'daten' einlesen. Dabei werden neue Variable "Vorname", "Familienname" usw. eingerichtet. Mit 'who' erhält man eine Übersicht über die neuen Variablen. Eine dieser Variablen hat den Namen des exportierten Skalarwertes.

MAL-Homepage Inhaltsverzeichnis


17.2. Export von Tabellen

Mit Exporten vom Typ Mehrfachwerte können Messwerttabellen erzeugt werden. Beim Konfigurieren erhält man mit dem Menüpunkt Parameter folgende Eingabemaske:

Wenn der Parameter Zwischenergebnis_anzeigen auf 1 gesetzt wird, so öffnet sich vor dem Export ein Editorfenster mit den berechneten Daten.

Mit dem Menüpunkt Konfigurieren / Werteliste kann eine Liste von Werten definiert werden.

Jede Zeile dieser Werteliste definiert die Parameter für einen zu exportierenden Wert, also entspricht einer Spalte im Ergebnis. Mit Insert kann ein neuer Wert eingefügt werden und mit einem Doppelklick (Modify) können die Parameter verändert werden. Bei jedem Wert kann ein Zeitfenster und eine Auswahl- bzw. Ausgabevariante angegeben werden.

Als Bezugstag (Tag Null) fuer das Zeitfenster gilt immer das Datum, an dem die erste Messung vom ersten validen Messwert erfasst wurde. Von jenen Messwerten die innerhalb der Grenzen des Zeitfensters liegen (von <= Tag <= bis) wird mit dem unter pro_Proband angegebenen Verfahren der Exportwert bestimmt. Zu beachten ist, dass die Daten von Probanden bei denen einer der angegebenen Messwerte fehlt (weil er nicht gemessen wurde oder nicht berechenbar ist) nicht exportiert werden, außer wenn unter wenn_Wert_fehlt eine Ersatzzeichenfolge angegeben wurde.

MAL-Homepage Inhaltsverzeichnis


18. STYLE-SHEETS

Style-Sheets dienen für die optische Gestaltung von Graphiken. Jedes Style-Sheet definiert für die einzelnen Elemente einer Graphik die Schriftart, die Farben, den Hintergrund etc.. Nachdem die verschiedenen Graphiken meist änliche Elemente enthalten, entsteht bei Verwendung eines Style-Sheets für mehrere Graphiken ein einheitlicher Gesamteindruck.

Beispiel einer Graphik ohne Style-Sheet:



Die gleiche Graphik mit dem Style-Sheet "Kommerz":

MAL-Homepage Inhaltsverzeichnis


18.1. Testen von Style-Sheets

Um Style-Sheets entwerfen zu können, ist es hilfreich sie rasch testen zu können. Zu diesem Zweck benötigt man zuerst eine Beispiels-Graphik im Meta-Format.

Man stellt zunächst mit dem Menüpunkt Configuration den Parameter Enable-Printouts auf 1 und wählt dann in der Tabelle Berechnungen die gewünschte Graphik und startet diese. Wenn die Graphik am Bildschirm erschienen ist kann man sie schließen. Es erscheint dann ein Menü mit dem Titel "Graphikausgabe". Dort kann der Menüpunkt Meta-File ausgewählt und der Name für die Meta-Datei angegeben werden.

Mit einem Doppelklick auf einen Eintrag in der Tabelle Style-Sheets wird das Konfigurationsmenue für das entsprechende Style-Sheet geöffnet. Dort findet man den Menüpunkt Testen. Wenn man diesen auswählt und den Namen der oben erstellten Meta-Datei angibt, wird die Graphik mit diesem Style-Sheet aufbereitet und am Schirm angezeigt.

MAL-Homepage Inhaltsverzeichnis


18.2. Entwurf von Style-Sheets

Wenn man vom Hauptmenü der Datensammlung aus den Menüpunkt Style-Sheets gewählt hat, kann mit dem Menüpunkt Insert ein neues Style-Sheet angelegt werden. Mit einem Doppelklick auf den neuen Tabelleneintrag kann es konfiguriert werden.

Jedes Style-Sheet besteht aus einer Beschreibung des
Rahmens für die Gesamtgraphik und aus einer Tabelle in der für die verschiedenen möglichen Graphikelemente Darstellungseingenschaften eingestellt werden können.

Rahmen
Die Beschreibung des Rahmens wird durch folgende Maske vorgenommen:

Der unter Rahmenbeschriftung eingegebene Text wird in den Kopf des Rahmens eingeblendet. Als Rahmenart stehen "3d-Rahmen", "2d-Rahmen" und "Rechteck" sowie ein Leerstring (kein Rahmen) zur Verfügung.

Eine Palette der Farbnamen findet man
hier.

Graphikelemente
Die Attribute für die Graphikelemente sind in einer Tabelle untergebracht. Die Eingabemaske für die Attribute eines Graphikelementes sieht wie folgt aus:

Das Feld Elementname bestimmt, für welche Elemente der Graphik die weiteren Attribute angewendet werden sollen. Dabei können Abkürzungen verwendet werden, um bestimmte Gruppen von Graphikelementen mit einer Maske beschreiben zu können. Wird zum Beispiel der Elementname "Balken" eingetragen, so gelten die Attribute für die Elemente "Balkenbeschriftung", "Balkenreihe1", "Balkenreihe2" u.s.w und "Balken". Soll für ein Element (oder eine Gruppe) dann ein anderer Attributsatz verwendet werden, so muss dieser danach in die Tabelle eingetragen werden.

Soll ein Element überhaupt nicht angezeigt werden, so muss man in das Feld anzeigen 0 eintragen.

Farben können jeweils für alle vier Ecken des Graphikelements angegeben werden. Damit können beliebige Farbverläufe definiert werden. Will man eine einheitliche Farbe, so genügt die Einstellung in einem beliebigen der vier Felder. Will man einen Farbverlauf von oben nach unten, so kann man die Farbangaben entweder in den Feldern ..._links_oben und ..._links_unten oder ..._rechts_oben und ..._rechts_unten machen.

Bei den Parametern Hintergrund_Randbreite, Hintergrund_Randstärke und Hintergrund_Abrundung sind die Angaben jeweils in Promille von der Höhe des Graphikelements zu machen. Das gleiche gilt für den Parameter Schräglage.

Bei den Verschiebungsparametern bezieht sich die Promillangabe aber auf die Größe des Mutterfeldes, in dem das Element eingebettet ist (meist das Plot-Area).

MAL-Homepage Inhaltsverzeichnis


19. PROGAMMSTUKTUR

Sämtliche Worte des Datensammelsystems sind im Public-Pool im NRZ-Folder zu finden und dem Topic
collection zugeordnet.

MAL-Homepage Inhaltsverzeichnis


19.1. Collection-Klassen

Damit die Anzeige von gespeicherten Daten und die Definition der Berechnungen von Skalarwerten einheitlich durchgeführt werden kann, ist für jedes Messdaten-Erfassungssystem eine Klasse für die einzutragenden Daten definiert. Die Namen dieser Klasse enden alle mit '_collection_class' (z.B
laufband_collection_class).

Diese Klassen benötigen abgesehen vom Konstruktor nur zwei Funktionen, nämlich show für die Anzeige der Daten im Textformat und define_calculation für die interaktive Definition von Skalarwertberechnungen. Zweitere muss als Ergebnis eine Doppelpunktdefinition liefern, die folgender Syntax genügen muss:

this -> skalar

'this' .. Instanz der entsprechenden Collection-Class.

'skalar' .. Realzahl für statistische Berechnungen.

MAL-Homepage Inhaltsverzeichnis


19.2. Berechnungs-Klassen

Die Einführung von eigenen Klassen für die einzelnen Berechnungstypen in der Berechnungstabelle hat vor allem den Zweck, die Konfigurationen individuell gestalten zu können.

Daher haben die Berechnungsklassen nebst dem Konstruktor nur die Funktionen configure (interaktive Konfiguration) und start (Start der Berechnung).

Die Superklasse alle Berechnungsklassen ist
calculation_class. Folgende Berechnungsklassen sind derzeit definiert: histo_class, quantile_class, regress_class, comparison_class, trend_class und export_class.

Die Interfaces von Berechnungsklassen müssen im Wort calculation_interfaces angeführt werden. Außerdem muss für neue Berechnungsklassen im Konstruktor der Superklasse calculation_class ein einsprechender Menüpunkt eingetragen werden.

MAL-Homepage Inhaltsverzeichnis


19.3. Eintragen von Messdaten

Zum Eintragen von Datensätzen wird das Wort
collect_data verwendet.

Es kontrolliert, ob der entsprechende Datensatz bereits eingetragen ist. Verwendet wird dazu die Identifikation die der Datensatz bei der Archivierung ins Mess-Archiv erhalten hat.

Neue Einträge werden an der entsprechenden Stelle in den jeweiligen Baum eingetragen. Bei bestehenden Einträgen wird geprüft, ob sich die Version des Messdatensatzes oder die Version des Verarbeitungsalgorithmus geändert hat. Nur in diesem Fall wird der Datensatz neu berechnet und eingetragen.

Diese Methode dient dazu, die Berechnungszeiten zu optimieren bei gleichzeitiger Garantie, dass alle Datensätze mit der gleichen Algorithmusversion berechnet wurden.

Für die Bestimmung der Datensatzversion und Algorithmusversion wird jeweils die Identifikation des letzten Logbook-Eintrages herangezogen. Ist das Loogbook leer, so wird als Version der String 'primary' vergeben.

Daher ist bei Veränderungen an Datensätzen in den Mess-Archiven (z.B. Korrektur der Diagnose) ein entsprechender Logbook-Eintrag zu machen.

Mit dem Wort collect_data kann der Datensatz einer Messung in die Datensammlung eingetragen werden. Um Programmlaufzeit zu sparen, werden die Messdaten aber nur im Bedarfsfall berechnet. Daher ist das Wort collect_data nicht mit dem Datensatz sondern mit einer Berechnungsroutine für den Datensatz zu versorgen.

Der Datensatz selbst muss eine Instanz einer von collection_data_class abgeleiteten Klasse sein.

Damit die Versorgung über den Stack nicht zu aufwändig wird, erwartet collect_data sämtliche Probandendaten in Form von globalen Variablen. Von einer Auswertungsklasse aus kann das einfach erreicht werden, indem die Variable selection mit >voc ins Vokabular geladen wird.

MAL-Homepage Inhaltsverzeichnis