Erste systematische Untersuchung der Benutzbarkeit durch

2.2 Computermetaphern und korrespondierende Qualitätssicherungsstrategien

2.2.3 Qualitätssicherung bei Computer-Werkzeugen

2.2.3.4 Erste systematische Untersuchung der Benutzbarkeit durch

für die Produktentwicklung verantwortliche Robert Taylor seinen Mitarbeitern, die Tätigkei-ten zu spezifizieren, die durch die zu entwickelnden Artefakte unterstützt werden sollTätigkei-ten.

Auch wenn bei dieser Spezifizierung keine systematische Analyse der Arbeitsprozesse aller zur Zielgruppe gehörenden Nutzer durchgeführt wurde und die am PARC angestellten Wis-senschaftler letztlich ihre eigenen Tätigkeiten beschrieben, ist diese Art der Entwicklung von technischen Artefakten, wie sie am PARC stattfand, bemerkenswert. So standen, genau wie in den Beschreibungen von Bush und den Überlegungen von Licklider, nicht länger die Sys-temmerkmale des Computers im Mittelpunkt des Entwickler-Interesses, sondern die Nut-zungsmerkmale des Computers durch den Menschen. Entwickler konzentrierten sich nicht länger allein auf die technischen, sondern zunehmend auch auf die ergonomischen Qualitäten ihrer Artefakte. Das Resultat dieser allen Entwicklungen vorausgehenden Überlegungen zur Nutzung des Artefakts war die Feststellung, dass Wissenschaftler den Computer einerseits zum Erledigen individueller Aufgaben und andererseits zur gemeinsamen Lösung von Prob-lemen benötigen. Dementsprechend begann man, für beide Nutzungssituationen, so wenig sie auch nach heutigen Maßstäben konkretisiert wurden, zwei verschiedene Produkte zu entwi-ckeln: a) das Werkzeug Alto, später Star und b) das Medium Ethernet. Während man das Werkzeug sehr systematischen Tests unterzog, um zu ermitteln, wie Laiennutzer seine Benut-zung erlernen und ausführen konnten, wurde das Medium, das lediglich als erweiterte Funkti-onalität des Werkzeugs angesehen wurde, nur auf seine technischen Qualitäten der Machbar-keit (Feasability) und Effektivität hin untersucht. Bereits hier wies das Ethernet erhebliche Schwächen auf.

Ein weiteres Resultat der vor der Entwicklung des Star durchgeführten Analysen und Überle-gungen zum menschlichen Nutzer waren die Verwendung der in 2.1.3.5 beschriebenen, ersten grafischen Benutzungsschnittstelle. Als Eingabevorrichtung verwendete man, unter Berufung auf die Untersuchungen, die Engelbart am ARC durchgeführt hatte, die Mouse, die von allen verfügbaren Eingabevorrichtungen am ehesten an die motorischen Fähigkeiten des Menschen angepasst war. Ferner versuchte man durch die Verwendung generischer Kommandos dem

Nutzer das Erlernen des Systems zu erleichtern. Zwar ist über eine detaillierte, innerhalb des Entwicklungsprozesses im PARC stattfindende Evaluation dieser Vermutung, dass die grafi-sche, an der Desktop-Metapher orientierte Benutzungsschnittstelle mit generischen Komman-dos von Nutzern tatsächlich schneller erlernt werden könne, nichts überliefert. Dennoch kann die Tatsache, dass derartige Überlegungen angestellt wurden, dass die Güte des Artefakts sich nicht als Funktion der Machbarkeit und Nützlichkeit, sondern darüber hinaus der Gebrauchs-tauglichkeit, Benutzbarkeit und Erlernbarkeit¹³⁰ ergab, nicht hoch genug bewertet werden. Es existierte das Bewusstsein, lediglich die Methoden fehlten noch.

Ein erster Versuch, systematisch Methoden der Qualitätssicherung zu entwickeln, fand bereits Mitte der 1970er Jahre am PARC selbst statt. Dort beschlossen George Pake (damals Leiter des PARC), Robert Taylor (Leiter der Produktentwicklung im PARC) und Allen Newell (Wissenschaftler im PARC), die am PARC stattfindende Entwicklung von Computern durch psychologische Grundlagenforschung zu begleiten. Spätestens seit Atkinson und Shiffrin (Atkinson & Shiffrin 1968) ihr sehr einflussreiches Modell des menschlichen Gedächtnisses entwickelt hatten, widmeten sich unterschiedliche Forscher mit kognitionspsychologischem Interesse dem Menschen als Informationsverarbeiter. So auch im PARC, wo die Besonderhei-ten der menschlichen Informationsverarbeitung am Computer untersucht werden sollBesonderhei-ten (Card et al. 1983: IXff). Dort nahm 1974 schließlich das Applied Information-Processing Psycholo-gy Project (AIP) seine Arbeit mit dem Ziel auf, eine angewandte Psychologie der Arbeitswei-se des Menschen mit und am Computer zu betreiben. Das AIP arbeitete eng zusammen mit dem Computer Science Laboratory des PARC, das von William English geleitet wurde, der einige Jahre zuvor an Engelbarts ARC die oben erwähnten Untersuchungen zur Ergonomie von Eingabevorrichtungen wie etwa der Mouse durchgeführt hatte. Das Resultat der Arbeit des AIP war neben der Etablierung eines Modells zur Mensch-Computer-Interaktion (Card et al. 1983: 24ff) und der Feststellung und empirischen Überprüfung zahlreicher quantitativer Gesetzmäßigkeiten über die Verarbeitung von am Bildschirm dargebotenen Informationen durch den menschlichen Nutzer¹³¹ eine Methode zur Messung der menschlichen Performance am Computer: die GOMS-Analyse¹³². Diese GOMS-Analyse wurde 1983 von den Psycholo-gen Card, Moran und Newell vorgestellt und kann als quantitatives Verfahren zur Messung

130 Heute spricht man von der Lernförderlichkeit, die genau wie die bereits genannte Individualisierbarkeit eine der sieben Dimensionen des Konstrukts Gebrauchstauglichkeit darstellt (ISO 9241-10).

131 An dieser Stelle seien etwa Fitt’s Law oder das Power Law of Practice genannt, deren Gültigkeit bis heute unumstritten ist.

132 GOMS steht für Goals, Objects, Methods, Selection Rules. Mittlerweile existieren zahlreiche Variationen von GOMS-Analysen (Raskin 2001: 96ff).

der Performance eines menschlichen Nutzers am Computer und somit als Verfahren zur Mes-sung der AnpasMes-sung eines Computers, genauer: einer Benutzungsschnittstelle, an die kogniti-ven Fähigkeiten des Nutzers angesehen werden. Im Rahmen der GOMS-Analyse werden Nutzerhandlungen in kleinste Einheiten (z.B. Griff zur Tastatur, Eingabe von x Zeichen, Wechsel zur Mouse, Aufblicken zum Monitor, etc.) zerlegt. Aus Untersuchungen ist die durchschnittliche Dauer bekannt, die ein Nutzer mit einem bestimmten Vorwissen über Com-puter zur Durchführung dieser kleinsten Einheiten von Benutzungshandlungen benötigt. Auf diese Weise können Realisierungen von Benutzungsschnittstellen direkt miteinander vergli-chen werden, z.B. daraufhin, wie schnell ein Nutzer bestimmte Aktionen ausführen und be-stimmte Aufgaben mit dem Computer erledigen kann. Die Methodik der GOMS-Analyse soll hier nicht weiter diskutiert werden. Es sei aber darauf hingewiesen, dass sie bis heute ein weit verbreitetes und hoch entwickeltes Verfahren zur Überprüfung des Nutzeraufwandes (Per-formance) an der Benutzungsschnittstelle und somit zur Überprüfung der Benutzbarkeit des Artefakts darstellt. Viele der bis heute entwickelten, viel aufwendigeren Verfahren des Usabi-lity-Engineering (etwa die in den letzten Jahren sehr populär gewordenen Messungen zum Eye-Tracking, bei dem die Augenbewegungen des Nutzers verfolgt und registriert werden) fußen auf dem Verständnis von Usability, wie es der GOMS-Analyse zugrunde liegt. Auch diese Verfahren versuchen die Verarbeitung der am Bildschirm dargebotenen Informationen durch einen menschlichen Nutzer zu beschreiben und die Performance des menschlichen Nut-zers vorherzusagen. Sie vernachlässigen genau wie die GOMS-Analyse vollständig den situa-tiven und sozialen Kontext, in dem die Informationsverarbeitung stattfindet. Es wird bei der GOMS-Analyse sogar vorausgesetzt, dass der Nutzer den Computer fehlerfrei nutzt.

Die am PARC entwickelten Artefakte wurden nur teilweise mit der GOMS-Analyse unter-sucht. Card, Moran und Newell berichteten lediglich von der Untersuchung des Texteditors BRAVO mit ihrer Methode.

Dennoch fand im PARC eine systematische Überprüfung der Benutzbarkeit des Alto, später Star statt. Die Art von Tests, die am PARC zur Sicherstellung der neuartigen Qualitäten des Computers durchgeführt wurden, ergaben sich aus der am PARC propagierten Forderung, dass auch Techniklaien mit den Computer-Werkzeugen arbeiten können sollten, ohne vorher deren technische Funktionsweise im Detail erlernen und durchschauen zu müssen (Johnson &

Roberts 1989). Aus diesem Grund lud man Techniklaien, die teilweise noch nie einen Com-puter gesehen hatten, ins PARC ein, ließ sie mit einem Star arbeiten und befragte sie an-schließend, ähnlich, wie es noch heute in Nutzertests geschieht. Zwischen 10 und 30 Ver-suchspersonen beurteilten den Star im Rahmen solcher Tests nach

a) der Verständlichkeit der Beschriftung der Bedienelemente b) der Gestaltung und Anordnung der Icons

c) der Gestaltung der Eigenschaftsformulare und

d) der Gestaltung des Keyboards (insbesondere der Funktionstasten).

Ferner wurden für den Star vier verschiedene Iconsätze, allesamt von Grafikdesignern entwi-ckelt, bezüglich ihrer Verständlichkeit gegeneinander getestet, bevor man auf Grundlage der Testergebnisse einen Satz von Icons auswählte (Preim 1999: 45).

Diese Art von Tests bezeichnet man heute als reine Merkmalstests. Da die Tauglichkeit des zu testenden Artefakts nicht in verschiedenen Arbeitskontexten und bezüglich daraus abgelei-teter Arbeitsaufgaben untersucht wurde, kann von einer Überprüfung der Gebrauchstauglich-keit mit diesen Tests nicht gesprochen werden. Es wurde mit solchen Tests, wie sie bis heute noch vielerorts ausschließlich durchgeführt werden, jedoch die von Arbeitskontext und Ziel-gruppe unabhängige Benutzbarkeit des Star empirisch überprüft.

Wichtig ist, dass diese Tests zu unterschiedlichen Phasen des Entwicklungsprozesses durch-geführt wurden und die Ergebnisse, wie etwa bei der Auswahl des Iconsatzes, einen starken Einfluss auf die weitere Entwicklung des Artefakts, vor allem der Benutzungsschnittstelle hatten.

Doch auch wenn das Hauptaugenmerk aller durchgeführten Tests auf der Qualität der Be-nutzbarkeit lag, also der Anpassung des Artefakts an die motorischen und kognitiven Fähig-keiten des Nutzers, fand am PARC, wie schon im ARC Engelbarts und bei den Entwicklun-gen Lickliders, eine rudimentäre Überprüfung der Gebrauchstauglichkeit der entwickelten Artefakte statt. Auch am PARC arbeitete man nach dem Bootstrapping-Prinzip: Alle entwi-ckelten Artefakte mussten sich zunächst dadurch bewähren, dass die Mitarbeiter des PARC, auch jene, die mit Fragen der Technik nicht befasst waren wie etwa Sekretärinnen und Marke-tingleute, mit ihnen arbeiten konnten. Wie bereits für Licklider und Engelbart konstatiert, kann dieses Prinzip des Bootstrapping als eine sehr rudimentäre Form eines Tests auf Gebrauchstauglichkeit eines Artefakts verstanden werden, auch wenn sowohl die Spezifizie-rung der AnfordeSpezifizie-rungen der Nutzer als auch die Systematik der Datenerfassung und -auswertung heutigen Standards nicht gerecht wird. Immerhin wurde durch die verpflich-tende Benutzung der eigenen Artefakte durch die Mitarbeiter des PARC die Untauglichkeit des Artefakts für den Gebrauch in einem den Büros des PARC ähnlichen Arbeitskontext aus-geschlossen.

Es kann für die am PARC entwickelten Computer Star und Alto also formuliert werden, dass diese iterativ unter Einbeziehung echter Nutzer entwickelt und einer formativen empirischen Evaluation unterzogen wurden. Die hierzu unternommenen Bemühungen können als Strategie zur Sicherung der für Computer-Werkzeuge neuartigen Qualitäten der Benutzbarkeit (Usabili-ty) und Gebrauchstauglichkeit (Usability in Context of Use) verstanden werden. Bezogen auf die verwendeten Methoden, die vielfach noch rudimentär waren, ist zumindest für die Qualität der Benutzbarkeit eine Systematisierung und Standardisierung zu erkennen; der erste nen-nenswerte und bis heute verbreitete Ansatz zur Messung der Benutzbarkeit eines Artefakts wurde mit der GOMS-Analyse im AIP des PARC entwickelt.

Im Dokument Ideengeschichte der Computernutzung (Seite 183-187)