Technische Prüfung von Mobilgeräten: Methodik

Letzte Aktualisierung: 28. Februar 2015

Unsere Methodik für die technische Prüfung von Mobilgeräten beschreibt, wie wir die Zugänglichkeit und Nutzbarkeit von Smartphones und Tablets für blinde, sehbehinderte und weitsichtige Menschen bewerten.

Die Brauchbarkeit eines Smartphones bzw. eines Tablets für Nutzer mit irgendeiner Art von Seheinschränkung (von altersabhängiger Weitsichtigkeit bis hin zu vollständiger Blindheit) hängt von einer Reihe von Aspekten ab. Dazu gehören die Handhabung des physischen Geräts über Tasten oder virtuelle Kontrollelemente auf dem Display, die Größe und Helligkeit des Displays, die Standard-Textgröße, die Verfügbarkeit eingebauter Bedienungshilfen wie Textvergrößerung oder Zoomvergrößerung oder die Verfügbarkeit und Qualität eines eingebauten Screenreaders für die nichtvisuelle Nutzung.

Viele dieser Aspekte lassen sich in einer technischen Prüfung erfasssen. Wir führen auch Nutzertests mit Mobilgeräten mit blinden und sehbehinderten Probanden durch, die häufig Hinweise auf Probleme ergeben, die in einer technischen Prüfung nicht zu identifizieren sind.

Die technische Prüfung

In der technischen Prüfung bewerten wir Geräte nach bestimmten Kriterien, die für weitsichtige, sehbehinderte und blinde Nutzer wichtig sind. Der Test nach einem bestimmten Kriterium enthält oft einen oder mehrere Vergleichspunkte, die direkt messbar sind, etwa Textgröße, Kontrast oder die Verfügbarkeit bestimmter Einstellungen. Andere Vergleichspunkte verlangen dagegen qualitative Einschätzungen, zum Beispiel bei der Bewertung der haptischen Eigenschaften einer Taste oder beim Vergleich verschiedener Gesten für den Aufruf einer bestimmten Aktion wie Hineinzoomen oder Vergrößerungsfaktor ändern.

Oft führen wir vergleichende technische Prüfungen durch, in denen mehrere Geräte anhand der gleichen Kriterien bewertet werden.

Nutzergruppen

In unserer technischen Prüfung stellen wir die Ergebnisse für verschiedene Nutzergruppen mit unterschiedlichen Anforderungen dar. Die Prüfung kann sich auf bestimmte Nutzergruppen beschränken (etwa weitsichtige oder blinde Nutzer) oder differenzierte Ergebnisse für verschiedene Nutzergruppen hervorbringen.

Übliche Nutzergruppen sind:

  1. Weitsichtige Nutzer (Hyperopie): Oft ältere Nutzer, die größeren Text benötigen, aber selten die systemseitige Zoomvergrößerung nutzen
  2. Zoomvergrößerungs-Nutzer: Nutzer mit stärkerer Sehbehinderung, die eine starke Vergrößerung oder ggf. auch Kontrastansichten benötigen, aber in der Regel nicht den Screenreader nutzen
  3. Zoomvergrößerungs-Nutzer mit Screenreader: Nutzer mit stärkerer Sehbehinderung, die fallweise oder regelmäßig zusätzlich den Screenreader nutzen
  4. Screenreader-Nutzer: Nutzer, die nicht visuell, sondern nur mittels Screenreader arbeiten

Natürlich fallen viele Menschen irgendwo zwischen diese Nutzergruppen. Für zukünftige Prüfungen werden wir gegebenenfalls auch neue Nutzergruppen definieren, die bestimmte Einschränkungen und damit verbundene Anforderungen haben, etwa Farbenblindheit. Wir empfehlen Lesern der Prüfresultate, die Geräte (bzw. Betriebssysteme und Apps) hinsichtlich derjenigen Kategorien zu vergleichen, die für sie wichtig bzw. ausschlaggebend sind.

Anforderungen der Barrierefreiheit

Viele der Checks in unserer technischen Prüfung basieren auf allgemeinen Zugänglichkeitsanforderungen, wie sie in Empfehlungen bzw. Standards wie den Web Content Accessibility Guidelines (WCAG 2.0 - ISO/IEC 40500) veröffentlicht sind. Das bedeutet, dass sich viele unser Checks auf WCAG-Erfolgskriterien abbilden lassen.

Abhängig von der Nutzergruppe, die wir in unserer technischen Prüfung adressieren, fokussieren wir auch auf Teilbereiche der WCAG-Anforderungen. So ist zum Beispiel für sehbehinderte Nutzer die Wahrnehmbarkeit das ausschlaggebene Prinzip der vier WCAG-Prinzipien (Wahrnehmbar, Bedienbar, Verständlich, Robust). Wenn Wahrnehmbarkeit gegeben ist, unterliegen Bedienbarkeit und Verständlichkeit den gleichen Bedingungen wie bei Nutzern ohne Behinderung, wenigstens sofern nicht noch eine weitere Behinderung vorliegt.

Wir beziehen in unseren Nutzertests deshalb oft nicht alle potenziell für Menschen mit Behinderungen relevanten Kriterien ein, sondern fokussieren bewusst auf ganz bestimmte, besonders wichtige Kriterien. Bei Tests für die Gruppe der sehbehinderten Nutzer fokussieren wir deshalb auf die WCAG-Erfolgskriterien 1.4.3 Kontrast und 1.4.4 Textgröße ändern, da diese die Voraussetzungen dafür sind, dass Inhalte überhaupt wahrgenommen werden können.

Wenn wir dagegen die Gruppe 3 (sehbehinderte Nutzer, die zusätzlich den Screenreader brauchen) oder die Gruppe 4 (vollblinde Screenreader-Nutzer) adressieren, wird die Prüfung auch Checks enthalten, die in den Bereich der Prinzipien Bedienbar und Robust gehören, vor allem deshalb, weil die Nutzung des Screenreaders meist ein vollkommen anderes Touch-Bedienungskonzept mit sich bringt. Zusätzliche Erfolgskriterien sind hier z.B. 1.1.1 Nicht-Text Inhalt, 3.3.2 Beschriftungen (Labels) oder Anweisungen, 4.1.2 Name, Rolle, Wert und 3.1.2 Sprache von Teilen.

Bestimmung der in die Prüfung einbezogenen Kriterien

Es gibt eine Reihe von Erfolgskriterien, die sich nicht in einer punktuellen technischen Prüfung bewerten lassen, da sie erst in einer Nutzungssequenz prüfbar sind. Dazu zählen etwa 2.2.1 Zeiteinteilung anpassbar, 2.4.3 Fokus-Reihenfolge (besonders, wenn eine externe Tastatur oder der Screenreader eingesetzt werden) oder 3.3.1 Fehlererkennung. Die punktuellen Prüfungen, etwa von Kontrast und Schriftvergrößerung, sind im Prinzip um sequenziell zu ermittelnde Erfolgskriterien erweiterbar. Welche Kriterien einbezogen werden, ist vor allem eine Frage des Aufwands.

Welcher Aufwand sinnvoll ist und welche Kriterien einbezogen werden sollten, hängt auch von der Breite des jeweiligen Tests ab. Soll etwa die prinzipielle Eignung eines Smartphones anhand vieler unterschiedlicher Kategorien geprüft werden, verbietet sich aus praktischen Gründen die detaillierte Prüfung. Der Fokus auf zentral wichtige Kriterien ist sinnvoll und in der Regel ausreichend. Richtet sich ein Test dagegen nur auf eine bestimmte App oder eine Klasse von Apps, ist ein weitergehender Test sinnvoll, der mehr Erfolgskriterien bzw. Checks mit einbezieht.

Unterschied zur Konformitätsprüfung

Die WCAG wurden mit einem Fokus auf Webinhalte entwickelt. Die Richtlinien sind auf Informations- und Kommunikationstechnologien im Allgemeinen übertragen worden (siehe WCAG2ICT) und es wird daran gearbeitet zu definieren, wie sie auf mobile Technologien anwendbar sind. Andere Aspekte, etwa die physischen und haptischen Eigenschaften von Geräten, sind in den WCAG gar nicht enthalten.

In unseren Prüfungen gehen wir zum Teil auch über WCAG hinaus. So vergleichen wir zum Beispiel auch die Größe der (unvergrößerten) Ausgangsschrift und berücksichtigen, ob sich die Schriftgröße bereits über systemseitige Einstellungen anpassen lässt oder dafür das Einschalten der Zoomvergrößerung notwendig ist – was als ungünstiger bewertet wird. WCAG verlangt dagegen lediglich, dass sich Text um 200 % vergrößern lässt, egal, wie klein die Ausgangsschrift ist.

Ein weiterer Punkt ist die Bewertung grafischer Schaltflächen - vermitteln sie klar die in ihnen hinterlegte Funktion? Hierfür gibt es kein WCAG-Erfolgskriterium, vielleicht auch, weil in diesem Fall eine pass/fail-Bewertung klar unangemessen erscheint. Dennoch kann es wichtig sein, grafische Schaltflächen in die Bewertung der Zugänglichkeit einer app- oder systemseitigen Funktion einzubeziehen.

Ein drittes Beispiel dafür, dass WCAG-Kriterien nicht ausreichen, sind die Grafikkontraste von Trennlinien bzw. Gittern. Wir wissen z.B. aus Nutzertests, dass ein schwacher Kontrast des Gitters in einem Kalender diesen fast unbenutzbar für sehbehinderte Menschen machen kann. Wir werden also fallweise diesen Aspekt berücksichtigen (da, wo er entscheidend wichtig ist), obwohl die WCAG nur bei Schrift-Grafiken, nicht jedoch bei Informations-Grafiken, gute Kontraste fordern.

Da wir also meist nur Teilmengen der WCAG-Erfolgskriterien und in der Regel zusätzliche Kriterien einbeziehen, die in den WCAG nicht verlangt werden, sollte klar sein, dass unsere technischen Prüfungen keine WCAG-Konformitätsprüfungen sind. In einer Konformitätsprüfung müssten nämlich alle WCAG-Erfolgskriterien bewertet werden.

Ein weiterer Unterschied besteht darin, dass wir einen anderen Ansatz der Bewertung verfolgen. Nach WCAG würde ein Erfolgskriterium wie 1.4.4 Resize text in einem pass/fail-Schema bewertet. Wir bewerten dagegen grundsätzlich den Grad der Erfüllung der von uns definierten Kriterien mittels einer fünfstufigen Bewertungsskala (siehe den Abschnitt zum Bewertungsschema weiter unten).

Kategorien für technische Prüfungen

Um die verschiedenen Bereiche zu erfassen, die zusammen die Brauchbarkeit von Geräten für Menschen mit Sehbehinderungen ausmachen, haben wir vierzehn verschiedene Kategorien definiert, die sowohl inhaltliche als auch funktionale Aspekte umfassen:

  1. Physische Geräteeigenschaften, Haptik
  2. Standard-Textgröße und Textvergrößerung
  3. Kontrastmodi
  4. Systemseitige Zoomvergrößerung
  5. Startbildschirm
  6. Tastenfeld Telefon
  7. Virtuelle Tastatur
  8. Standard-E-Mail-App
  9. Standard-Kalender
  10. Standard-Browser
  11. Spracheingabe
  12. Screenreader
  13. Bildschirm-vorlesen-Funktion
  14. Unterstützung von Peripherie (etwa Bluetooth-Tastaturen)

Nicht immer werden alle der hier aufgeführten Kategorien in unseren technischen Prüfungen berücksichtigt.

Für alle Nutzer wichtig sind Kategorien wie physische Geräteeigenschaften, Startbildschirm, Tastenfeld des Telefons und virtuelle Tastatur. Die drei erfassten Standard-Apps - E-Mail, Kalender und Browser - kann man auch als für die meisten Nutzerinnen und Nutzer relevant betrachten.

Einige funktionale Kategorien sind nur für bestimmte Nutzergruppen relevant. Vollblinde Nutzer etwa haben keinen Bedarf für Zoomvergrößerung, Kontrastmodi oder Textvergrößerung. Für weitsichtige Nutzer und Zoomvergrößerungs-Nutzer, die ausschließlich visuell arbeiten, ist es dagegen gleichgültig, ob der Screenreader etwas taugt, ob er zusammen mit der Zoomvergrößerng nutzbar ist oder ob Bedienelemente in Apps screenreaderzugänglich beschriftet sind. Deshalb können bestimmte Geräte für bestimmte Nutzergruppen infrage kommen, die für andere Gruppen überhaupt nicht brauchbar sind.

Wir verwenden eine Gewichtung von Kriterien innerhalb von Kategorien und auch eine Gewichtung der Kategorien selbst, um die Bedürfnisse der verschiedenen Nutzergruppen angemessen zu reflektieren.

Kriterien bewerten und dokumentieren

Wann immer möglich, bewerten wir Geräte, Betriebssysteme, Apps und deren Funktionen anhand von Vergleichspunkten, die objektiv messbar sind. Zum Beispiel messen wir die Schriftgröße mit einem Typometer, einem durchsichtigen Lineal, mit dem wir die tatsächliche Punktgröße von Schrift auf dem entsprechenden Display ablesen können. Unsere Typometer-Messungen haben eine mögliche Mess-Ungenauigkeit von etwa 0,5 Punkt.

Wenn wir Kontraste messen, machen wir Screenshots, importieren diese auf einen PC und bestimmen dann das Vordergrund-Hintergrund-Kontrastverhältnis mittels Color Contrast Analyzer. Wenn Abmessungen oder Abstände eine Rolle spielen (z.B. der Abstand zwischen einem Bedienelement und seiner Beschriftung), geben wir die Maße in Millimeter an.

Wenn wir die Verfügbarkeit zugänglicher Benennungen von Bedienelementen überprüfen, machen wir das mit eingeschaltetem Screenreader und nutzen die jeweiligen systemspezifischen Gesten bzw. die Berührungserkundung, um diese Elemente zu fokussieren und den Namen auszulesen.

In vergleichenden Prüfungen machen wir häufiger Fotos der verschiedenen Geräte nebeneinander, um auch visuell die Unterschiede in Layout, Textgrößen usw. zu dokumentieren, So können sich Leser über unsere Beurteilungen hinaus selbst ein Bild der jeweiligen Ansicht oder Funktion machen.

Oft lassen sich mehrere Vergleichspunkte wie Textgröße, Kontrast, Layout/Textumbruch oder die Erkennbarkeit visueller Icons in der Gesamtbewertung eines Kriteriums zusammenfassen. So hat etwa die Kategorie "Standard E-Mail-App" ein Kriterium "Neue-Mail-Ansicht", das nach einer Reihe von Vergleichspunkten bewertet wird: Ausgangsschriftgröße, Vergrößerbarkeit über die systemseitige Textvergrößerung sowie Kontrast. Weitere Vergleichspunkte können auch als zusätzliche Kriterien aufgefasst werden, besonders, wenn sie sehr wichtig sind. Im Fall der Neue-Mail-Ansicht ist das etwa die Brauchbarkeit der Spreizgeste zum Vergrößern des Textes. Innerhalb dieses Kriteriums wären die Vergleichspunkte: 1. Lässt sich der Text über die Spreizgeste vergrößern? und 2. Bricht der Text beim Vergrößern mittels Spreizgeste um?

Gewichtung bestimmter Kritierien innerhalb der Kategorien

Wir nutzen eine Gewichtung von Kriterien innerhalb unserer Kategorien, um deren relatives Gewicht abzubilden. Diese Gewichtung ist oft je nach Nutzergruppe unterschiedlich.

Die prozentualen Gewichtungen der Kriterien innerhalb einer Kategorie addieren sich immer zu 100 %. Unterschiedliche Gewichtungen je nach Nutzergruppe folgen den besonderen Bedürfnissen und Vorlieben der jeweiligen Gruppe. Ein Beispiel: Innerhalb der Funktions-Kategorie Systemseitige Zoomvergrößerung sind die beiden Kriterien "Zoom und Screenreader gleichzeitig nutzbar" und "Sichtbarkeit des Screenreaderfokus" nur für Zoomvergrößerungs-Nutzer relevant, die auch den Screenreader nutzen. Diese zwei Kriterien haben deshalb in den Gruppen 1 und 2 - weitsichtige Nutzer und Zoomvergrößerungs-Nutzer (ohne Screenreader) - kein Gewicht. Umgekehrt bedeutet die Berücksichtigung dieser Kriterien bei der Gruppe der Zoomvergrößerungs-Nutzer, die den Screenreader nutzen, dass andere Kriterien in dieser Gruppe eine etwas geringere Gewichtung erfahren, denn die Gewichtung aller Kriterien innerhalb einer Kategorie soll sich zu 100 % addieren.

Ein anderes Beispiel: Die Standard-Textgröße ist wichtig für weitsichtige Nutzer, die üblicherweise nicht die Zoomfunktion nutzen oder die Textgröße auf der Systemebene stark heraufsetzen wollen. Innerhalb der Kategorie Standard-Textgröße und Textvergrößerung hat das Kriterium Standard-Textgröße deshalb eine Gewichtung von 60 %. Für die Gruppen 2 und 3 der Zoomvergrößerungs-Nutzer sind die meisten Texte ohnehin zu klein, um ohne Zoom gelesen werden zu können, deshalb ist die Standard-Textgröße hier vergleichsweise weniger wichtig (hier abgebildet in einer Gewichtung von 45 %) so dass das Kriterium der Vergrößerbarkeit über die Systemeinstellungen hier stärker gewichtet wird.

Wir laden Leser (speziell betroffene Nutzer) dazu ein, uns Kommentare zu unseren Kriterien und Gewichtungen zukommen zu lassen und unsere Ergebnisse ihren persönlichen Bedürfnissen gemäß anzupasssen, falls sich andere Prioritäten zeigen.

Das Bewertungsschema

In unserer Bewertung einzelner Kriterien nutzen wir eine Likert-Skala mit fünf Werten von ++ (sehr gut) bis -- (sehr schlecht/unbenutzbar oder nicht vorhanden). Die tatsächliche Bewertung eines Kriteriums fasst häufig die Bewertung mehrerer Vergleichspunkte zusammen. Wenn wir etwa den Reader-Modus eines Browsers bewerten, wird die maximal erreichbare Textgröße bei Einstellung der Reader-Textgröße ein Vergleichspunkt sein. Ein weiterer Punkt wird erfassen, ob der Text bei Vergrößerung neu umbricht, so dass Nutzer nicht horizontal scrollen müssen, um den vergrößerten Text zu lesen. Die gewählte Bewertung orientiert sich dabei an dem praktisch erreichbaren besten Fall, also nicht an den relativen Vorzügen der verglichenen Umsetzungen. So könnte zum Beispiel bei allen bisher geprüften Smartphones die Buchstabengröße auf den Tasten der virtuellen Tastaturen größer sein (zum Teil erheblich größer). Die Auswahl größerer Buchstaben auf der virtuellen Tastatur könnte eine Systemeinstellung sein, die praktisch umsetzbar wäre, aber bislang nicht existiert. In unserem Vergleich virtueller Tastaturen haben wir deshalb bislang die beste Bewertung ++ (sehr gut) für das Kriterium Tastentextgröße und Kontrast der virtuellen Tastatur nicht vergeben.

Die Zusammenfassung und Gewichtung von Bewertungen

Die Einzelbewertungen für Kriterien können nun zu einer gewichteten Gesamtbewertung der Kategorie für jedes Gerät und jede Nutzergruppe zusammengefasst werden. Wenn alle Kriterien mit ++ (= sehr gut) bewertet wären, wäre das prozentuale Gesamtergebnis der Kategorie 100 %. Umgekehrt, wenn alle Kriterien mit -- (= sehr schlecht, unbenutzbar, oder nicht vorhanden) bewertet würden, wäre das Ergebnis 0 %

Dieselbe Form der gewichteten Zusammenfassung ist auch auf der Ebene der Kategorien möglich, um so ein Gesamtergebnis der Brauchbarkleit eines Gerätes für eine bestimmte Nutzergruppe zu erreichen. Die Gewichtung der Kategorien entspricht auch hier wieder ihrer relativen Wichtigkeit für die entsprechende Nutzergruppe. Hier nutzen wir die Gewichtung von 0 % für Kategorien, die für bestimmte Nutzergruppen irrelevant sind und deshalb nicht in die Bewertung eingehen sollten.

Verlässlichkeit und Grenzen der Testergebnisse

Auch wenn die Ergebnisse auf bestimmte Nutzergruppen zugeschnitten sind, ist ein Gesamtergebnis für ein bestimmtes Gerät nicht mehr als ein grober Anhaltspunkt für die wahrscheinliche Brauchbarkeit für bestimmte konkrete Nutzer. Es ist vor allem wichtig, sich all die spezifischen Kategorien anzuschauen, die für die jeweiligen Nutzer wirklich wichtig sind. Oft wird es zusätzliche Aspekte geben, die in unseren Kategorien nicht vorkommen, die aber bei der Auswahl zentral wichtig sind, etwa die Verfügbarkeit spezieller barrierefreier Apps für die Navigation oder die Texterkennung.

Eine technische Prüfung, besonders eine, die auf eine spezielle Nutzergruppe fokussiert, kann nicht alle Aspekte erfassen, die potenziell für die Zugänglichkeit eines Gerätes bedeutsam sind. Sie richtet sich schon aus praktischen Gründen der Durchführbarkeit auf bestimmte repräsentative Aspekte von Gerät, Betriebssystem und App und wird in aller Regel nicht sämtliche Ansichten, Optionen, Nutzereinstellungen usw. erfassen können. Nur in solcher Beschränkung bleibt sie praktisch durchführbar. Das bedeutet allerdings auch, dass es bedeutende Mängel geben kann, die eine Prüfung nicht aufdeckt.

So mag eine Prüfung auf zugängliche Beschriftung von Bedienelementen für einige Ansichten einer App aufzeigen, dass die Beschriftungen nicht vollständig sind, ohne entsprechende Checks für alle Bedienelemente aller möglichen Ansichten einer App durchzuführen. Die nicht erfassten Ansichten mögen aber für bestimmte Nutzer unabdingbar wichtig sein. Nur gefundene Defizite bilden also die Grundlage der Bewertung. Defizite, die nicht erfasst werden, können nicht in die Bewertung eingehen. Das bedeutet, dass die gefundenen Defizite zwar ein verlässlicher (dokumentierter), aber immer vorläufiger Anhaltspunkt für die Bewertung der Zugänglichkeit sind. Ein positives Resultat, basierend auf den ausgewählten Aspekten, ist jederzeit in Gefahr, revidiert werden zu müssen, wenn unzugängliche Aspekte entdeckt werden, die nicht Teil des Prüfumfangs waren, aber für Nutzer eine praktische Bedeutung haben.

Wir laden alle Nutzer ein, uns Defizite, die nicht in unseren Prüfungen erfasst wurden, zu melden, damit wir die Testmethodik gegebenenfalls anpassen oder erweitern können, um die Zugänglichkeit in zukünftigen technischen Prüfungen besser zu erfassen.