Zeige Artikel getaggt mit digitalisierung
Fallstudie – 60 Jahre kantonale Schweizer Wahldaten aus Papierarchiven befreien

Herausforderung

In einem Land wie der Schweiz, wo seit Jahrhunderten auf allen Verwaltungsebenen mit Herzblut Bürokratie betrieben wird, liegen systematisch gesammelte Daten aller Art brach. Daten, welche für die Wissenschaft von einzigartiger Bedeutung sein können, da vergleichbare Informationen in den wenigstens Regionen der Welt so akribisch gesammelt wurden. 

staatsarchiv.jpg

Wir Psychologen sind an solchen Daten bisher wenig interessiert. Für Ökonomen und Politwissenschaftler sind diese aber Gold wert. Der Haken an der Sache ist nur, dass der ganz grosse Teil davon vor dem Computer-Zeitalter gesammelt wurde und daher nur auf Papier gespeichert ist. 

Wie schafft man sich eine qualitativ einwandfreie digitale Datenbasis auf Grund von Daten, die in grossen Büchern in Archiven liegen und darüber hinaus in jedem Kanton der Schweiz anders aussehen? 
Genau dieser Herausforderung stellten sich Prof. Dr. Mark Schelker und Dr. Lukas Schmid, deren Ziel es war, die Resultate der kantonalen Parlamentswahlen der letzten 60 Jahre zu digitalisieren. Cloud solutions konnte die Forscher bei der Entwicklung und Umsetzung einer optimalen technischen Lösung unterstützen. 

Ansätze

Selbstverständlich ist die automatische Texterkennung (OCR) relativ weit fortgeschritten. Für die Herausforderung der kantonalen Wahldaten kam OCR aber aus verschiedenen Gründen nicht in Frage: 

  • Beim Scannen von dicken Büchern werden die Inhalte in Bundnähe oft verzerrt, bleicher oder sogar leicht abgeschnitten. OCR Softwares können damit nicht umgehen. 
  • Tabellen mit vielen Trennlinien sind ebenfalls ein Problem für OCR. 
  • Ältere Schriftstile haben eine schlechtere Erkennungsrate. 

Das Nachkorrigieren von schlechten OCR Daten wäre eine Möglichkeit gewesen. Dies wird aber schnell aufwändiger, als die direkte Eingabe der Daten aus einem einfachen Scan und führt mit hoher Wahrscheinlichkeit dazu, dass falsch erkannter Text als Fehler in die Datenmatrix gelangt. 
Es blieb also nur die manuelle Erfassung. Dazu würde man traditionellerweise wohl Excel benutzen, was aber verschiedene Probleme mit sich bringt:  

  • Arbeit dieser Art ist durch ihre repetitive Natur eher fehleranfällig, Excel bietet keine Unterstützung dabei, verschiedene Fehlerquellen wie Zeilenverschiebungen, falsche Eingaben, falsche Zuordnung, etc. zu vermeiden. 
  • Das manuelle Zusammenführen vieler einzelner Excel Dateien stellt eine weitere Fehlerquelle dar. 
  • Bei vielen auf mehrere Erfasser verteilten Excel-Dateien ist keine laufende Kontrolle über den Stand der Erfassung und die Qualität der Daten möglich.

Umgesetzte Lösung

wahlbersicht.png

Die mit dem Kunden in gemeinsamer Denkarbeit entwickelte und durch CS programmierte Lösung hatte zum Ziel, die jeweiligen Stärken von Technik und Mensch zu vereinen, um so die Qualität der Daten zu maximieren. Das entwickelte System hatte folgende Merkmale: 

  • Klar strukturierte, software-geführte Erfassung der Daten. 
  • Vermeidung von redundanter Erfassung durch Auftrennen in mehrere Erfassungsebenen (Kanton, Bezirkswahljahr, Kandidaten). 
  • Gewisse vorerfasste Daten, die bereits korrekt zur Auswahl gestellt werden konnten. 
  • Datenvalidierung bei Eingabe. 
  • Eingebaute Qualitätschecks (Vergleich von perfekten, vorerfassten Datensätzen mit den eingegebenen Daten). 
  • Sorgfältige Instruktion und Support der ErfasserInnen. 
  • Zusätzliche manuelle Stichprobenkontrollen durch das Forscherteam. 

kandidaten.png

Auf diese Weise wurden Ende 2014 / Anfang 2015 durch 30 ErfasserInnen in höchst zufrieden stellender Qualität an die 190'000 Kandidierende erfasst, verteilt auf 60 Jahre, 4000 Wahlbezirke und 15'000 Listen. 

Veröffentlicht von am in CS News
Digitalisierung historischer Schweizer Wahldaten

Wie verwandelt man 2 Gigabytes an gescannten Wahlresultaten aus kantonalen Archiven in digitale Daten? Wie tut man dies günstig und sichert gleichzeitig eine hohe Datenqualität?

Diese und ähnliche Fragen hat sich ein Forscherteam um Mark Schelker, Professor am Lehrstuhl für öffentliche Finanzen an der Universität Fribourg und Lukas Schmid, Forschungsassistent beim Schweizerischen Institut für Aussenwirtschaft und Angewandte Wirtschaftsforschung der Universität St. Gallen gestellt. Die Forscher wollen mit diesem Projekt mehr über das Phänomen des "Bisherigenvorteils" erfahren. 

Als Firma durfte sich cloud solutions am spannenden Prozess der Lösungsfindung zu diesen Fragen beteiligen. In den nächsten Wochen und Monaten wird cloud solutions ca. 30 DatenerfasserInnen rekrutieren und managen sowie eine spezialisierte Software zur qualitativ hochstehenden Erfassung dieser Daten entwickeln.

Wir freuen uns sehr auf diese spannende Herausforderung!

Show page in

Was Kunden
über uns sagen

cloud solutions hat uns im Aufbau der online Befragung professionell, massgeschneidert und fachlich kompetent unterstützt.

Nadine Eggimann
Militärakademie an der ETH Zürich, Schweiz

 
 
 
The future of the PHP PaaS is here: Our journey to Platform.sh
CS Tech
In our team we’re very confident in our ability to produce high quality software. For the past decad...