Sprint: Datenqualitätsoffensive

Ziel

Mit den IoTNumb3rs Daten analytisch arbeiten können.

Messbare Resultate

  • Jeder Nutzer erfasst 5 Tage lang, durchschnittlich 5 Infografiken pro Tag.

  • Am Ende des Sprints sind insgesamt, d.h. über alle Nutzer zusammen, mindestens 100 neue Datensätze hinzugekommen.

  • Am Ende des Sprints ist die Datenqualität >95%

  • Mindestens 2 Leistungsstatistiken als Balkendiagramme sind erstellt.

  • Mindestens 4 Boxplot Diagramme über die IoTNumb3rs Daten sind erstellt.

Optional:

  • Anzahl der duplizierter Infografiken über mehrere Users ist bekannt. Wie stark unterscheiden sich die von verschiedenen Usern extrahierten Daten?

  • Für Boxplot Diagramme gibt es zusätzlich ein Balkendiagramm über den jeweiligen Datenumfang für jeden Boxplot.

Sprintdauer

Start: 10.12.2018 Ende: 18.12.2018

Fortschrittsverfolgung

Datenerfassung: stats.csv Datenqualität: dq.md

Vorgehen

Leistungsstatistiken

Jeder Nutzer erfasst seine Projektleistung (optional: von allen Nutzern)

Boxplot-Diagramme

Jeder Nutzer informiert sich selbständig über die Erstellung von Boxplots in Excel und stellt Diagramme zu den folgenden Merkmalen auf.

  • Datenquelle: Datenfile aus Slack

  • Merkmal auf der x-Achse:

    • prognosis_year

    • authorship_class

    • device_class

    • market_class

  • Daten der y-Achse:

    • device_count

    • market_volume

Es sind geeignete x/y Kombinationen zu wählen.

Optionale Untersuchungen

Die optionalen Fragestellungen von oben können ebenfalls auf dem Datenfile aus Slack vorgenommen werden.

Evaluation

Am Ende des Sprints werden die erfassten Daten analysiert und mit dem Stand vom Startdatum verglichen. Dabei werden die geforderten Resultat wie folgt gemessen

Messgröße Total data rows: Alle Datensätze eines Nutzers Messgröße Distinct infographics: verschiedene Infografiken eines Users Messgröße Datenqualität Q: Qualitätsindikator aus dq.md

Stand 10.12.2018

User

Total data rows

Distinct infographics

Datenqualität Q

JinlinHolic

274

101

0.622377622378

MariaMarg

261

92

0.639405204461

marielledemuth

154

128

0.504854368932

Pattoho

517

106

0.760135135135

Summe

1206

427

Stand nach Sprintende am 19.12.2018

User

Total data rows

Distinct infographics

Datenqualität

JinlinHolic

356

115

1.0

MariaMarg

311

98

1.0

marielledemuth

326

115

1.0

Pattoho

529

108

1.0

Summe

1522

436

Erfüllung der zu Beginn aufgestellten messbaren Resultate

User

zusätzliche verschiedene (=distinct) infographics

Delta Q

JinlinHolic

14

0.377622378

MariaMarg

6

0.360594796

marielledemuth

-13

0.495145631

Pattoho

2

0.239864865

Last updated