Sprint: numb3rspipeline
Sprint Details
Ziele
Höherer Automatisierungsgrad bei der Datenerfassung durch Projektmitglieder
Automatische Sicherung der erfassten Daten in gemeinsamer Datenbasis
Statistik-Kennzahlen über den Umfang der Datenbasis
Zeitraum
Start: 26.10.2018 Ende: 13.11.2018
Neue Funktionen der numb3rspipeline
numb3rspipeline ist ein Instrument für die Erfassung von Daten aus IoT Infografiken. Nach den Erfahrungen im initialen Sprint wurde die numb3rspipeline um neue Funktionen ergänzt.
Homepage URL: um den Kontext der IoT Inforgraphik zu erfassen, wird zusätzlich die Webseite, von der die Infographik kommt, erfasst. Die URL wird in der Datei
url_filelist.csv
zur jeweiligen Infograpfik URL erfasst.Automatishce Erstellung von Ethercalc Dokumenten: Nach der Vorverarbeitung der Infografik, werden die Basisdaten, z.B. URL, filename, homepage URL, Nutzer, in einem automatisch generierten Ethercalc Dokument persistiert.
Ethercalc URLs:
Die URLs zu den generierten Ethercalc Dokumenten werden in der Datei
url_filelist.csv
abgespeichert.Zusätzlich werden die URLs im Slack Channel publiziert.
Backup: Alle generierten Ethercalc URLs werden nachts als
.csv, .xlxs, .md
heruntergeladen. Die Dateien werden im GitHub Repo gespeichert: https://github.com/cdeck3r/IoTNumb3rs/tree/iotdataPerformance Statistik: Die .csv Dateien mit den Daten aus den jeweiligen Ethercalc Dokumenten werden statistisch ausgewertet, um den bisher erfassten Datenumfang zu beschreiben.
Format:
datetime;user;total_rows;distinct_infographics
datetime
: Zeitstempel, yyyy-mm-dd HH:mm:ssuser
: Dropbox Nutzernametotal_rows
: Anzahl aller Datensätze eines Nutzersdistinct_infographics
: Anzahl verschiedener Infographik URLs eines Nutzers
Neue Cronjobs: regelmäßigen Ausführung der Funktionen
9, 12, 15, 18, 21, 0 Uhr: Akquise und Auswertung von IoT Infografiken
3, 6 Uhr: Backup der Daten und Berechnung der Performance Statistik
Bugfixing: verschiedene kleinere Fehler
Nutzung der numb3rspipeline
Mit den neuen Funktionen hat sich Nutzung vereinfacht.
[Bildersuche] IoT Infografiken mit Google Bildersuche finden
URLs der Bilddateien und URLs der Homepage, von der die Bilddatei stammt, speichern in Datei
url_list.txt
Format:
<url>;<homepage_url>
[DROPBOX, Upload-Link]
url_list.txt
auf Dropbox kopieren. Link zum Hochladen in separater Mail zu Beginn des Projektes mitgeteilt.[Analyselauf numb3rspipeline] ... pipeline läuft... nichts zu tun ... warten.
Status des Analyselaufs wird in Slack gepostet
Für jede Infografik URL wird eine Ethercalc URL in Slack gepostet
[DROPBOX, Download-Link] Ein neues Verzeichnis in dem Format
[yyyymmdd-hhmm]
wurde angelegt. Für jede URL ausurl_list.txt
liegt in diesem Verzeichnis nun eine Bild- und Textdatei. Dateien können über den Download-Link zugegriffen werden.file<n>_<bildname>
file<n>_<bildname>.txt
url_filelist.csv
Die Datei
url_filelist.csv
enthält nach dem Analyselauf für alle URLs aus derurl_list.txt
die Homepage URL und die Ethercalc URL für das generierte Dokument zur Datenerfassung.[Erfassung der Daten mit Ethercalc] Nach dem Analyselauf wird für jede Infografik ein Ethercalc Dokument erzeugt. Darin sind die Grunddaten wie Infografik URL, filename, homepage_url in einer Standardmaske für die Datenerfassung enthalten. Die URLs sind in
url_filelist.csv
enthalten und werden nach jedem Analyselauf in Slack gepostet. Für die Erfassung soll für jede Infografik das jeweils erzeugte Ethercalc Dokument verwendet werden.Daten aus Bilddatei
file<n>_<bildname>
(URL zur Infografik in Ethercalc Dokument enthalten) manuell extrahieren und gemäß Vorlage in das entsprechend generierte Ethercalc Dokument eintragenOptional: Keyword-Suche in Textdatei
file<n>_<bildname>.txt
[Automatisches Backup und Statistik] Die erfassten Daten in den Ethercalc Dokumenten werden regelmäßig gesichert. Für den Nutzer nichts zu tun.
stats.csv
: Statistik Informationen über die bisher erfassten Daten für jeden Nutzer
Last updated