Zeitschriftenartikel
Hierarchische Eignungsprüfung von externen (Open) Data Sets für unternehmensinterne Analytics- und Machine-Learning-Projekte
Vorschaubild nicht verfügbar
Volltext URI
Dokumententyp
Text/Journal Article
Zusatzinformation
Datum
2023
Autor:innen
Zeitschriftentitel
ISSN der Zeitschrift
Bandtitel
Verlag
Springer
Zusammenfassung
Unternehmen erkennen zunehmend die Bedeutung evidenzbasierter Entscheidungen. Insbesondere die zunehmende Nutzung unternehmensexterner und offener Datensätze (Open Data) fördert die Möglichkeiten evidenzbasierter Entscheidungen. Dabei basieren evidenzbasierte Entscheidungen mit diesen Datensätzen immer häufiger auf Analysen, welche mittels maschineller Lernverfahren bzw. Machine Learning (ML) vorbereitet oder durchgeführt werden. Weil der Inhalt und die Qualität und damit der Nutzen eines Datensatzes für solche Analyseverfahren im Vorfeld ungewiss ist, stellt die Auswahl und die Beschaffung von geeigneten Daten unabhängig vom ML-Verfahren eine Kernherausforderung dar. Dieser Beitrag stellt deshalb zum Zwecke der Effizienz ein hierarchisches Vorgehen vor. Mit diesem können schemabasierte Datensätze strukturiert und effektiv dahingehend überprüft werden, ob deren Qualität und inhaltliche Fit für einen bestimmten Anwendungsfall (z. B. eine wiederkehrende Entscheidungssituation) ausreichend ist. Im Beitrag beschreiben wir einen Anwendungsfall aus dem Bereich der datengestützten Energieverbrauchsprognose für Wohngebäude, bei dem der Aufwand für die Datensatzauswahl reduziert werden konnte. Companies are increasingly recognizing the importance of evidence-based decisions. In particular, the increasing use of company-external and open data sets (open data) additionally promotes the possibilities of evidence-based decisions. More often, evidence-based decisions on these data sets are based on analyses that are prepared or carried out using machine learning (ML). Because the content and quality and thus the usefulness of a dataset for such analysis are uncertain in advance, the selection and acquisition of suitable data is a core challenge independent of the specific ML procedure. This paper therefore presents a hierarchical and efficiency-oriented procedure to check schema-based data sets in a structured and effective way to determine whether their quality and content fit is sufficient for a specific use case (e.g. a recurring decision situation). In the paper, we describe a use case from the field of data-based energy consumption forecasting for residential buildings, where the effort for data set selection could be reduced.