Scrolle runter um die nächste Folie eines Kapitels zu erkunden!
Scrolle rechts um das nächste Kapitel zu erkunden!
[S]
: Speaker-View (Ansicht für Vortragenden) in Pop-Up-Fenster öffnen [F11]
: Vollbildmodus öffnen bzw. verlassen [ESC]
: Übersicht aller Folien [B]
oder [.]
: Blackout, d.h. Folien zu schwarz blenden (bspw. damit diese nicht ablenken)[Pos1]
: Zur ersten Folie (Titelfolie) springen, [End]
: Zur letzten Folie (Abschlussfolie) springenQuelle: Petersen, Britta, Engelhardt, Claudia, Hörner, Tanja, Jacob, Juliane, Kvetnaya, Tatiana, Mühlichen, Andreas, Schranzhofer, Hermann, Schulz, Sandra, Slowig, Benjamin, Trautwein-Bruns, Ute, Voigt, Anne, & Wiljes, Cord. (2022). Lernzielmatrix zum Themenbereich Forschungsdatenmanagement (FDM) für die Zielgruppen Studierende, PhDs und Data Stewards (Version 1). Zenodo. https://doi.org/10.5281/zenodo.7034478
Die Qualität von Daten zeichnet sich unter anderem durch Transparenz und Nachvollziehbarkeit der Datensätze aus.
Entsprechend der FAIR*-Prinzipien sollten die Daten auffindbar (findable), zugänglich (accessible), interoperabel (interoperable) und wiederverwendbar (reusable) sein.
*Mehr zur FAIR Data finden Sie im separaten Lernmodul "Metadaten"!
RfII – Rat für Informationsinfrastrukturen (2019): Herausforderung Datenqualität – Empfehlungen zur Zukunftsfähigkeit von Forschung im digitalen Wandel, zweite Auflage, Göttingen. https://rfii.de/download/herausforderung-datenqualitaet-november-2019/
Dokumentation (z.B. DFG 10 Jahre für gute wissenschaftliche Praxis)
Nachnutzung/Publikation* (z.B. Erklärungen in DFG-Anträgen seit 2010)
verbesserte Datennutzung in Projekten (bspw. Forschergruppen/Verbünde - z.T. INF-Projekte in SFBs)
*Mehr zu den Themen "Nachnutzung" und "Publikation" finden Sie in den entsprechenden separaten Lernmodulen.
Dokumentation: Nachvollziehbarkeit für Verantwortungszwecke
Nachnutzung: Zitierfähigkeit, erneute wissenschaftliche Nutzung, Bewahrung nicht reproduzierbarer Daten
verbesserte Datennutzung in Projekten: Daten verändern sich noch und gehen am Ende eines Projekts in einen anderen Kontext über
Weitere Publikation: referenzierte (=verarbeitete) Daten mit zusätzlicher Dokumentation
Verifikation: Referenzierte Daten inklusive Analyseschritte
Weitere Analysen: alle Originaldaten
Lernen und Lehren: Proben von Originaldaten und zusammengestellten Daten inklusive Analyseschritte
Aufbewahren:
Verzichtbar (löschen):
Quelle: DINI/nestor-Workshop "Forschungsdaten auswählen und bewerten"
Folgende Fragen und Aspekte können bei einer Entscheidung hilfreich sein:
Hier sind ein paar Beispiele aufgeführt, die in Frage kämen.
Datenselektion hängt natürlich auch vom Aufwand ab. Insbesondere für die Langzeitarchivierung (LZA)* stehen bspw. einfach wiederholbare oder kostengünstige Experimente gegenüber von teuren, seltenen, teilw. schwierig zu erhaltenen Daten.
Folgende Schritte müssen für eine LZA bedacht und durchgeführt werden:
Zur LZA-Überprüfung kann das Tool JHOVE genutzt werden (ein erweiterbares Software-Framework für die Identifizierung, Validierung und Charakterisierung von Formaten digitaler Objekte)
Crashkurs Digitale Langzeitarchivierung - Dateiformate https://zenodo.org/record/3985075#.YbTPdNXMKWV
*Mehr zur Archivierung finden Sie im separaten Lernmodul "Daten archivieren"!
Für die Nachnutzung von Forschungsdaten ist vor allem die Qualität der Daten entscheidend. Folgende Aspekte sollten vor der Nachnutzung geklärt sein:
Datenvollständigkeit und Datenrichtigkeit
Technische Nachnutzbarkeit
Folgende Kriterien sollten bei der Qualitätsbewertung fremder Daten entscheidend sein:
Die Bewertung der Nützlichkeit und Relevanz von Datensätzen oder gesammelten Daten erfolgt durch die Anwendung von Datenqualitätsmetriken. Von den aufgelisteten Kriterien werden alle nur in den seltensten Fällen verwendet. Die Auswahl der Metriken richtet sich nach dem Datensatz und dem spezifischen Anwendungsfall. Erfahrungsgemäß kommen dabei vor allem die ersten sechs Kriterien für die Datenanalyse zum Einsatz.
Auf der Webseite von NFDI4Ing über Datenqualitätsmetriken finden Sie eine detaillierte Beschreibung der genannten Merkmale sowie Informationen zu Tools und Bibliotheken, die verwendet werden können, um diese Metriken praktisch anzuwenden.
Completeness - Vollständigkeit Gemessene, gespeicherte oder aufgezeichnete Daten müssen alle erforderlichen Attribute enthalten. NaN-Werte, die aus fehlerhaften Operationen resultieren, verringern die Vollständigkeit. Um die Qualität zu verbessern, sollten die Daten auf Vollständigkeit überprüft werden, um sicherzustellen, dass keine Informationen fehlen.
Unambiguous - Eindeutigkeit Jeder Datensatz muss eindeutig interpretierbar sein. Wenn sich Einträge nur durch ein Merkmal oder nur durch die ID unterscheiden, ist eine Doppelanalyse vorzuziehen, da begründete Zweifel bestehen, dass es sich nicht um denselben Eintrag handelt.
Correctness - Korrektheit Daten sollten die Realität so genau wie möglich widerspiegeln und Messdaten sollten einen möglichst geringen Fehlerwert aufweisen. Anomalien in Datensätzen können kritisch für Unternehmen sein, da sie zu voreiligen Schlussfolgerungen und Entscheidungen führen können. Um Anomalien zu beseitigen, müssen Ausreißer identifiziert werden. Ausreißer sind Werte, die erheblich vom erwarteten Wert abweichen und Durchschnittswerte sowie die Standardabweichung beeinflussen.
Timeliness - Aktualität Alle Datensätze müssen dem aktuellen Zustand der abgebildeten Realität entsprechen, um die Forschungsfrage korrekt zu beantworten. Veraltete Daten können die Ergebnisse stark negativ beeinflussen. Z.B können Modelle für maschinelles Lernen, die auf alten Datensätzen trainiert wurden, fehlerhafte Ergebnisse liefern oder zu falschen Schlussfolgerungen führen. Zur Messung der Aktualität kann eine Stichprobe von „goldenen Datensätzen“ verwendet werden, für die die aktuellen Werte bekannt sind.
Accuracy - Genauigkeit Genauigkeit: Datengenauigkeit ist ein wesentliches Merkmal der Datenqualität und bezieht sich darauf, dass Werte für ein bestimmtes Objekt im richtigen Format und in der richtigen Größe abgebildet werden. Diese Metrik betont die Korrektheit und Konsistenz der Daten, um Mehrdeutigkeit zu vermeiden. Genauigkeit umfasst Aspekte wie die Nachkommastellen von Dezimalzahlen oder die korrekte Schreibweise von Namen und Adressen. Sie kann durch Ground Truth oder alternative Datenerfassungen bestimmt und durch den Standardfehler beschrieben werden.
Consistency - Konsistenz Ein Datensatz darf keine Widersprüche in sich selbst oder mit anderen Datensätzen aufweisen. Daten sind inkonsistent, wenn verschiedene gültige Zustände nicht miteinander vereinbar sind. Konsistenz misst, ob zwei Datenwerte aus verschiedenen Datensätzen nicht im Konflikt stehen. Der Prozentsatz der übereinstimmenden Werte in verschiedenen Datensätzen ist eine gängige Datenqualitätskennzahl. Konsistenz bezieht sich in erster Linie auf die Verwendung von Daten durch verschiedene Benutzer. Beispiele für konsistente Daten beziehen sich in der Regel auf Datenformate und Datentypen, die durchgängig identisch sein sollten, um ein bestimmtes Niveau an Datenqualität zu gewährleisten. Inkonsistenzen können durch zeitliche Veränderungen oder Variablen wie Jahrgänge, Einheiten, Genauigkeit, Vollständigkeit und Ein-/Ausschlussarten entstehen.
Freedom from redundancy - Freiheit von Redundanz Es ist wichtig, doppelte Daten zu erkennen, was äußerst schwierig sein kann. Bei numerischen Messdaten ist es fast unmöglich, doppelte Nummern zu erkennen. Daher ist es besser, komplette Datenreihen zu vergleichen und einzeln zu entscheiden, ob es sich um eine doppelte Aufzeichnung handelt.
Relevance - Relevanz Die Relevanz der Datenqualität bezieht sich auf die Nützlichkeit der erfassten Daten und darauf, ob diese Daten für die weitere Verarbeitung benötigt werden. Das Konzept der „Relevanz“ kann jedoch je nach dem spezifischen Kontext und den Anforderungen Ihrer Aufgabe variieren. Beispielsweise kann ein Datensatz auf ein Kriterium, d.h. ein Wort oder einen numerischen Wert, untersucht werden. Wenn der Datensatz das Kriterium enthält, wird er als relevant eingestuft.
Uniformity - Einheitlichkeit Die Informationen eines Datensatzes müssen auf einheitliche Weise strukturiert sein. Daten desselben Typs sollten auch die gleichen Dimensionen haben.Einheitlichkeit ist daher spezifisch für Metriken und Maßeinheiten und ist besonders wichtig, wenn die Daten aus unterschiedlichen Quellen stammen.
Reliability - Zuverlässigkeit Die Zuverlässigkeit der Daten bezieht sich auf die Herkunft der Daten und die Vertrauenswürdigkeit der Quelle sowie auf intrinsische Qualitätsmerkmale wie Vollständigkeit, Genauigkeit und Redundanzfreiheit. Sie ist eine Zusammenfassung dieser Qualitätsmerkmale und kann nur indirekt bestimmt werden. Die Zuverlässigkeit sollte vom Forscher im Vorfeld klar definiert werden, oft als Kombination aus Genauigkeit, Vollständigkeit und Konsistenz, wobei die Gewichtung je nach Bedarf des jeweiligen Forschers variiert.
Informationen zum Entstehungskontext des Datensatzes sind von entscheidender Bedeutung, um den Datensatz nachnutzen zu können. Datenprovinienz* findet sich meist in einer separaten Datei (README) oder in den Metadaten* (festes Schema).
Checkliste dazu:
Titel: Name des Datenmaterials oder Forschungsprojektes, in dessen Rahmen die Daten generiert wurden
Autor/Ersterheber: Als Datenerheber können sowohl einzelne Person(-en) als auch ihre arbeitgebende(-n) Institution(-en) angegeben werden. Zur korrekten und eindeutigen Zuordnung eines Namens zu einer Person oder Institution werden in der Regel Normdaten aber auch persistente Identifikatoren (bspw. OrcID) eingesetzt.
Strategien der Datenerhebung: Es kann sich dabei entweder um die Verarbeitung und/oder Interpretation von bereits existierendem (Sekundärdatenerhebung) Datenmaterial handeln.
*„Datenprovenienz beantwortet die Fragen, warum und wie die Daten produziert wurden, wo, wann und von wem" aus Erklärt! Daten-Provenienz
*Mehr zu Datendokumentation und zu Metadaten finden Sie im separaten Lernmodul "Metadaten"!
zeitliche Einordnung: Angaben zu Zeiträumen, die mit den Daten in Verbindung stehen. Dazu gehören unter anderem der Zeitraum der Datenerhebung, die Mess- und Beobachtungszeit, Publikationsdatum oder auch der Projektbeginn und das Projektende.
Ort: Bezug zu einem physischen Ort (zum Beispiel abgebildeter Raum) oder einer räumlichen Abdeckung (zum Beispiel Ort der Entstehung). Zur Genauigkeit von Ortsangaben werden gewöhnlich Normdaten verwendet.
Referenzierung: Verweise auf andere Ressourcen (auch Messgeräte und Instrumente), mit denen die Daten in Verbindung stehen. Hierzu zählen unter anderem Angaben zur zugrunde liegenden Literatur, zu Rohdaten oder zugehörigen wissenschaftlichen Publikationen (zum Beispiel Artikel, Dissertation). Eine eindeutige Referenzierung erfolgt in der Regel mithilfe von persistenten Identifikatoren (PIDs).
*Mehr zu passenden Datenformaten finden Sie im separaten Lernmodul "Datenformate"!
Für eine langfristige Nutzung eignen sich insbesondere vertrauenswürdige Dateiformate wie z.B.
Tagged Image File Formaz (TIFF, TIF) für Bilder
Plain text document (TXT, ASC) für Dokumente
Portable Document Format/A (PDF/A) für Dokumente
Waveform Audio File Format (WAV) für Audiodateien
Extensible Markup Language (XML) für Dokumente
Software-Programme und Dateiformate sind miteinander eng verknüpft. Die meisten Software-Programme können nur eine begrenzte Anzahl von Formaten öffnen und bearbeiten.
Wenn die Möglichkeiten, der Ihnen zur Verfügung stehenden Programme zum Interpretieren der aufgefundenen Dateiformate nicht ausreichen, müssen Sie ein Alternativprogramm finden.
Dieses Beispiel aus dem Training "Datenformate" verdeutlicht die Probleme und Folgen, die veraltete Dateiformate verursachen können.
Abhängig von der Form, in der die Daten erfasst wurden, können diese trotz vorliegender passender Software nicht nachnutzbar sein.
Beispielweise lassen sich einzelne Inhalte einer, mithilfe von Microsoft Word erstellten, Tabelle nur schwer neu sortieren.
Daher empfiehlt sich die Konvertierung der Word-Tabelle in eine strukturierte EXCEL-Tabelle, deren Inhalte sich gruppieren und zusammenfassen lassen.
Die Übertragung der Daten ist meist nur manuell möglich (zum Beispiel durch das Kopieren mit Steuerungstaste + C / Steuerungstaste + V).
Erfordert die Beschaffung von Software oder die Überführung der Daten in eine den projektspezifischen Bedürfnissen angepasste Form einen hohen Aufwand?
In solchen Fällen gehen Sie wie folgt vor:
If you wish to re-use these documents, please select refer to our license.
To repurpose materials from this GitLab, we recommend the following for full attribution:
This content was re-used from the NFDI4Ing Education GitLab under a Creative Commons Attribution 4.0 International License (CC BY 4.0). The re-used materials can be found under: https://git.rwth-aachen.de/nfdi4ing/education/education-pages/main
If it is not possible to list the full names, please use the following link:
https://git.rwth-aachen.de/nfdi4ing/education/education-pages/main/-/blob/master/LICENSE
Further information on licences and the re-use of the materials provided here can be found [here].(https://git.rwth-aachen.de/groups/nfdi4ing/education/-/wikis/Lizenzen) (german).
Diese Webseite verwendet einen externen Zähler, um die Anzahl der Webseitenaufrufe zu erfassen. Dafür wird ein Java-Script von einer externe Webseite geladen. Der Server von besucherzaehler-kostenlos.de speichert die IP-Adresse des Zugriffs anonymisiert und zeitlich begrenzt in einer LOG-Datei ab. Diese wird regelmäßig unwiderruflich gelöscht.
Um die korrekte Funktionsweise des Zählers zu gewährleisten, speichert der Besucherzähler zudem einen sogenannten Session-Cookie auf dem Computer des Besuchers ab. Dieser wird in der Regel vom Browser gelöscht, sobald er geschlossen wird. In diesem Cookie werden keine persönlichen Informationen gespeichert. Er enthält lediglich die Information der aufgerufenen Domain, sowie einen boolschen Tag (true/false), um den Besucher als bereits gezählt zu markieren.
Es werden auch darüberhinaus keine persönlichen oder personenbezogenen Daten vom Besucherzähler erhoben. Eine Nachverfolgung oder Zuordnung der Zugriffe ist zu keiner Zeit möglich. Ein besonderer Dank geht an www.finanziero.de, durch dessen Unterstützung dieser kostenlose Service erst möglich gemacht wird.