Plany zarządzania danymi badawczymi

Plan zarządzania danymi (Data Management Plan – DMP) określa, w jaki sposób mają być zarządzane dane badawcze powstałe w trakcie realizacji projektu badawczego, zarówno w czasie jego trwania, jak i po zakończeniu.

W 2019 r. do wniosku o dofinansowanie projektów badawczych NCN wprowadził załącznik – plan zarządzania danymi badawczymi. Jest to obecnie obowiązkowy element wniosku. Niektórzy fundatorzy badań wymagają od swoich grantobiorców udostępnienia DMP w ramach wniosku o finansowanie lub już po zapewnieniu finansowania. Podobnie jest z projektami finansowanymi ze środków UE – one także wymagają przygotowania DMP.

Przygotowany w początkowym etapie i regularne aktualizowany przez cały cykl badawczy DMP umożliwia uporządkowanie działań w obrębie pracy z danymi bez względu na rodzaj projektu. Pozwala odpowiednio wcześnie zadbać o to, aby otrzymane na koniec projektu wyniki (w tym dane badawcze) były tak otwarte i FAIR (findable, accessible, interoperable, reusable), jak to tylko możliwe.

Od czego zacząć?

Plan zarządzania danymi obejmuje różne etapy działań naukowych i jest punktem wyjścia do gromadzenia lub tworzenia danych, doboru oprogramowania, metodologii czy uzgodnienia kwestii własności intelektualnej w realizowanym projekcie.

Istnieją wzory i narzędzia ułatwiające opracowanie takiego dokumentu:

Sam plan może być mniej lub bardziej szczegółowy i może ulegać zmianie w toku realizacji.

Tworząc plan zarzadzania danymi badawczymi, należy zadać sobie pytania:

  • Jakie dane będą tworzone lub gromadzone? W jaki sposób będą one dokumentowane?
  • Jakie ewentualne wymogi etyczne lub prawne mają zastosowanie do tych wyników?
  • W jaki sposób dane będą porządkowane, przechowywane, zabezpieczane i udostępniane? Jakie są wymogi, aby to zrobić?
  • Kto będzie odpowiedzialny za plan zarządzania danymi badawczymi?

Szczególnie ważne jest zwrócenie uwagi na prawa własności danych, wymogi instytucji finansującej, a jeśli działanie jest realizowane we współpracy – zapisy umów partnerskich. Należy też mieć na uwadze kwestie takie jak konieczność potencjalnej anonimizacji danych wrażliwych czy tworzenie kopii zapasowych i odpowiednie zabezpieczenie zgromadzonych danych.

CINT oferuje możliwość indywidualnych i grupowych konsultacji dotyczących tworzenia planów zarządzania danymi. Więcej informacji w zakładce Kontakt.

Wzór DMP według Science Europe

Poniżej znajduje się wzór DMP mający zastosowanie w projektach finansowanych ze środków UE. Informacje zawarte w kolejnych sekcjach mogą stanowić podpowiedź w trakcie tworzenia własnego planu.

1. ZBIERANIE DANYCH LUB PONOWNE UŻYCIE ISTNIEJĄCYCH DANYCH

JAK BĘDĄ ZBIERANE NOWE DANE W TRAKCIE REALIZACJI PROJEKTU NAUKOWEGO?

JAK ISTNIEJĄCE DANE NAUKOWE ZOSTANĄ PONOWNIE WYKORZYSTANE?

Proszę opisać, jaka metodologia lub oprogramowanie zostanie wykorzystane, jeśli zostaną zebrane/wytworzone nowe dane. Proszę wyjaśnić, jak będzie udokumentowane pochodzenie danych. Należy podać wszelkie ograniczenia dotyczące ponownego wykorzystania istniejących danych, jeśli takowe istnieją. Jeśli rozważano ponowne użycie istniejącego źródła danych, ale koncepcję tę odrzucono, należy podać powody tej decyzji.

JAKIE DANE ZOSTANĄ ZEBRANE LUB WYPRODUKOWANE?

Proszę podać szczegóły dotyczące rodzaju danych (np. bazy danych, arkusze kalkulacyjne, dokumenty, obrazy, pliki audio, wideo itp.) i format danych. Należy uzasadnić użycie konkretnych formatów (mogą one wynikać z doświadczenia pracownika, preferencji dla otwartych formatów, konieczności uwzględnienia standardów akceptowanych przez repozytoria danych, szeroko rozpowszechnione wykorzystanie formatów w konkretnej społeczności naukowej lub stosowane oprogramowanie czy konkretny sprzęt naukowy). Proszę podać szczegóły dotyczące przewidywanych woluminów danych. Należy wybierać otwarte i standardowe formaty, ponieważ ułatwiają one udostępnianie i ponowne wykorzystanie danych (wiele repozytoriów podaje listy preferowanych formatów).

2. DOKUMENTACJA I JAKOŚĆ DANYCH

JAKIE METADANE ZOSTANĄ OPISANE I JAK BĘDZIE PRZEPROWADZONY PROCES DOKUMENTACJI?

Proszę wskazać, jakie metadane zostaną dostarczone w wyniku realizacji projektu i jakie standardy zostaną zastosowane (np. DDI, TEI, EML, MARC, CMDI). Proszę opisać sposób, w jaki będzie się zarządzać danymi podczas realizacji projektu (np. ustalenie konwencji zapisu, kontroli wersji i struktury folderów). Należy się zastanowić, jaka inna dokumentacja jest potrzebna, aby umożliwić ponowne użycie danych, np. informacje na temat metodologii gromadzenia danych analitycznych czy informacje o procedurach, definicje zmiennych czy jednostek pomiarowych. Proszę podać, jak będą zbierane informacje i gdzie zostaną zapisane (np. w bazie danych wraz z linkami do poszczególnych elementów, jako pliki tekstowe typu readme, w formie nagłówków plików, książek kodów lub zeszytów laboratoryjnych). Jeśli są dostępne, należy używać standardów metadanych konkretnych społeczności naukowych. Proszę pamiętać, że spójne, dobrze uporządkowane dane badawcze będą łatwiejsze do znalezienia, zrozumienia i ponownego użycia!

JAKIE ŚRODKI KONTROLI JAKOŚCI DANYCH ZOSTANĄ ZASTOSOWANE?

Proszę opisać, w jaki sposób będzie kontrolowana i udokumentowana spójność i jakość procesu gromadzenia danych, który obejmuje: kalibrację, powtarzanie poboru próbek lub pomiarów, znormalizowany pobór danych, sprawdzanie poprawności wprowadzania danych, wzajemną ocena (peer-review) danych lub przedstawienie zgodne z słownikami kontrolowanymi (controlled vocabularies).

3. PRZECHOWYWANIE DANYCH I TWORZENIE KOPII ZAPASOWYCH DANYCH PODCZAS PROWADZENIA BADAŃ NAUKOWYCH

JAKIE DANE I METADANE SĄ PRZECHOWYWANE I JAKIE BĘDĄ ZAPISYWANE W FORMIE KOPII ZAPASOWEJ PODCZAS PROWADZENIA BADAŃ NAUKOWYCH?

Proszę opisać, gdzie będą przechowywane dane i kopie zapasowe podczas prowadzonych prac badawczych i jak często będzie wykonywana kopia zapasowa. Zaleca się przechowywanie danych w co najmniej dwóch osobnych lokalizacjach. W pierwszej kolejności należy preferować zastosowanie sprawdzonego systemu magazynowania danych, z automatyczną kopią zapasową. Nie zaleca się przechowywania danych na laptopach, niezależnych/automatycznych dyskach twardych lub zewnętrznych urządzeniach pamięci masowej, takich jak pamięci USB.

W JAKI SPOSÓB BĘDZIE ZAGWARANTOWANE BEZPIECZEŃSTWO DANYCH I OCHRONA WRAŻLIWYCH DANYCH PODCZAS BADAŃ?

Proszę opisać, w jaki sposób dane zostaną odzyskane w przypadku niespodziewanego zdarzenia. Proszę podać, kto będzie miał dostęp do danych podczas badań i jak ten dostęp będzie kontrolowany, szczególnie podczas współpracy z partnerami. Należy zwrócić szczególną uwagę na ochronę danych, jeśli są one wrażliwe i zawierają np.: dane osobowe, informacje wrażliwe politycznie lub tajemnice handlowe. Poleca się opisanie głównych zagrożeń i sposobów zarządzania ryzykiem. Należy wyjaśnić, które polityki ochrony danych znajdują zastosowanie w takich sytuacjach.

4. WYMOGI PRAWNE I ETYCZNE ORAZ KODEKSY POSTĘPOWANIA

JEŚLI PRZETWARZANE SĄ DANE OSOBOWE, W JAKI SPOSÓB ZAPEWNIONA JEST ZGODNOŚĆ Z KRAJOWYM I MIEDZYNARODOWYM USTAWODAWSTWEM W TYM ZAKRESIE?

Należy się upewnić, że w przypadku danych osobowych występuje zgodność z obowiązującymi przepisami dotyczącymi ochrony takich danych (np. RODO). Proszę odpowiedzieć na pytania:

Czy uzyskano świadomą zgodę na przechowywanie i/lub udostępnianie danych osobowych?

Czy istnieje procedura dostępu dla upoważnionych użytkowników danych osobowych?

Należy rozważyć zasadność anonimizacji danych osobowych dla ich zachowania i/lub udostępniania lub zasadność pseudonimizacji danych osobowych. Należy rozważyć wprowadzenie szyfrowania, które jest postrzegane jako szczególny przypadek pseudonimizacji (klucz szyfrujący musi być przechowywany osobno od danych, np.: przez zaufaną stronę trzecią).

JAKIE USTAWODAWSTWO MA ZASTOSOWANIE? JAKIE SĄ INNE PRAWNE BĄDŹ FORMALNE ZAGADNIENIA (np. ZARZĄDZANIE PRAWAMI WŁASNOŚCI INTELEKTUALNEJ)?

Proszę podać, kto będzie właścicielem danych i kto będzie miał prawo kontrolować dostęp. Jakie będą obowiązywać warunki dostępu do danych? Czy dane będą jawne, dostępne, czy będą ograniczenia w dostępie do nich? Które dane udostępniane będą w ograniczonym zakresie? Należy rozważyć wykorzystanie licencjonowania dostępu do danych i ponownego ich użycia.

W sytuacji prowadzenia projektów w partnerstwie z innymi podmiotami proszę opisać kwestie związane z prawami kontroli dostępu do danych dla partnerów projektu. Należy wskazać, czy istnieje związek z prawami własności intelektualnej i czy istnieje ryzyko naruszeń. Jeśli tak, należy wyjaśnić, jak zostanie potraktowana ta problematyka (np. czy dane gromadzone są w bazach danych podlegających ochronie?). Należy wskazać, czy istnieją jakieś ograniczenia w sprawie ponownego wykorzystania danych stron trzecich. Należy pamiętać o uwzględnieniu kwestii związanych z prawami kontroli dostępu do danych dla partnerów projektu i współtwórstwa przez wielu właścicieli danych w umowie konsorcjum danego projektu.

JAKIE PROBLEMY ETYCZNE MOGĄ WYSTĘPOWAĆ I JAKIE ZAPISY KODEKSÓW POSTĘPOWANIA BĘDĄ BRANE POD UWAGĘ?

Proszę opisać, czy i w jaki sposób problemy etyczne mogą mieć wpływ na przechowywanie danych i ich przekazywanie czy udostępnianie, kto może korzystać z danych oraz jak długo są one przechowywane. Należy wskazać świadomość istnienia tego aspektu zarządzania danymi i zaprezentować odpowiednie rozwiązania w tym zakresie. Należy przestrzegać krajowych i międzynarodowych kodeksów postępowania i instytucjonalnych wytycznych w zakresie etyki oraz weryfikować, czy dla zbierania i gromadzenia danych w trakcie realizacji projektu naukowego wymagana jest ocena etyczna (np. komisji etycznej).

5. UDOSTĘPNIANIE DANYCH I ICH DŁUGOTERMINOWA OCHRONA

JAK I KIEDY DANE BĘDĄ UDOSTEPNIANE? JAKIE SĄ OGRANICZENIA W UDOSTĘPNIANIU DANYCH LUB EWENTUALNE POWODY OBOSTRZEŃ/OGRANICZEŃ?

Proszę podać, w jaki sposób dane będą wykrywane i udostępniane (np. przez umieszczenie ich w wiarygodnym repozytorium danych, indeksowanie w katalogu, korzystanie z usługi zabezpieczającej dane, przez bezpośrednią obsługę zapytań dotyczących danych lub wykorzystanie innego mechanizmu). Proszę przedstawić wstępny plan ochrony danych i podać informację o tym, jak długo dane będą zachowane. Należy również wyjaśnić, kiedy dane będą udostępnione i wskazać oczekiwany termin udostępnienia. Należy wyjaśnić, czy dane będą wykorzystywane wyłącznie przez twórców, a jeśli tak, to dlaczego i w jakim terminie. Istotne jest wskazanie, czy udostępnianie danych będzie przełożone lub ograniczone (np. by umożliwić publikację wyników naukowych czy ochronę własności intelektualnej). Należy wskazać, kto będzie mógł korzystać z danych. Jeśli konieczne jest ograniczenie dostępu do niektórych społeczności lub zastosowanie umowy regulującej udostępnianie danych, należy wyjaśnić powody takich decyzji. Należy opisać, jakie działania zostaną podjęte w celu przezwyciężenia lub zminimalizowania ograniczeń czy obostrzeń w tym zakresie.

JAK I GDZIE BĘDĄ PRZECHOWYWANE DANE ZACHOWANE DŁUGOTERMINOWO (np. W REPOZYTORIUM DANYCH LUB ARCHIWUM)?

Należy wskazać, które dane należy zatrzymać lub zniszczyć zgodnie z obowiązującymi wytwórców zobowiązaniami prawnymi. Należy wskazać, w jaki sposób zostanie podjęta decyzja o wyborze danych do zachowania oraz opisać dane, które będą zachowywane długoterminowo. Należy zaprezentować przewidywalne zastosowania naukowe danych (i/lub ich potencjalnych użytkowników). Należy wskazać, gdzie dane zostaną zdeponowane. Jeśli nie zaproponowano istniejącego repozytorium, należy wskazać w planie zarządzania danymi, iż danymi można skutecznie zarządzać poza okresem realizacji czy trwałości projektu. Zaleca się wykazanie, że zostały sprawdzone zasady i procedury dotyczące repozytoriów (w tym wszelkie standardy metadanych oraz konieczność ponoszenia kosztów).

JAKIE METODY LUB NARZĘDZIA OPROGRAMOWANIA SĄ POTRZEBNE DO UZYSKANIA DOSTĘPU I KORZYSTANIA Z DANYCH?

Należy wskazać, czy potencjalni użytkownicy potrzebują określonych narzędzi do dostępu i (ponownego) wykorzystania danych. Należy zastanowić się nad trwałością oprogramowania potrzebnego do uzyskania dostępu do danych. Proszę podać, czy dane będą udostępniane za pośrednictwem repozytorium, bezpośredniej usługi zapytań czy zostanie zastosowany inny mechanizm.

JAK BĘDĄ PRZYPISANE DO KAŻDEGO ZESTAWU DANYCH WYJĄTKOWE I TRWAŁE IDENTYFIKATORY (TAKIE JAK CYFROWY IDENTYFIKATOR OBIEKTU (DOI))?

Proszę opisać, w jaki sposób dane mogą zostać ponownie wykorzystane w innych kontekstach. Powinny zostać zastosowane trwałe identyfikatory, aby dane mogły być wiarygodne i skutecznie zlokalizowane i aby umożliwić łatwe odniesienia do nich. Stosowanie trwałych identyfikatorów pomaga również śledzić cytowania i ponowne użycie danych. Należy wskazać, czy zapewniona będzie trwała identyfikacja danych. Zazwyczaj wiarygodne, długoterminowe repozytoria zapewniają użycie trwałych identyfikatorów.

6. ODPOWIEDZIALNOŚĆ W ZAKRESIE ZARZĄDZANIA DANYMI ORAZ ZASOBY POTRZEBNE DO EFEKTYWNEGO ZARZĄDZANIA DANYMI

KTO (np. FUNKCJA, STANOWISKO I INSTYTUCJA) BĘDZIE ODPOWIEDZIALNY ZA ZARZĄDZANIE DANYMI (DATA STEWARD)?

Zaleca się, aby określić funkcje i obowiązki związane z procesem zarządzania danymi (gromadzenie, dbałość o jakość danych, tworzenie metadanych, przechowywanie i tworzenie kopii zapasowych, archiwizacja i udostępnianie danych). Jeśli to możliwe, pożądane jest podanie informacji o wyborze konkretnej osoby odpowiedzialnej za zarządzanie danymi naukowymi. W przypadku projektów dotyczących współpracy należy objaśnić partnerom ich obowiązki w zakresie zarządzania danymi. Należy wskazać, kto jest odpowiedzialny za wdrożenie DMP, zapewni jego realizację oraz, w razie potrzeby, uaktualnienie. Należy rozważyć i zaplanować regularne aktualizacje DMP.

JAKIE ZASOBY (np. FINANSOWE I CZASOWE) BĘDĄ PRZEZNACZONE NA PROCES ZARZĄDZNIA DANYMI, ŻE DANE BĘDĄ FAIR (DO ZNALEZIENIA, DOSTĘPNE, INTEROPERACYJNE, WIELOKROTNEGO UŻYTKU)?

Należy wyjaśnić, w jaki sposób zagwarantowano niezbędne zasoby (np. czas pracy personelu poświęcony na przygotowanie, udostępnianie, ochronę danych). Należy oszacować i uzasadnić konieczność uwzględnienia kosztów związanych z wszelkimi zasobami niezbędnymi do dostarczenia danych. Mogą to być koszty przechowywania, sprzętu, czasu pracy personelu, koszty przygotowania danych, opłaty za przygotowanie danych do złożenia w repozytorium, jak i koszty samego repozytorium. Należy wskazać, czy dodatkowe zasoby będą potrzebne, by przygotować dane do złożenia lub do pokrycia opłat związanych z wykorzystaniem repozytoriów danych. Jeśli tak, należy wyjaśnić, jakie to będą koszty i w jaki sposób zostaną pokryte.

źródło: Pawłowska Maria M., Wachowicz Marta E. (2020). Wprowadzenie do zarządzania danymi naukowymi. Wydawnictwo Difin

Przydatne narzędzia:

  • DMPTool – narzędzie online służące tworzeniu planów zarządzania danymi, zawiera przykłady planów.
  • DMPonline – kreator planów zarządzania danymi badawczymi.
  • ARGOS – zawiera dwie funkcjonalności: szablony PZD oraz opisy zestawów danych
  • Lista kontrolna DCC (Checklist for a Data Management Plan) – pozwala szybko określić, jakich informacji może brakować w przygotowywanym PZD.

Zachęcamy też do skorzystania ze szkoleń dla pracowników i doktorantów PL znajdujących się w ofercie CINT.

Kontakt
W przypadku pytań dotyczących planów zarządzania i deponowania danych badawczych zachęcamy do kontaktu z Ośrodkiem Analiz Bibliometrycznych:

e-mail: oab@pollub.pl
tel.: (81) 538-46-86
adres:
Ośrodek Analiz Bibliometrycznych
Centrum Innowacji i Zaawansowanych Technologii (Rdzewiak)
ul. Nadbystrzycka 36C, pokój 309D

fundusze.png

Projekt współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego, Program Operacyjny Wiedza Edukacja Rozwój 2014-2020 "PL2022 - Zintegrowany Program Rozwoju Politechniki LubelskiejPOWR.03.05.00-00-Z036/17