Manejo de datos sensibles en Open Science: desafíos y respuestas para investigadores

El crecimiento de la Open Science en Europa ha transformado la forma en que se comparten, analizan y reutilizan los datos de investigación. En este marco, la gestión de datos sensibles se ha vuelto un aspecto fundamental para aquellos que manejan información personal, clínica, socioeconómica o empresarial. La necesidad de encontrar un equilibrio entre la apertura, la reproducibilidad y la protección de derechos fundamentales se ha intensificado con la implementación del Reglamento General de Protección de Datos (RGPD) y las exigencias de programas como Horizon Europe. Este marco exige el diseño de proyectos que aseguren transparencia y reutilización, sin comprometer la privacidad ni la seguridad jurídica.

Los datos sensibles en el contexto de la ciencia abierta

En Open Science, se consideran sensibles los datos personales (especialmente los relacionados con la salud, genómicos o que involucran a grupos vulnerables) y aquellos cuyo uso inapropiado podría resultar en discriminación, daño a la reputación o pérdidas económicas. También se incluyen datos confidenciales de empresas y organismos públicos, así como información estratégica sujeta a acuerdos de confidencialidad.

El paradigma europeo actual no promueve una apertura sin límites. La tendencia predominante, adoptada por Horizon Europe y diversas agencias de financiación, es “tan abierto como sea posible, tan cerrado como sea necesario”. Esto significa publicar metadatos abiertos siempre que sea posible, proporcionar información derivada o agregada y, cuando el riesgo lo requiera, permitir acceso controlado a través de comités de revisión o acuerdos específicos. Así, incluso cuando los datos no puedan hacerse públicos, pueden seguir siendo FAIR si están correctamente descritos y accesibles bajo condiciones claras.

Normativa y principios FAIR

El RGPD establece las condiciones legales para el tratamiento de datos personales, incluyendo bases legítimas de tratamiento, minimización, seudonimización, anonimización y evaluaciones de impacto en protección de datos cuando hay un riesgo significativo. Las legislaciones nacionales y las directrices institucionales complementan estas obligaciones con requisitos éticos adicionales.

Los principios FAIR —que exigen que los datos sean localizables, accesibles, interoperables y reutilizables— no obligan a una apertura total. Permiten que conjuntos de datos sensibles estén disponibles a través de procedimientos de solicitud, repositorios con control de acceso o entornos seguros. Esto facilita que la comunidad investigadora cumpla con los mandatos de transparencia sin infringir el marco legal.

Desafíos actuales para la comunidad investigadora

Uno de los principales retos es el riesgo de re-identificación. A pesar de que se eliminen identificadores directos, la combinación de variables puede permitir inferir la identidad de los participantes, especialmente en muestras pequeñas o en investigaciones con grupos específicos.

La tensión entre reproducibilidad y confidencialidad también genera dilemas prácticos. Las revistas científicas y financiadores exigen acceso a datos y código, mientras que las oficinas de protección de datos y los comités éticos solicitan restricciones más severas. Esta dualidad puede llevar a decisiones apresuradas: desde publicar datos insuficientemente anonimizados hasta cerrar completamente el acceso, limitando el valor científico del trabajo.

Además, se presentan la falta de formación especializada, la complejidad de redactar consentimientos informados que consideren la reutilización futura y la fragmentación de infraestructuras seguras entre países e instituciones.

Planificación desde el inicio del proyecto

La gestión de datos sensibles debe ser planificada desde el principio. Los Data Management Plans (DMP), requeridos por Horizon Europe, permiten identificar qué datos se generarán, qué nivel de sensibilidad tendrán y qué condiciones se aplicarán para su acceso, almacenamiento y reutilización.

Los DMP más sólidos reflejan:

  • Clasificación anticipada de datos según sensibilidad y nivel de apertura previsto.
  • Estrategias de consentimiento informado que expliquen la posible reutilización y condiciones de acceso.
  • Medidas técnicas y organizativas: control de acceso, encriptación, almacenamiento seguro y auditoría de accesos.
  • Estrategias para publicar metadatos abiertos, incluso cuando los datos no puedan ser liberados.

Anonimización y seudonimización

Las técnicas avanzadas de anonimización incluyen la agregación de variables, la generalización de categorías o la perturbación estadística. En proyectos con datos especialmente sensibles, pueden emplearse métodos como la privacidad diferencial, aunque su uso requiere experiencia técnica.

La seudonimización —sustituir identificadores por códigos— sigue estando bajo el RGPD, ya que permite revertir el proceso si existe una clave. Por esta razón, suele utilizarse para análisis internos o entornos de acceso restringido. En el contexto de open science, es común combinar conjuntos de datos anonimizados de manera robusta para compartir abiertamente, dejando la versión seudonimizada en repositorios con acceso controlado.

Entornos de confianza y el creciente papel de EOSC

Uno de los avances más significativos en Europa es la consolidación de los Trusted Research Environments (TRE), que se están integrando progresivamente en la European Open Science Cloud (EOSC). Estos entornos permiten analizar datos sensibles sin necesidad de transferirlos, aplicando un modelo de “llevar el algoritmo al dato”. Su uso se está extendiendo en proyectos europeos enfocados en datos biomédicos, observación de la Tierra o ciencias sociales.

Iniciativas como EOSC ENTRUST buscan armonizar estos entornos a nivel europeo mediante un marco común de interoperabilidad técnica y legal. A su vez, proyectos como SIESTA trabajan en herramientas para anonimización, control de acceso y análisis reproducible en la nube, facilitando que instituciones más pequeñas accedan a infraestructuras de alta seguridad.

Herramientas disponibles para investigadores

Además de los repositorios institucionales con opciones de acceso restringido, plataformas como el Open Science Framework permiten gestionar salidas derivadas de datos sensibles siguiendo principios FAIR. Algunas instituciones ofrecen catálogos de servicios de anonimización y asesoría especializada en protección de datos, así como plantillas de DMP adaptadas específicamente a contextos de datos sensibles.

La combinación de estos recursos contribuye a cumplir tres objetivos fundamentales: protección legal, apertura razonable y un uso más amplio de los resultados de investigación.

¿Deseas obtener más información sobre la gestión de datos sensibles en Open Science? Ponte en contacto con nosotros, y te asesoramos con todo detalle.

Contact us!

0 comentarios

Dejar un comentario

¿Quieres unirte a la conversación?
Siéntete libre de contribuir!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *