Eva Rodríguez /@evaou22
(20 de enero, 2014).- A mediados de 2013 bibliotecarios, científicos y empresas plantaron a la Comisión Europea (CE) en una reunión que pretendía abrir nuevos caminos en el uso de la minería de datos para la información científica. Este desplante se produjo porque entendieron que, sin una directiva de copyright que facilite el uso de esta técnica computacional en un contexto científico, no se va a ningún lado.
El problema reside en que para hacer minería de datos (TDM, por sus siglas en inglés), antes hay que copiar documentos científicos para después aprovechar su información. Las leyes de copyright de la CE no permiten hacer estas copias a no ser que se disponga de un permiso especial. La reunión de la CE pretendía establecer las condiciones de esas licencias para permitir la minería de datos.
La ciencia avanza a través del intercambio de datos, información y conocimientos. La tesis de la minería de datos se basa en que si enseñamos a las máquinas a leer y establecer relaciones, se puede explotar la información de forma mucho más eficaz. Esta técnica ya se utiliza, por ejemplo, en webs que comparan precios de hoteles o billetes de avión. Ahora podrá ayudar a los científicos a descifrar procesos que requieren la lectura de muchísimos artículos científicos.
“Al aplicarla en información académica, se pueden extraer datos de un montón de fuentes y establecer relaciones entre ellas. Esto permite hacer hallazgos que para un humano o son imposibles de establecer o le llevarían toda una vida”, explica a SINC Izaskun Lacunza, directora ejecutiva de la Liga de Bibliotecas Europeas de Investigación (LIBER), institución que lidera la rebelión.
A pesar de su complejidad, una minería de datos eficaz supondría establecer una velocidad de crucero en los avances científicos si no existieran las actuales restricciones.
“Decidimos abandonar el grupo de trabajo porque entendimos que la Comisión tenía unas miras muy cortas para una técnica que creemos que puede suponer una revolución científica y que merece una excepción a la ley decopyright. Se debe tomar una decisión al respecto de forma urgente. El derecho a leer material al que legalmente se tiene acceso debe incluir el derecho a hacer minería de datos. El copyright protege la expresión de las ideas, no los hechos y los datos que incluye la obra. La minería de datos extrae hechos y datos y genera nuevo conocimiento, en ningún caso sustituye o copia la obra original”, añade Lacunza.
En junio, revistas como Nature se hicieron eco de este polémico proceso que continúa abierto.
Desde LIBER piden que se haga una excepción que posibilite a científicos y empresas explotar la ingente cantidad de textos científicos. Según la experta, esta reforma supondría ganar en competitividad ante países como EE UU o Taiwán, que ya están haciendo minería de datos en ciencia con mayor protección legal que en Europa.
Asimismo, permitirá a los expertos rastrear entre los millones de artículos científicos información sobre sus líneas de investigación, para extraer datos o para seleccionar patrones como, por ejemplo, asociaciones entre genes y enfermedades.
Recogida de firmas y reacción de la Comisión
Tras salir del grupo, LIBER lideró una petición que han firmado universidades, agencias de investigación, científicos, asociaciones de medianas y pequeñas empresas, etc., pidiendo a la CE una nueva directiva.
La intención de la Comisión en principio era volver a licenciar la información, es decir, que se volviera a pagar a los editores de las revistas para poder hacer TDM –además de la convencional suscripción por leer–.
Fuentes de la CE consultadas por SINC aseguran que están evaluando la situación. “Sin embargo en el contexto de la revisión en curso de los derechos de autor, a nuestro entender, muy pocos países en el mundo tienen una excepción TDM específica en su legislación. Japón es uno de ellos”, afirman.
En este camino hacia el entendimiento, la Comisión Europea lanzaba en diciembre una consulta pública sobre dichas normas de derecho de autor en la UE, que incluía preguntas sobre cómo gestionar correctamente y de forma legal la TDM.
Por su parte, los firmantes de la carta enviada a la Comisión, entre los que se encuentra la Liga de Universidades de Investigación Europea (LERU) y el Consejo Superior de Investigaciones Científicas (CSIC), así como prácticamente todos los homólogos europeos de este último, creen que el derecho a leer es el derecho a hacer minería de datos, siempre que no vulnere la propiedad intelectual.
“Lo contrario creemos que es bloquear información que no ha lugar. La técnica en sí misma no fusila los textos, sino que establece relaciones. Es como un superlector. El hecho de que haya que hacer una copia es circunstancial”, añade Lakunza. Sin embargo, la incertidumbre legal es muy seria.
La gran paradoja: en EE UU sí, desde Europa no
“La gran cantidad de actividades de minería de datos que tienen lugar hoy en día se llevan a cabo ya sea bajo una licencia o sin la necesidad de ninguna autorización (o cualquier excepción) en los textos que están libremente disponibles en Internet”, argumenta la CE.
Pero la realidad es que los investigadores no saben qué hacer con el tema. Además, en EE UU existe una excepción a la ley de propiedad intelectual, el denominado fair use, es decir, un uso justo que permite determinadas explotaciones de la información siempre y cuando cumplas determinadas premisas.
Aquí surge la gran paradoja: Europa protege su contenido para hacer TDM, pero si el científico que quiere explotar los datos está localizado en EE UU sí puede utilizar esa información europea.
Por ello, algunas pequeñas y medianas empresas que se están arriesgando a hacer TDM sin protección legal, se plantean incluso irse a EE UU si las cosas se ponen feas.
En el Reino Unido ha habido un progreso hacia la introducción de una excepción al derecho de autor en TDM para fines no comerciales, lo que ha dado lugar a una propuesta de su Oficina de Propiedad Intelectual para un proyecto de ley en la materia, que ahora está bajo consideración.
La única institución en Europa dedicada íntegramente a la minería de datos es el Centro Nacional de Minería de Datos de la Universidad de Manchester (Reino Unido), que también firma la petición a la CE. Su subdirector, John McNaught, aboga incluso por su uso en el sector privado: “Si una compañía farmacéutica tenía acceso legal a obras con derecho de autor, ¿por qué no se les permite utilizar los resultados con el fin de, por ejemplo, producir un nuevo medicamento para salvar vidas? También están interesados en la minería de datos para uso comercial”.
Ahorro y crecimiento económico exponencial para la UE
En el Centro Nacional de Minería de Datos de la Universidad de Manchester utilizan dos técnicas para mejorar la eficiencia de los análisis. Han creado la herramienta NaCTeM, que presta servicios de minería de texto semántica a Europa PubMed Central, una fuente de información gratuita para los investigadores biomédicos y sanitarios. Esta institución ofrece acceso a unos 2,6 millones de artículos de texto, aunque solo alrededor de 570.000 son de libre acceso.
Emplean también la computación en nube, que permite distribuir múltiples tareas para procesar grandes colecciones e indexar los resultados.
“Hasta ahora hemos analizado alrededor de 81 millones de frases para producir un servicio llamado EvidenceFinder que genera preguntas sobre un tema, de forma automática, a partir de las cuestiones que un usuario ha reiterado de forma sucesiva”, explica el subdirector del centro.
Según los especialistas, Europa tiene el potencial de ser no solo competitivo, sino líder en TDM en el mundo. Un estudio en Reino Unido, encargado por el Consejo de Financiación de Educación Superior, demuestra el alto impacto económico, y el valor y los altos beneficios que la minería de datos proporcionaría a Europa si se aplicara la excepción a la ley.
“La evidencias reunidas en el informe muestran que existe un claro potencial en la minería para generar ganancias significativas en productividad, con beneficios tanto para el negocio del propio sector como para la economía en general. Una generalización de la TDM por parte de los científicos supondría una gran oportunidad para el Reino Unido, fomentando la innovación y el crecimiento a través de un valor adicional de la investigación pública”, dice el informe.
En este trabajo también se muestra la preocupación por las limitaciones actuales de la ley. “Hay un nuevo enigma: la intervención en el mercado de los derechos de autor –originalmente con intención de proteger la propiedad artística de los productores– que se está convirtiendo en sí mismo en una barrera para la nueva producción creativa y puede frenar nuevos descubrimientos para el conocimiento y la innovación”, lamentan.
La flexibilidad en la norma podría suponer el principio del fin de un negocio que los editores quieren proteger. Izaskun Lacunza, de LIBER, lo explica así: “Imagina que la TDM explota y comienza a ser una técnica muy utilizada por los investigadores, que generen ciencia basada en los datos que existen actualmente. Es lo que creemos que va a pasar. Pero para los editores la información es fuente de ingresos. Su pretensión es volver a licenciar el contenido a aquellas instituciones que quieran hacer minería de datos, aunque ya estén pagando por el acceso a esa información para sus investigadores”.
Nuevas profesiones con escasez de especialistas
John McNaught, subdirector del Centro Nacional de Minería de Datos de la Universidad de Manchester, subraya la importancia de formar nuevos profesionales que trabajen en esta revolucionaria disciplina. “La minería de datos depende de técnicas de procesamiento de lenguaje natural y, por lo tanto, de la tecnología del lenguaje. Hay una gran carencia de especialistas en estas dos áreas fundamentales”.
Un estudio realizado en 2011 encontró que tan solo en los EE UU hacían falta entre 140.000 y 190.000 profesionales con las habilidades necesarias hacer minería de datos.
La Alianza Europea de Tecnología Multilingüe (META-NET) concluyó que la falta de personal calificado en la actualidad es uno de los principales cuellos de botella para empresas y centros de investigación.