Analítica del Aprendizaje Conectado. Tarea 3. Desafíos para la investigación con Big Data

Introducción

Las ventajas de la Big Data desde el punto de vista de la investigación son amplias. Pero, una vez pasada la euforia de este nuevo sistema de análisis que ha permitido manejar y analizar volúmenes de información antes impensables, los investigadores se cuestionan qué inconvenientes y desventajas presenta. El reto, ahora que se han puesto de manifiesto o denunciado las limitaciones de este nuevo modelo, es que ofrezca resultados válidos de cara a una investigación de calidad, ahora que empiezan a hacerse notorias sus limitaciones y que, en muchos casos, se ha demostrado que no por poder realizar un análisis de datos a gran escala, este es más científico u objetivo. 

De la misma manera que el fordismo cambió todo el sistema de fabricación del momento, lo que supuso una revolución en la sociedad y en instituciones como la propia escuela, Big Data ha supuesto un giro en el pensamiento y en la investigación como señalaba Burkholder (1992). Esta nueva concepción de la información modifica el sistema de conocimiento, automatizándolo y haciendo prevalecer la cantidad de datos a analizar sobre la calidad del análisis. Por otra parte, Boyd y Crawdord (2011) muestran que “el mercado ve el Big Data como una oportunidad pura”.

Los números no hablan por sí solos

Frente a la tendencia inicial imperante de que con datos suficientes los números hablan por sí solos (Anderson, 2008), se alzan voces críticas como las de Berri (2011) que defiende que grandes patrones no explican por qué la gente hace lo que hace, estas grandes cantidades de información, para ser válidas, necesitan de la fuerza reguladora de la filosofía. Latour (2009) fija su atención en las limitaciones de investigar de forma automatizada, ya que esto puede llevar a conclusiones erróneas, "cambie los instrumentos y cambiará toda la teoría social que los acompaña", lo que plantea la cuestión de si verdad los avances en investigación con Big Data invalidan las metodologías anteriores, basadas en las teorías del comportamiento humano y abren la cuestión de a qué tipo de conocimiento nos lleva el análisis simple de ingentes cantidades de datos.

Como Boyd y Crawfor señalan, que haya una mayor cantidad de datos no garantiza la calidad de los mismos. Datos grandes y datos completos no son sinónimos. Los investigadores deben enfocar adecuadamente sus interpretaciones y tener en cuenta los límites de la información proporcionada por los grandes conjuntos de datos a los que se enfrentan. Los análisis de gran cantidad de datos de una plataforma como Twitter tampoco son rigurosos porque la muestra que hay en esta red social no es representativa de la sociedad. Ni todo el mundo tiene cuenta en Twitter, ni esta plataforma permite acceder a toda la información. Además, hay cuentas detrás de las cuales se encuentra un bot, o personas que gestionan múltiples cuentas. Los investigadores se encuentran frente a múltiples limitaciones que no se reconocen.

Que se tengan las herramientas para analizar una gran cantidad de datos no garantiza que estos estén correctamente analizados. Big Data facilita que muchos espacios sociales sean cuantificables pero, estos análisis, se están llevando a cabo de forma ética y correcta. "Para que la sociedad de la información funcione, debe haber un equilibrio entre la privacidad y el flujo de datos", apunta Elena Gil González en su obra Big data, privacidad y protección de datos, en la que alerta de los tres riesgos fundamentales que plantea este tipo de análisis: "el riesgo de caer en conclusiones erróneas que nadie revisa, el riesgo que para las personas pueda tener tomar decisiones automatizadas sin un sesgo humano y el riesgo para la privacidad de las personas."

En esta obra, se analiza también el error por azar del que alerta el estadístico Stanley Young (citado por Gil), quien denuncia "la tragedia de los grandes conjuntos de datos: cuantas más variables se estudian en un gran conjunto de datos, más son las correlaciones que pueden evidenciar una significación estadística espuria o falsa."  Es decir, que cuanta mayor cantidad de datos se tenga, mayor será la probabilidad de hallar en ellos relaciones ilusorias o erróneas. Según este estadístico, las correlaciones falsas crecen de forma exponencial con respecto al número de variables si se emplea el método Montecarlo para generar variables aleatorias. Es decir, que los datos pueden acabar engañando al propio analista. 

Diversos estudios concluyen que la correlación no implica, necesariamente causalidad, puesto que hay que contemplar factores que puedan depender del puro azar u otras variables que influyan en la relación y puedan generar una apariencia falsa de causa-efecto. Complicaciones que aumentan en el contexto Big Data debido al aumento del número de correlaciones que pueden darse. Por tanto, como señala Gil Gómez, "es necesario ser críticos con los resultados numéricos que vemos, siempre que sea posible, debemos buscar la causa o el mecanismo por el que se produce una relación entre sucesos y debemos exigir rigor científico en los resultados que arrojan los datos."

La interpretación de los datos, una variable fundamental

Todos los investigadores son intérpretes de datos. Lisa Gitelman (2011) explica que en cada investigación, cuando se trata de analizar y comprender hechos, todos los datos se vuelven interpretativos, la decisión misma de analizar unos factores y no otros es, en sí misma, una interpretación. Esto sucede en el análisis de datos de RRSS, cuando se decide qué atributos se analizarán y cuáles se ignorarán. Cada vez que se elige aplicar un filtro en una investigación, comienza la interpretación.

Los análisis de gran cantidad de datos de una plataforma como Twitter tampoco son rigurosos porque la muestra que hay en esta red social no es representativa de la sociedad. Ni todo el mundo tiene cuenta en Twitter, ni esta plataforma permite acceder a toda la información. Además, hay cuentas detrás de las cuales se encuentra un bot, o personas que gestionan múltiples cuentas. Los investigadores se encuentran frente a múltiples limitaciones que no se reconocen.

Datos grandes y datos completos no son sinónimos, de la misma manera que diversos conjuntos de datos, no tienen por qué ser equivalentes, aunque se les pueda someter a los mismos filtros de análisis. Los investigadores deben enfocar adecuadamente sus interpretaciones y tener en cuenta los límites de la información proporcionada por estos grandes conjuntos de datos que componen su muestra de análisis. Frente a Big Data, en investigación, cada vez se está reconociendo más el valor de los “pequeños datos" ya que, según lo que se esté investigando, se puede enfocar la investigación en un solo individuo, puesto que el tamaño de los datos debe adaptarse a la investigación que se va a realizar.

Ética, privacidad y Big Data

Para poder actuar de manera ética, los investigadores deben plantearse el uso que se le va a dar al gran conjunto de datos, de la misma manera que deben rendir cuentas a los sujetos que vayan a ser objeto de la investigación porque, que haya información publicada en redes sociales, no quiere decir que esta pueda ser usada con cualquier fin, o sacada de contexto. Cuando se trabaja con sujetos humanos, se deben seguir estándares profesionales específicos para proteger sus derechos y bienestar, sin embargo, cuando se trata de datos no sucede lo mismo.




Las preguntas sobre la verdad, el control y el poder están relacionadas con que los investigadores tienen herramientas y acceso a los datos, mientras que los usuarios, por lo general, no. Sus datos se crearon en relación a un contexto pero estos pueden ser descontextualizados en cualquier investigación. Además, muchos de estos usuarios, no darían permiso para que se usen sus datos en otros lugares,  ni son conscientes de que esa información está siendo recopilada para usos futuros que, por otra parte, desconocen.
Que unos datos se hayan hecho públicos no implica que se tenga permiso para utilizarlos y los investigadores de Big Data no establecen, en este sentido, una distinción entre estar en público y ser público.

Desde hace años, podemos observar como este tratamiento masivo de los datos influye en los cambios de los modelos de negocio. Pero, por otra parte, debemos observar cómo se hace negocio con nuestros datos, nada es gratis en Internet. Todos los servicios a los que los usuarios tenemos acceso, en realidad nos cobran un peaje que pagamos con nuestros datos. Boyd y Crawford señalan que la ética de la investigación no puede ser ignorada porque los datos sean accesibles, "los investigadores deben seguir preguntándose a sí mismos, ya sus colegas, sobre la ética de la recopilación, el análisis y la publicación de sus datos. 

Marina Bartual, abogada experta en Derecho Tecnológico, advierte de que aún no contamos con una legislación adecuada, ya que esta se desarrolla de forma paralela a los avances técnicos que supone el Big Data, con lo que la legislación se va viendo superada por la técnica por lo que "es necesario tutelar los derechos personales para que sean compatibles con la libre circulación de datos a nivel económico y hay que despojar al consentimiento de su sentido de acto formal para convertirlo en un acto de responsabilidad individual fruto de la tecnificación."

Las nuevas clases sociales

La tarea de recopilar datos siempre es costosa en tiempo y  recursos. En Big Data, tendrán siempre ventajas y podrán producir investigaciones más completas quienes tienen acceso a la información porque trabajan en la compañía a quién pertenecen esos datos o quienes puedan pagar por ellos. Esto produce una nueva brecha digital, que distingue entre quienes tienen los recursos materiales por un lado, y por otro quienes tienen los conocimientos adecuados para poder manejar estos datos, y quienes no poseen ninguna de las dos cosas. Derrida señala que “la democratización efectiva siempre puede medirse por este criterio esencial, la participación y el acceso al archivo, su constitución y su interpretación" (1996), con lo que, la Big Data crea nuevas clases sociales, como apunta Manovich (2011): los que crean los datos, los que tienen medios para recopilarlos y los que tienen experiencia para analizarlos.

A este último grupo privilegiado, pertenecen quienes tienen la capacidad para marcar las reglas sobre Big Data por lo que es fundamental cuestionarse cómo funciona esta nueva forma de investigar. Incluso, se puede percibir una brecha de género, ya que el perfil mayoritario de las profesiones TIC es masculino, con lo que encontramos diversos sesgos a tener en cuenta, en cuanto a los investigadores que tienen acceso a Big Data. 

Referencias bibliográficas

Bartual, M. (s.f.). Big data versus privacidad. DGE Bruxelles. Recuperado en: http://www.dge.es/component/content/article/106-experto-lopd/556-big-data-versus-privacidad-#

Boyd, D. & Crawford, K. (2011). Six Provocations for Big Data. A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. Recuperado en:  http://dx.doi.org/10.2139/ssrn.1926431

Colmenarejo, R. (2017). Ética aplicada a la gestión de datos masivos. Universidad Loyola Andalucía. 

Domínguez, D. (2018) Big Data, analítica del aprendizaje y educación basada en datos. Recuperado en: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3124369

Gil González, E. (2016). Big data, privacidad y protección de datos. Agencia Española de Protección de Datos. Recuperado en: https://www.aepd.es/media/premios/big-data.pdf

Rayón, A. (2016). La privacidad en la era del Big Data. Universidad de Deusto. Recuperado en: https://blogs.deusto.es/bigdata/la-privacidad-en-la-era-del-big-data/

Salgado, D. y Robles, J.M. (2017). El futuro del estudio de la brecha digital: el Big Data. Instituto Nacional de Estadística y Universidad Complutense de Madrid. Recuperado en: https://dialnet.unirioja.es/servlet/articulo?codigo=6371395

Comentarios