El mundo del big data tiene sus contraindicaciones. Una de ellas es el dirty data.
Cada vez son más las empresas que se ven desbordadas a la hora de recopilar, procesar y almacenar datos relacionados con el negocio.Como consecuencia, las compañías acaban guardando información incorrecta, incompleta, desactualizada o duplicada. Estos ‘datos sucios’ son una lacra que cuesta mucho dinero. [hde_related]
Según la firma española Hocelot, tecnológica especializada en la gestión de datos empresariales, la existencia del dirty data provoca cada año unas pérdidas de 321 millones de euros en nuestro país. Para llegar a esta conclusión, Hocelot aplica inteligencia artificial y tecnologías de analítica a información que obtiene de múltiples empresas, entidades e instituciones.
No hay muchos estudios a nivel mundial sobre la gravedad de este fenómeno. Según una encuesta de IBM en EEUU, el dirty data le cuesta a la economía 3.100 millones de dólares cada año. Además, en ese país más del 30% de los gestores no están seguros de la validez de los datos que utilizan para tomar decisiones comerciales clave. Es un drama en una economía donde los datos son claves y han sido definidos como “el petróleo del siglo XXI”.
El origen de los ‘datos sucios’
El origen de los llamados ‘datos sucios’ es muy variado. Pueden aparecer porque alguien se ha equivocado al introducirlos en el sistema. O porque han quedado obsoletos y nadie los ha actualizado, como, por ejemplo, un cambio de domicilio de un cliente. O bien porque han sido falsificados de forma intencionada con fines ilegales o delictivos en encuestas, formularios o solicitudes de prueba de un servicio.
Hocelot asegura que entre 2017 y 2019 la cantidad de dirty data creció un 57% en las bases de datos de las empresas españolas. También revela que el dato más falsificado es la edad, seguido por la localización y la dirección de email.
Los análisis realizados por esta compañía aseguran que en estos momentos el 8% de los españoles miente o aporta al menos un dato falso cuando se le solicitan datos personales en la red. Los análisis también demuestran los hombres mienten o se equivocan más que las mujeres. El 61% de los datos erróneos provienen de primeros, mientras que ellas son responsables del 39% restante.
Las consecuencias para las compañías
La existencia del dirty data es un problema muy serio. Contar con un dato fiable y actualizado es vital para las empresas que necesitan analizar el perfil de sus clientes para ofrecerles un producto personalizado. Es el caso de las aseguradoras, los bancos o las compañías telefónicas, por ejemplo. Sin embargo, el dirty data es un mal que afecta a cualquier compañía, desde aerolíneas a sites de ecommerce o tiendas de alimentación.
Arístides Figuera, responsable de Marketing y Comunicación de Hocelot, explica las consecuencias que esto tiene para las compañías. “Entre las más comunes podemos destacar la pérdida de imagen reputacional ante consumidores, así como un ineficaz seguimiento de clientes, lo que provoca reducciones de ingresos por parte de las compañías”.
Una empresa con los datos de usuario equivocados será una empresa que no conoce a su clientela. Y que, por lo tanto, estará perdida. El dirty data da lugar a la creación de servicios o productos que finalmente no cubren las necesidades de los usuarios, estrategias de marketing mal enfocadas o una comunicación poco asertiva.
El caso del turismo en España
En España, el turismo es el largo el sector que más aporta al empleo y al PIB. En concreto, casi tres millones de personas tienen una actividad vinculada y en 2018 el sector ingresó 190.000 millones de euros (un 15% del PIB nacional). El problema es que está industria también sufre la lacra de los datos obsoletos, duplicados o simplemente incorrectos
“En el sector turismo, muchas empresas no son capaces de ingerir la gran cantidad de datos que generan los usuarios cada día. No cuentan con las herramientas óptimas para hacer frente a este fenómeno. De hecho, nuestros modelos de analítica avanzada reflejan que, en 2019, eldirty data podría haber provocado al turismo español unas pérdidas de aproximadamente 48 millones de euros”. Así lo explica Arístides Figuera, de Hocelot.
Algoritmos al rescate
Pero ¿cómo solucionar el problema del dirty data? Hoy en día existen métodos para recabar información que permiten verificar los datos y desechar los falsos a través de una solución digital y analítica. Además, los expertos recomiendan a las compañías evitar pedir datos innecesarios o sensibles, que suelen ser los que más se tergiversan o falsean.
“Por otro lado, es necesario limpiar los datos mediante soluciones tecnológicas de nueva generación que permitan, por ejemplo, conocer la existencia y exactitud de una dirección, o proporcionar una correlación entre el nombre, los apellidos y un documento de identificación”, explican desde Hocelot.
Esta compañía dispone, por ejemplo, de soluciones como GeoCheck, que permite chequear direcciones. O IdCheck, que proporciona una correlación entre el par “nombre y apellidos” y un documento identificativo.
Por último, las compañías tienen que actualizar constantemente la información que atesoran. Eso, obviamente, no se puede hacer de forma manual. Para ello disponen de algoritmos de analítica avanzada que ponen a su disposición entre 500 y 1.500 variables dinámicas y verificadas, y que corren en tiempo real. Todo es poco para limpiar las bases de datos y deshacerse de una vez del improductivo dirty data.
Imágenes | iStock.com/Goir, iStock.com/Milindri, iStock.com/Amoklv