Dirty Data: Qué es y su repercusión en el ámbito empresarial

0
243
Por Fernando Molina, CEO de NUBEADO - Expertos en tecnologías web.
Por Fernando Molina, CEO de NUBEADO – Expertos en tecnologías web.

En pleno siglo XXI, es de sobra conocido que un uso adecuado de los datos en la empresa, resulta fundamental para ser competitivo. Pero del mismo modo esta información por sí misma, no es útil si no se tiene en cuenta su ubicación, quién la controla y cuál puede ser su utilidad; y ese es precisamente, el mayor reto de las empresas que trabajan en torno a la analítica de datos. En otras palabras, lograr que esta abundante información (Big Data), no se acabe convirtiendo en “Dirty Data”.

El término “Dirty Data” hace mención a datos incorrectos y registros duplicados que, por lo general, conllevan problemas de imprecisión. La información que recopilan las compañías a través de encuestas, formularios, etc., habitualmente incluyen datos falsos que aportan los usuarios, bien porque el usuario se ha equivocado al introducirlos, bien porque han quedado obsoletos, o bien porque han sido falsificados de forma intencionada con fines ilegales. 

La eliminación completa de esos “datos sucios” y su separación de datos veraces, resultar una misión cuasi imposible y es ahí precisamente, donde se encuentra el gran reto.

Para alcanzar resultados positivos con el “Big Data”, es capital que podamos garantizar que los datos sean correctos, pero se calcula que entre el 60% y el 80% de los datos que se recopilan actualmente son falsos o imprecisos. Según un informe del Instituto de Almacenamiento de Datos (TDWI), el “Dirty Data” produce un coste a las empresas de EE.UU. en torno a los 600.000 millones de dólares cada año. 

Por ello, es crítica la tarea de reducir este “Dirty Data”, ya que además de suponer beneficios para las empresas, también se refleja en los clientes finales, que ven como los productos que les ofrecen las empresas se ajustan mejor a sus necesidades reales.

Pero, ¿Cómo podemos acabar con el Dirty Data?

Como se suele decir siempre es mejor prevenir que curar… así que la prevención una vez más, se erige como nuestra mejora aliada. En este sentido, las empresas deben emprender medidas para establecer una mayor confianza a sus clientes, consiguiendo de este modo que estos no aporten datos falsos, evitando por ejemplo, el envío de información masiva y poco relevante (SPAM). Hay que reseñar que la privacidad es algo que los usuarios tienen muy presente y el posible uso que las empresas puedan hacer de sus datos. Por ellos es muy importante establecer una buena relación de confianza con el usuario.

Otra forma de Dirty Data, son las bases de datos comerciales cuyo índice de datos erróneos es muy elevado. Para esta opción solo cabe plantearnos un proceso de “Cleaning Data”. Estos métodos son muy costosos y laboriosos ya que no se pueden automatizar al 100% por lo que hay que minimizarlos lo máximo posible, la adquisición de datos a través de estos medios.

Una vez sentadas las bases preventivas, veremos ahora cómo llevar a cabo una limpieza de los datos a analizar. Para ello, deberemos desarrollar esta operativa mediante varias fases:

Detectar Dirty Data: No podemos limpiar y corregir datos erróneos si no sabemos primero cuales son. Existen soluciones de Data Profiling (como las incluidas en SQL o Power BI) que revelan campos vacíos o inconsistencias en los datos. También hay metodologías para asegurar la calidad del dato.

Corrección de los Datos: Una vez detectados se deben corregir, pero ¿cuál es el dato correcto? En ocasiones es un error tipográfico y es fácil de solucionar, pero si es un dato falso es muy difícil conocer el dato real. En el caso de campos vacíos se pueden rellenar con el dato más probable, o la media si es un valor numérico pero estas “aproximaciones·” son muy peligrosas en el análisis de datos posterior.

Eliminación de duplicados: Otro de los problemas más comunes son los datos duplicados, que provocan errores en el análisis. Es necesario eliminarlos, pero teniendo en cuenta que es posible que en uno de los registros haya cierta información y en el segundo registro se encuentre el resto. Por lo tanto, antes de eliminar el duplicado es necesario realizar una unión de la información para tener el mejor registro posible.

Conclusión

La explosión de la importancia del dato es reciente, pero para su análisis necesitamos explotar datos históricos para entrenar a nuestros algoritmos. El problema reside en que ese histórico se registró cuando no dábamos importancia a los datos (excepto en entornos contables por legislación), y por tanto no cuidábamos con escrúpulo su calidad. Por otra parte, en lo que respecta a los datos nuevos, trabajamos con volúmenes enormes que dificulta su correcta validación.

Por todo ello, sólo podemos concluir que nuestra mejor opción será la prevención en la adquisición, y la diligencia en la limpieza de los datos que tengamos que analizar.