Por María Fernanda Mora Quirós - Estudiante de la carrera de Informática

Muchas empresas recopilan información de dispositivos móviles como laptops y teléfonos, y se centran en las búsquedas recientes o páginas visitadas en Facebook para descubrir los gustos de los consumidores; sin embargo, esa información en ocasiones puede venir incompleta o dañada. Si se realizara un análisis de esa información, así como se recopiló, podrían sacar resultados falsos o poco precisos. Por eso es necesario limpiar la información del big data.

Antes de hablar de big data, se debe hablar de clean data, ya que es necesario para poder mantener el big data en orden y preparar la información para un correcto análisis futuro. El big data es sumamente importante para las empresas, ya que les permite identificar problemas de los cuales no se habían percatado. Es necesario que los datos sean depurados y se completen los espacios faltantes en ellos o se eliminen los datos duplicados, para evitar que las decisiones que se tomen de acuerdo con la información analizada conduzcan a un error.

El  clean data es el proceso mediante el cual toda la información recopilada en una base de datos va a ser revisada, con el objetivo de encontrar datos incompletos, repetidos, inexactos o incorrectos, a fin de preparar la información para el análisis completo del big data.  Todos los datos inconsistentes serán eliminados. Los datos eliminados no son pertinentes o útiles para el análisis. Una vez que el big data se analice, se pueden sacar datos pertinentes para las empresas de la manera más eficiente y adecuada. El big data es fundamental para que una empresa sea capaz de dar un servicio más eficiente y personalizado a los clientes; las empresas que almacenan big data son capaces de poder determinar las preferencias e intereses de sus clientes. El big data es adquirido de páginas de internet, redes sociales e información recopilada de dispositivos móviles. Esta información no necesariamente llega ordenada y completa, en muchas ocasiones la información que se recopila de un lugar puede ser similar o la misma que se recopila de otro, lo cual genera duplicaciones.

Debido a esto, es necesario que toda la información que las empresas grandes y pequeñas recopilen en sus bases de datos sea debidamente depurada y limpiada, ya que de no ser así la información que utilizarán las empresas para realizar los análisis de las bases de datos podría tener muchos errores o no ser clara, lo cual generaría contradicciones en los resultados, y llevaría a que la empresa tome decisiones incorrectas que llegarían a terminar perjudicando seriamente su imagen ante los clientes.

El que una empresa tenga big data no precisamente indica que esta tenga clean data, ya que generalmente la información recopilada por las empresas proviene de diferentes fuentes y esta información no fue previamente revisada u ordenada. Mucha información puede ingresar repetida, incompleta o simplemente llena de datos extra que no son pertinentes para las empresas que la van a utilizar, por lo tanto, es fundamental que todas las empresas, sin importar su tamaño, se den a la tarea de limpiar y revisar la data almacenada en sus bases de datos para luego realizar los análisis pertinentes para tomar las decisiones más acertadas, a fin de cumplir sus objetivos y crecer de manera ideal.

 

MOXIE es el Canal de ULACIT (www.ulacit.ac.cr), producido por y para los estudiantes universitarios, en alianza con el medio periodístico independiente Delfino.cr, con el propósito de brindarles un espacio para generar y difundir sus ideas.  Se llama Moxie - que en inglés urbano significa tener la capacidad de enfrentar las dificultades con inteligencia, audacia y valentía - en honor a nuestros alumnos, cuyo “moxie” los caracteriza.