lunes, 5 de octubre de 2020

Data Analysis

 

Data Analysis



Hace mucho tiempo, cuando aprendí a programar en Fortran IV, se nos enseñó el axioma GIGO (garbage in, garbage out, propuesto por George Fuechsel en los 60’s).

Los nuevos sistemas de Big Data, inteligencia artificial u otros, dependen de los datos de origen. Sí estos son erróneos, sesgados o incompletos, no aseguran resultados confiables o útiles.

El axioma GIGO es un concepto fundamental de las ciencias de la computación para verificar el rendimiento apropiado del análisis de datos o proceso de software. (sin considerar que depp learning nos ayuda a con el concepto GIGO). Este axioma nos  hace preguntarnos sobre los datos presentados: son completos?; están al día?; podemos confiar en ellos?, son influidos por el prejuicio, las suposiciones o por la perspectiva limitada?. Son exactos, son pertinentes y son verdaderos?

Por otra parte debemos convalidar el rendimiento obtenido de nuestro proceso de análisis, verificar los resultados para ver si tienen sentido. Verificar si los resultados tienen sentido, si reflejan las expectativas y si son contra intuitivos y por qué?.

Los resultados tienen una tendencia clara que se observa en resultados anteriores? o en procesos similares?, se pueden comprobar usando otros métodos?

En los últimos años se ha masificado el uso de análisis de Big Data, AI, Machine Learning, Deep Learning, Neural Networks. Sin embargo es necesario entender la naturaleza de los resultados, entender la naturaleza del origen y donde la plataforma es secundaria. Los sistemas no pueden saber cuál es la calidad de los datos, es por ello la importancia del análisis de datos.



El concepto primordial del análisis de datos es transformar los datos en ideas procesables. Si no se puede medir algo no se puede mejorar, por lo que es vital capturar datos, guardar los datos antiguos y nuevos, para luego comenzar a analizarlos y así obtener un resultado, una historia o una narrativa.

Lo importante del análisis de datos es que es aplicable a todo tipo de procesos, fabricas, agricultura, pesca y acuicultura. La cantidad de datos no es un inconveniente, ya que pueden ser pocos o muchos los datos (incluso big data). Incluso se puede usar Excel, bases de datos relacionales (acces, SQL), AI o Machine learning.

Finalmente quisiera comentarles que si no se hace un examen exhaustivo de los datos, de nada nos servirá tener tecnología de punta o complicados procesos de cálculo, ya que se cumplirá el axioma GIGO.