Data
Analysis
Hace mucho tiempo, cuando aprendí a programar
en Fortran IV, se nos enseñó el axioma GIGO (garbage in, garbage out, propuesto por George Fuechsel en los 60’s).
Los nuevos sistemas de Big Data, inteligencia
artificial u otros, dependen de los datos de origen. Sí estos son erróneos,
sesgados o incompletos, no aseguran resultados confiables o útiles.
El axioma GIGO es un concepto fundamental de
las ciencias de la computación para verificar el rendimiento apropiado del
análisis de datos o proceso de software. (sin considerar que depp learning nos
ayuda a con el concepto GIGO). Este axioma nos
hace preguntarnos sobre los datos presentados: son completos?; están al
día?; podemos confiar en ellos?, son influidos por el prejuicio, las
suposiciones o por la perspectiva limitada?. Son exactos, son pertinentes y son
verdaderos?
Por otra parte debemos convalidar el rendimiento
obtenido de nuestro proceso de análisis, verificar los resultados para ver si
tienen sentido. Verificar si los resultados tienen sentido, si reflejan las
expectativas y si son contra intuitivos y por qué?.
Los resultados tienen una tendencia clara que
se observa en resultados anteriores? o en procesos similares?, se pueden
comprobar usando otros métodos?
En los últimos años se ha masificado el uso
de análisis de Big Data, AI, Machine Learning, Deep Learning, Neural Networks.
Sin embargo es necesario entender la naturaleza de los resultados, entender la
naturaleza del origen y donde la
plataforma es secundaria. Los sistemas no pueden saber cuál es la calidad
de los datos, es por ello la importancia del análisis de datos.
El concepto
primordial del análisis de datos es transformar los datos en ideas procesables.
Si no se
puede medir algo no se puede mejorar, por lo que es vital capturar datos,
guardar los datos antiguos y nuevos, para luego comenzar a analizarlos y así
obtener un resultado, una historia o una narrativa.
Lo importante del análisis de datos es que es
aplicable a todo tipo de procesos, fabricas, agricultura, pesca y acuicultura.
La cantidad de datos no es un inconveniente, ya que pueden ser pocos o muchos
los datos (incluso big data). Incluso se puede usar Excel, bases de datos
relacionales (acces, SQL), AI o Machine learning.
Finalmente quisiera comentarles que si no se
hace un examen exhaustivo de los datos, de nada nos servirá tener tecnología de
punta o complicados procesos de cálculo, ya que se cumplirá el axioma GIGO.