A mediados de 2006, el matemático británico Clive Humby creó la expresión “los datos son el nuevo petróleo”, refiriéndose a los datos como el nuevo activo con un valor económico y financiero potencialmente interesante. Posteriormente, Michael Palmer mejoró esta comprensión, mencionando que, al igual que el petróleo, los datos sólo tendrían valor si fueran refinados, es decir, contextualizados, interpretados y de ellos se extrajera conocimiento útil para el proceso de toma de decisiones.

Big Data, Inteligencia Artificial y Resultados

A partir del contexto en el que los datos tienen valor, el concepto de big data ha evolucionado de verse como grandes volúmenes de datos, estructurados y no estructurados, una vez almacenados – sea en data lakes, data warehouses o lakehouses, que podrían proporcionar algoritmos sofisticados para la inteligencia artificial y así generar valiosos conocimientos para empresas. ¿Esto es cierto? Absolutamente no. 

Como mencionaba George Fuechsel, ““garbage in, garbage out”, es decir, si entra basura, sale basura. Esta expresión nos lleva a problemas potenciales relacionados con la calidad y consistencia de los datos almacenados que, si son procesados ​​por algoritmos para detectar patrones, pueden conducir a conocimientos inútiles, espurios, sesgados o totalmente fuera de contexto, por lo tanto, sin valor comercial. Entonces, almacenar más datos, sean o no diversos, no implica la obtención de estándares relevantes para la toma de decisiones. Además, los conocimientos por sí solos no garantizan resultados para las empresas, deben contextualizarse dentro de un proceso empresarial y asociarse con alguna estrategia de acción. Según un estudio reciente realizado por la consultora BCG (Boston Consulting Group), en alianza con el MIT (Massachussets Institute of Technology), el 70% de los proyectos que involucran datos e inteligencia artificial no aportan resultados relevantes para las empresas.

Insights y cantidad de datos

La comprensión de que no existe relación entre la cantidad de datos y la calidad de los patrones observados se convirtió en una hipótesis considerada. Según un artículo de Harvard Business Review, la mayoría de los proyectos analíticos no necesitan utilizar grandes volúmenes de datos, ni es obligatorio utilizar algoritmos de detección de patrones complejos. Es decir, si bien los avances tecnológicos recientes apuntan a un número creciente de frameworks diseñados para optimizar el procesamiento de datos a gran escala, existe, por otro lado, otro aspecto que señala que trabajar con menos datos puede traer resultados significativos a las empresas. Esto es lo que se denomina convencionalmente “small data”.

Small Data: más calidad, menos cantidad

La definición de small data, como su nombre lo expresa, está relacionada con el análisis de un universo de datos más pequeño y controlado. Según Martin Lindstrom, autor del libro “Small Data – Tiny Clues that Uncover High Trends“, los datos deben ser observados, analizados e interpretados desde la perspectiva de la luz humana, que incorpora un carácter no sólo cuantitativo, sino también cualitativo el proceso de análisis de datos y obtención de conocimientos. En el libro “Small Data – Big Disruptions”, el autor, Martin Schwirn, defiende este enfoque de trabajar con un universo de datos diversificado y más controlado, que puede ser procesado más fácilmente, sin tanta dependencia de la tecnología y grandes volúmenes de datos, y eso abre más espacio para un análisis humano más detallado. 

Tendencias del mercado

Según el estudio de Gartner “Tech Providers 2025: Why Small Data Is the Future of AI”, trabajar con small data será cada vez más crítico para ayudar a las empresas a iniciar un camino exitoso con proyectos de inteligencia artificial, generando resultados de una manera más ágil y resistente. Aun así, Gartner predice que para 2025, el 70% de las empresas cambiarán su enfoque de big data a small data.

Así, extraemos de este escenario la lectura de que es muy saludable que las corporaciones no se conviertan en rehenes de una visión única, antes basada en procesos de big data. Esto abrirá posibilidades para nuevos enfoques y formas de mirar y analizar los datos, ya sea con datos pequeños o con cualquier otra metodología que agilice y facilite la generación de conocimiento útil, relevante e imparcial para el proceso de toma de decisiones.

*Por Marcelo Fernandes, Gerente de Desarrollo de FICO en América Latina