Por qué fracasan los proyectos de IA antes de empezar
Antes de gastar en modelos y algoritmos, hay un problema más básico que nadie quiere ver: los datos no están listos. Te explicamos por qué y qué hacer.
Hay una estadística que se repite en todos los informes de industria: entre el 70% y el 85% de los proyectos de inteligencia artificial no llegan a producción. La cifra varía según quién la cite, pero la dirección es siempre la misma.
Lo curioso es que casi nadie habla de por qué.
El problema no es la IA
Cuando un proyecto de IA fracasa, la narrativa habitual apunta al algoritmo, al modelo elegido, a la falta de datos de entrenamiento, o a expectativas poco realistas. Todo eso puede ser cierto. Pero en la mayoría de los casos que vemos en empresas medianas, el problema es anterior.
El problema son los datos. Y no porque sean pocos, sino porque no están en condiciones de ser usados.
Esto es lo que suele encontrar un equipo de IA cuando llega a una empresa que nunca ordenó su infraestructura de datos:
- Datos duplicados: el mismo cliente con tres registros distintos en tres sistemas distintos, con nombres ligeramente distintos, sin un ID único.
- Campos sin definición: una columna llamada
tipocon 14 valores posibles que nadie sabe qué significan. - Historial roto: datos que antes de 2023 están en un sistema viejo, y después en uno nuevo, sin migración coherente entre ambos.
- Información sensible sin anonimizar: números de documento, datos bancarios y correos electrónicos mezclados en tablas que se van a usar para entrenar modelos.
- Ausencia de documentación: nadie sabe qué hace cada tabla, por qué existe ese campo, ni de dónde viene ese número.
Con ese punto de partida, la IA no falla. Directamente no puede arrancar.
El costo real de ignorar esto
El patrón que se repite es siempre el mismo:
- La empresa decide “vamos a hacer un proyecto de IA”
- Se contrata a un equipo de data science (interno o externo)
- Los primeros meses se gastan en entender la estructura de los datos
- A los 6 meses, el proyecto lleva el triple de tiempo y no hay nada en producción
- Se culpa a los datos scientists, al proveedor, o al proyecto se abandona
El equipo de IA no falló. Llegó a un edificio sin cimientos y trató de construir el piso 20.
Qué significa tener datos “AI-Ready”
No es un estándar formal ni una certificación. Es un conjunto de condiciones que hacen que los datos puedan ser usados por modelos de machine learning o por cualquier sistema que necesite información confiable:
1. Datos limpios y únicos Un registro por entidad. Sin duplicados. Sin valores nulos en campos críticos. Tipos de datos consistentes (una fecha es una fecha, no a veces texto y a veces número).
2. Historial completo y versionado La IA aprende de patrones en el tiempo. Si el historial está incompleto, roto o modificado sin registro, el modelo aprende mal o no aprende.
3. Información sensible separada o anonimizada Antes de usar datos para entrenar modelos, hay que asegurarse de que no se están exponiendo datos personales. En industrias reguladas (finanzas, salud), esto no es opcional.
4. Documentación de cada tabla y campo El modelo necesita saber qué está procesando. Si no hay documentación, el equipo que desarrolla la IA tiene que inferir el significado de cada campo, y eso introduce errores desde el inicio.
5. Pipeline automatizado que mantiene todo actualizado Los datos de ayer no sirven si el modelo necesita datos de hoy. Tiene que existir un proceso automatizado que ingeste, limpie y actualice la base de forma continua.
La secuencia correcta
Si tu empresa quiere usar IA, la secuencia lógica es:
Ordenar los datos → Validar que están en condiciones → Construir el modelo
No al revés.
Esto no es una posición teórica. Es lo que vemos en la práctica: los equipos de IA que trabajan sobre bases de datos ordenadas entregan resultados en semanas. Los que trabajan sobre datos caóticos tardan meses y a menudo no llegan.
Cuánto tiempo lleva ordenar los datos
Depende del estado inicial, pero en empresas medianas (50 a 500 empleados, 3 a 10 sistemas de datos) el proceso de ordenamiento suele tomar entre 4 y 12 semanas:
- Semanas 1-2: Diagnóstico completo (Data Audit). Relevamiento de fuentes, análisis de calidad, mapa de dependencias.
- Semanas 3-6: Construcción del pipeline Bronze → Silver. Conexión de fuentes, normalización, deduplicación.
- Semanas 7-10: Capa Gold y documentación. Modelado para casos de uso específicos, anonimización, documentación de cada tabla.
- Semanas 11-12: Validación con el equipo de IA. Prueba piloto con datos reales.
Después de eso, el proyecto de IA puede arrancar sobre terreno firme.
Conclusión
La IA no es la causa del fracaso. La IA es la última pieza de una cadena que empieza mucho antes, en la calidad y el orden de los datos.
Invertir en datos antes de invertir en modelos no es un costo adicional. Es lo que hace que la inversión en IA tenga sentido.
Si tu empresa está considerando un proyecto de IA y los datos no están ordenados, el primer paso no es contratar data scientists. Es ordenar la casa.
¿Tenés este problema en tu empresa?
Agendá una llamada de 30 minutos sin compromiso. Te contamos cómo podemos ayudarte a ordenar tu infraestructura de datos.
Agendá una llamada →