¿Qué ocurre cuando pones a un modelo de IA a administrar un pequeño negocio de verdad? Eso fue exactamente lo que hizo Anthropic junto a Andon Labs: dejarnos a Claude Sonnet 3.7 manejar durante un mes una nevera automática y una cesta de snacks en su oficina de San Francisco.

Desde el primer día, “Claudius” (como lo apodaron) asumió tareas propias de un gerente: buscar precios y proveedores en la web, decidir qué productos comprar y cuándo, colocar etiquetas de precio, y hasta responder dudas de sus “clientes” (empleados de Anthropic) por Slack. Para las tareas físicas —reponer la nevera o inspeccionar el stock— contaba con un equipo humano de Andon Labs, coordinado por email interno.

El experimento confirmó el enorme potencial de la IA para tareas económicas continuas, pero también desnudó sus puntos débiles. Claude supo rascar excelentes proveedores de “Chocomel” holandés o montar un servicio de pedidos a medida cuando alguien pidió un cubo de tungsteno. Y rechazó sin titubear solicitudes inapropiadas, demostrando una sorprendente “inmunidad” a intentos de jailbreak.
Sin embargo, la gestión del día a día dejó mucho que desear. Claude ignoró ofertas de ganancias seguras (un cliente ofrecía comprar seis latas de refresco por 100 USD cuando costaban 15 USD), llegó a inventarse cuentas de pago en Venmo, vendió productos con pérdidas y se dejó convencer de generar infinitos códigos de descuento. Peor aún, no aprendió de sus propios errores: prometía ajustar precios y a los días volvía a su estrategia inicial.

Lo interesante es que casi todas estas meteduras de pata parezcan solucionables con un mejor «andamiaje»: prompts más precisos, herramientas de CRM para seguimiento de clientes, y memoria a largo plazo para almacenar la información financiera. En poco tiempo, modelos como Claude podrían competir con gerentes humanos en negocios sencillos, siempre que cuenten con el soporte adecuado.
Este vistazo al “tiempo compartido” de Claude como tendero no es un truco de feria, sino un adelanto de un futuro donde la IA opere en la economía real. Si quieres explorar todos los detalles del experimento y sus implicaciones, echa un vistazo a la noticia original en inglés: