BroadChain 获悉,4月25日 13:02, en la película "Memento", el protagonista, debido a una lesión cerebral, no puede formar nuevos recuerdos y solo puede reconstruir la realidad mediante tatuajes y fotos Polaroid. Los modelos de lenguaje grandes (LLM) enfrentan una situación similar: una vez completado el entrenamiento, una gran cantidad de conocimiento queda congelado en los parámetros, sin poder actualizarse con nuevas experiencias. Para compensar esta deficiencia, los desarrolladores les han construido un "andamio": el historial de chat actúa como notas a corto plazo, el sistema de recuperación como un cuaderno externo, y las indicaciones del sistema como tatuajes. Pero el modelo en sí nunca internaliza realmente esta nueva información.
Cada vez más investigadores creen que este aprendizaje en contexto (ICL) tiene limitaciones fundamentales. Solo puede resolver problemas cuyas respuestas ya existen en algún lugar del mundo, pero para tareas que requieren un verdadero descubrimiento (como nuevas pruebas matemáticas), escenarios adversariales (como ataques y defensas de seguridad) o conocimiento tácito difícil de expresar, el modelo debe poder incorporar directamente nuevos conocimientos y experiencias en sus parámetros después del despliegue. El aprendizaje en contexto es temporal; el verdadero aprendizaje requiere compresión.
Este campo de investigación se conoce como "aprendizaje continuo". Aunque el concepto no es nuevo (se remonta a un artículo de 1989), a16z crypto cree que es una de las direcciones de investigación más importantes para la IA en la actualidad. El crecimiento explosivo de las capacidades de los modelos en los últimos dos o tres años ha hecho que la brecha entre lo que el modelo "sabe" y lo que "puede saber" sea cada vez más evidente. Este artículo tiene como objetivo compartir ideas de los principales investigadores en este campo, aclarar las diferentes rutas del aprendizaje continuo y promover la implementación de este tema en el ecosistema emprendedor.
Antes de argumentar a favor del aprendizaje de parámetros (es decir, actualizar los pesos del modelo), hay que reconocer que el aprendizaje en contexto es efectivo y hay razones de peso para creer que seguirá dominando. La esencia de Transformer es un predictor de tokens condicional basado en secuencias. Dada la secuencia correcta, se puede obtener un comportamiento sorprendentemente rico sin tocar los pesos. El artículo de Cursor sobre la expansión de agentes de programación autónomos es un ejemplo: los pesos del modelo son fijos, y lo que realmente impulsa el sistema es la cuidadosa orquestación del contexto. OpenClaw es otro ejemplo, que eleva el "diseño de la carcasa" del agente a una disciplina independiente.
Cuando la ingeniería de indicaciones comenzó a surgir, muchos investigadores cuestionaron si "solo con indicaciones" podría ser una interfaz legítima. Pero esto es un producto nativo de la arquitectura Transformer, que no requiere reentrenamiento y se mejora automáticamente con las actualizaciones del modelo. Cuanto más fuerte es el modelo, más fuertes son las indicaciones. Sin embargo, el objetivo del aprendizaje continuo es que el modelo aprenda su propia arquitectura de memoria, en lugar de depender de herramientas externas personalizadas. Si se logra, podría desbloquear una nueva dimensión de expansión.
