¿Cómo implementar CI/CD/CT para el aprendizaje automático?

Si está trabajando en proyectos de aprendizaje automático, es probable que esté trabajando en alguna versión de integración continua / implementación continua (CI / CD).Representa un alto nivel de madurez en MLOP con entrenamiento continuo (TC) en la parte superior.Este nivel de automatización realmente ayuda a los ingenieros de ML a centrarse únicamente en experimentar con nuevas ideas mientras delega las tareas repetitivas para ingeniería de tuberías y minimizando los errores humanos.

Hay muchas formas de implementar CI/CD/CT para el aprendizaje automático, pero aquí hay un proceso típico:

La fase experimental:El ingeniero de ML quiere probar una nueva idea (digamos una nueva transformación de características).Modifica la base de código para implementar la nueva transformación, entrena un modelo y valida que la nueva transformación realmente produce un mayor rendimiento.El resultado resultante en este punto es solo un código que debe incluirse en el repositorio maestro.

Integración continua:Luego, el ingeniero crea una solicitud de extracción (PR) que desencadena automáticamente las pruebas unitarias (como un proceso de CI típico) pero también desencadena la instanciación de la tubería de entrenamiento automatizada para volver a entrenar el modelo, probarlo a través de pruebas de integración o casos de prueba y empujarlo aUn registro modelo.Hay un proceso manual para que otro ingeniero valida la lectura de relaciones públicas y rendimiento del nuevo modelo.

Despliegue continuo:La activación de una implementación desencadena una implementación canaria para asegurarse de que el modelo se ajuste en una tubería de servicio y ejecute un experimento de prueba A/B para probarlo contra el modelo de producción.Después de resultados satisfactorios, podemos proponer el nuevo modelo como un reemplazo para el de producción.

Entrenamiento contínuo:Tan pronto como el modelo ingresa al registro del modelo, se deteriora y es posible que desee activar la capacitación recurrente de inmediato.Por ejemplo, cada día el modelo se puede ajustar aún más con los nuevos datos de capacitación del día, implementados y la tubería de servicio se redirige al modelo actualizado.

machine_learning