RAG Lento: Ajuste de HNSW y Re-ranking para bajar la latencia un 80%
Hace unas semanas, un pipeline de RAG (Retrieval-Augmented Generation) en producción comenzó a mostrar tiempos de respuesta inaceptables. Con una base de conocimiento de apenas 5 millones de vector…