¿Cómo preparamos el Black Friday? El otro lado de las tiendas online

Lo lógico sería esperar a que pasase el blackfriday sin problemas para presumir de nuestra preparación, pero nosotros vamos a hacerlo antes para avergonzarnos si algo sale mal. Así somos.

Primero, ¿qué es el Black Friday? nosotros lo medimos por las visitas a las tiendas que gestionamos que subieron el año pasado un 400% sumando todas en comparación al tráfico normal. Así que para nosotros el Black Friday es un desafío. Pues cada minuto que esté la web “no disponible” nuestro cliente pierde ventas.

El año pasado tuvimos problemas aislados en alguna tienda y otras estuvieron al límite, pero este año contamos con más tiendas gestionadas y con mejor infraestructura.

En primer lugar, nuestra red interna trabaja íntegramente a 2x10Gbps redundante e independiente (el año pasado la implementación no era total).

Todas nuestras tiendas han sido actualizadas a PHP 7 con la velocidad que se gana con ello.

Nuestros servidores de bases de datos de alto rendimiento se han multiplicado (de uno hemos pasado a tres) y cuentan con un repartidor de tráfico en tiempo real para evitar saturaciones, además podríamos duplicar su capacidad en muy pocos minutos.

Nuestros servidores físicos de procesamiento están siempre en N+1, eso quiere decir que en cualquier momento podríamos añadir un nuevo servidor, pero además la carga de los mismos es siempre menor al 50%, lo que quiere decir que también podríamos duplicar su procesamiento y RAM en pocos segundos.

Contamos con dos CDN para material estático, en caso de que fallen (es una de las cosas que fallaron el año pasado) los anularíamos y utilizaríamos una caché propia para el contenido estático, las DNS principales están resueltas a nuestras IP (al contrario del año pasado que pasaban por el CDN).

Los servidores de almacenamiento cuentan con alta disponibilidad real (el año pasado en caso de fallo de un servidor de almacenamiento había que reiniciar el de procesamiento).

Resumiendo:

En teoría tenemos normalmente los servidores de procesamiento + bases de datos + almacenamiento con una carga pico inferior al 15%, el Black Friday esta carga podría subir siguiendo las cifras del año pasado a un 70%, pero estamos preparados para asumir una carga superior al 1000% de tráfico normal en las webs.

Algunas cifras de nuestra preparación:

Más de 200GB de RAM extra disponibles por si fueran necesarios.

24 núcleos extra de procesamiento para incorporar a lo que sea necesario (procesamiento, bases de datos).

Un extra de 1 gbps (1000 mbps) de ancho de banda hacia internet disponible.

Porque con Veres Internet, la infraestructura no es un problema.

Ransomware: el virus que ha afectado a telefónica

Tras las múltiples dudas y emails que hemos recibido por la creciente preocupación de este virus y por las informaciones surgidas, exponemos vuestras dudas y las nuestras a José Miguel Ruiz, consultor tic que colabora con Veres Internet acerca de este tipo de virus y en concreto el de telefónica en una mini entrevista.

Pregunta: ¿Qué ha ocurrido en telefónica?
Respuesta: Ha sido infectada por un virus (programa informático) que codifica (encripta) los archivos a los que tiene acceso el ordenador dejándolos inaccesibles y pide dinero para decodificarlos y hacerlos accesibles.

Tiene alguna peculiaridad con respecto a la mayoría de este tipo de virus (esencialmente, su capacidad de replicarse a todos los ordenadores de la red), pero no es novedoso en lo esencial.

P: ¿Es grave lo ocurrido en telefónica?
R: No, es visible pero no es grave (siempre que tengan un buen plan de contingencia), llevo dos años alertando intensamente a mis clientes y empresas colaboradoras (para que alerten a sus clientes) de este tipo de virus.

El ataque que ha recibido telefónica no es más grave que los que han sufrido muchas empresas que conozco en el último año. Solo ha sido más mediático y eso redunda en mayor concienciación ante este tipo de ataques.

P: ¿Si no es grave, por qué tantísimas noticias acerca del virus?
R: Parece que hubiesen aparecido ayer los ransomware cuando llevan años y con una afectación exponencial, no ha sido un ataque dirigido contra la empresa en particular (hay casos donde este tipo de virus si que han sido dirigidos contra una empresa o institución) sino que ha sido tan masivo que ha sido un afectado más.

Es noticia por a quienes ha afectado, y porque se ha filtrado, pero por cada afectado grande que ha caído en sus “redes” habrá miles pequeños, ha sido simultáneo y masivo, pero no tiene novedades esenciales.

P: ¿Se puede prevenir este tipo de ataques?
R: No, la seguridad al 100% no existe, debemos concienciarnos, asumir que el paradigma de los virus ha cambiado y que, en este momento, hay dos tipos de empresas: las que ya han sido afectadas por ransomware y volverán a afectarse y las que van a ser afectadas por primera vez.

P: ¿En qué consiste ese cambio de paradigma?
R: Se dan las condiciones para que un virus sea altamente lucrativo para sus programadores, ya que reciben dinero directamente de él, antes, esto no era así, por lo que cabe esperar que cada vez más personas se dediquen a este tipo de prácticas y sigan creciendo.

P: Entonces ¿Qué pueden hacer las empresas al respecto?
R: Dejar de preocuparse por los virus y preocuparse por sus datos, ¿qué harías si tu disco duro se rompe?, ¿si tu NAS (sistema de almacenamiento en red) o servidor no vuelve a arrancar?.

Esto es lo mismo, solo que lo hace más probable y también hace más probable la afección simultánea a varios sistemas.

Necesitan un plan de contingencia para sus datos, unas políticas de copias de seguridad MUY estrictas y una auditoría de las mismas: el cloud, los sistemas de copia de seguridad avanzados (snapshot, historial de copias, copias incrementales, dispositivos específicos para copias, etc.) y las velocidades de internet cada vez mayores juegan a favor de una recuperación rápida de sus datos en caso de este tipo de contingencias.

La pregunta esencial para las empresas es ¿cuántos datos puedo permitirme perder en tiempo en el peor de los casos?, ¿una hora, dos horas, un día? y, a partir de ahí, elaborar un plan de contingencia para garantizar que eso sea así.

P: Entonces ¿Es positivo lo ocurrido en telefónica?
R: Si sirve para concienciar a todas las empresas (desde autónomos hasta grandes empresas) de que en cualquier momento pueden perder sus datos sin un plan de contingencia: sí, no ha sido novedoso y muchas empresas que estén leyendo esto ya habrán sido afectadas en este año por este tipo de virus.

Por otro lado, también descarga la responsabilidad sobre los administradores de redes, si telefónica con todos sus recursos no puede prevenir este tipo de ataques, debemos asumir que la prevención total es imposible y preocuparnos por la recuperación rápida.

¿Por qué hemos elegido 10GBe sobre Fibra en lugar de sobre cobre ó InfiniBand?

Estamos terminando de desplegar en nuestros servidores en valencia la red interna que conectará nuestros servidores de procesamiento con los de almacenamiento.

Los requisitos que planteamos eran una red capaz de transportar mínimo 8Gbps y 200.000+ iops por host, estando estas características ya por encima de nuestra explotación real pero teniendo en cuenta la curva de crecimiento que podríamos tener en tres años por ganar clientes y por el aumento de recursos de los ya existentes.

Para hacer esta red se nos presentaban varias alternativas sobre la mesa.
-10Gb Ethernet sobre cable (máximo actual).
-10Gb Ethernet sobre fibra (lo que nos era suficiente).
-10Gb Ethernet DAC.
-InfiniBand QDR ó DDR, 32Gbps ó 16 Gbps.
-8 Gb HBA sobre fibra.

Lo primero que hicimos es entre las tecnologías iguales (Ethernet) elegir el medio óptimo acudiendo a la documentación que encontramos y a las pruebas de rendimiento.

10Gb Ethernet con cable presentaba como ventajas principales un menor coste de despliegue (electrónica y cables), por contra un alto consumo eléctrico y latencia, razón por la que fue descartada.

10Gb Ethernet con DAC (Cable de Conexión Directa) presentaba como ventaja el coste, sin ser tan notoria como la opción anterior, como desventaja el consumo eléctrico, la latencia (siendo menos la diferencia también en estos aspectos) y la necesidad de añadir electrónica específica de cada cable junto con los problemas de compatibilidad que habían sido notificados, por lo que también fue descartada.

10Gb sobre fibra (10GBase-Sr) aún suponiendo un mayor coste de implementación que las anteriores fue la elegida dentro de la gama Ethernet por su baja latencia y consumo eléctrico.

Una vez elegida la tecnología ethernet llega el momento de compararlas con las demás.

8 Gb HBA se presenta como la forma más barata de implementación, con dos grandes inconvenientes: la conexión a redes IP (algo imprescindible para nosotros) no es nativa y exige de software extra (posible fuente de problemas), la interoperabilidad con ethernet directa no existe (lo que multiplica su coste), así que fue descartada.

Por fin se llegaba a InfiniBand vs Ethernet.

La diferencia de latencia entre ambas no era significativa (pero era favor de InfiniBand)

InfiniBand presentaba sus ventajas: escalabilidad (la capacidad a implementar estaría muy por encima de nuestras necesidades actuales (16 ó 32 gbps), menor consumo eléctrico y (sobre todo) menor coste de implementación.

Por contra el soporte para ip no es nativo (IPoIB) lo que sobrecarga la CPU y necesita de software adicional (que ha ido mejorando en rendimiento pero no deja de ser una posible fuente de problemas), no existe interoperabilidad directa con Ethernet, algo necesario para nosotros dado que contamos con diversos equipos de almacenamiento que no podrían usar esa tecnología.

Por lo tanto la decisión elegida por 10GB Ethernet sobre fibra, además de por la interoperabilidad, por el soporte “nativo” a conexiones IP sin depender de la CPU ni software adicional, la documentación existente y que las ventajas de InfiniBand no eran determinantes: el consumo eléctrico no era tan significativo como con otras tecnologías, igualmente con switchs stackables y bonding (además de alta disponibilidad) conseguimos un caudal de hasta 20Gbps lo que casi triplica nuestras necesidades calculadas (que recordamos, estaban por encima de las actuales) dándonos un margen más que suficiente para crecer.

El mayor inconveniente es el coste del despliegue, pero sus plazos de amortización lo compensan, y es que cuando se nos quede corta esta red de interconexión interna a la vista del crecimiento actual de internet, probablemente se convierta en la red de interconexión externa.

Me explico: cuando necesitemos 10gbps por servidor de conexión a internet (algo que no está tan lejano), esta red privada pasará a ser sin problemas la red que conecte el servidor con internet aprovechando prácticamente la totalidad de de la inversión y se creará una nueva red interna (tal vez con 100Gb Ethernet?) que necesitará ser más rápida para la interconexión entre servidores.