¿Que hacer cuando nos falla un disco en vSAN?

Buenas chic@s! En el post de hoy vamos aprender que debemos de hacer cuando se nos rompe uno de nuestros discos en vSAN, bien sea uno de nuestros discos de cache o unos de nuestro discos de capacidad.

Para que sea simple, nos basaremos en despligues de cluster de all-flash, ya que los despliegues de entornos hibridos han perdido mucha fuerza en el mercado por el abaratamiento de los discos flash .

Cuando estamos desplegando nuestro cluster de all-flash, nos da la opcion de elegir si queremos proveer algun tipo de «Space Efficiency»a nuestro cluster, podemos elegir 3 opciones:

  • Deduplicacion y Compresion
  • Compresion
  • Ninguna

Dependiendo de si marcaremos una u otra, nuestro cluster vSAN actuara de una manera u otra antes los fallos de discos.

¿ Que sucede cuando se nos rompe un disco de cache?

Cuando falla uno de los discos de cache, todo el diskgroup es marcado como degraded y todos los componentes del diskgroup empezaran a resincronizarse en otro diskgroup, ya sea del mismo host, o de otros host.

¿Que sucede cuando se nos rompe un disco de capacidad?

Cuando se nos rompe un disco de capacidad, se nos podrian dar 2 casos depediendo de si hemos elegido alguna de las features de ahorrar espacio.

  • Deduplicacion y compresion: Si se nos rompe un disco de capacidad, el caso es igual que si se nos rompe un disco de cache,todo el diskgroup es marcado como degraded y todos los componentes del diskgroup empiezan a resincronizarse en otro diskgroup ya sea del mismo host, o de otros host.
  • Compresion/Ninguna: Si se nos rompe un disco de capacidad, ese disco sera marcado como degraded, y todos los componentes que residian en ese disco, seran resincronizados en otros discos de capacidad de ese host, o de otros host del cluster.

¿Donde podemos observar la resincronizacion de los objetos?

Cuando se da un fallo de nuestros discos, inmediatamente empezara la resincronizacion de los componentes en otros disk groups o en el mismo disk group, sobre todo si es un disco de capacidad. Cuando se da este proceso, es importante vigilar la resincronizacion, para ello vMware nos proporciona una vista desde la cual podremos observar datos como:

  • Objeto a resincronizar
  • GB a a resincronizar
  • Tiempo restante( si usamos deduplicacion y compresion suele variar bastante)

Durante este proceso es importante vigilar la latencia de nuestro cluster, sobre todo si tenemos un cluster con deduplicacion y compresion activada. Si tenemos activada esta feature en nuestro cluster, una de las desventajas es que sufre mucho a la hora de descargar datos desde el tier de cache, hacia el tier de capacidad. Por ello, si contamos con discos de cache de poca capacidad, es problable que si la cantidad de datos a resincronizar es grande, el buffer se nos llene muy rapido, y en algun momento del proceso aumentara la latencia en nuestro cluster debido a la contencion en el tier de cache.

Si esta latencia llega a umbrales alto y queremos de alguna manera reducir esta latencia , podemos ajustar el «Resync Throttling» y disminuir de esta manera los Mbps a resincronizar por host.

¿ Que debemos hacer cuando se nos rompe un disco?

Como hemos comentado anteriormente, la manera de actuar vendra marcada por la tipologia de nuestro cluster, ademas de diferenciar entre una rotura de un disco de cache o de capacidad.

En el caso de una rotura de un disco de cache, deberemos de romper el diskgroup en el cual ya que no tendremos ningun tipo de dato valido. Una vez se haya sustituido el disco por parte del fabricanete, deberemos recrear el diskgroup.

En el caso de una rotura de un disco de capacidad, se nos pueden 2 opciones dependiendo de nuestra tipologia de cluster:

  • Deduplicacion y compresion: En este caso, deberemos eliminar el diskgroup, recrear el diskgroup sin el disco fallido, una vez cambiado el disco, añadirlo al diskgroup.
  • Compresion/Ninguna: En este caso deberemos eliminar el disco fallido del diskgroup. Una vez el fabricante haya sustituido el disco, deberemos añadir el nuevo disco al diskgroup.

Bueno espero que os haya gustado, y hayais ententido como proceder ante la rotura de un disco en nuestro cluster de vSAN, en siguentes post veremos la mejores practicas para evitar minimizar el dominio de fallo.

Un comentario

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *