A propos de la fiabilité d'EasyWings...

Il y a quelques minutes, le service a connu une indisponibilité d'environ 35 minutes (entre 22h15 et 22h50), rendant toute page inaccessible pour l'ensemble des utilisateurs. Ce problème, inhérent à notre hébergeur, est à présent résolu. Mais c'est l'occasion de faire un point sur la fiabilité du système.

Illustration diagnosticLe système a été conçu pour fournir une disponibilité minimum de 99,9 %. Cela signifie que nous nous autorisons 45 minutes d’indisponibilité maximum chaque mois (soit moins d'une minutes et demie par jour en moyenne).

Durant ces 3 derniers mois, cet objectif a été largement atteint. Par exemple, pour tout le mois d’août, le système a été indisponible durant seulement 4 minutes (cela représente une disponibilité de 99,991 %).

La grande fiabilité d'EasyWings repose autour de 3 axes principaux :

  1. La prévention des défaillances, lors de la conception, en articulant le système autour de multiples redondances matérielles et logicielles. Pour cela, le système est hébergé dans un DataCenter Microsoft, sur la plateforme Windows Azure, et exploite tous les atouts de l’éditeur (notamment en termes d’infrastructure).
  2. La surveillance active : 3 systèmes de sondes, provenant de 3 fournisseurs différents, surveillent le système en permanence. Les 2 premiers fournisseurs effectuent des diagnostics toutes les 5 minutes, le dernier toutes les 15 minutes. Chacun nous avertit immédiatement en cas de défaillance constatée. Les sondes sont situées sur des serveurs différents, dans les DataCenters différents, sur des continents différents, afin de garantir la détection des pannes et l’absence de faux positifs. Chaque diagnostic de chaque sonde teste les organes vitaux du système (bases de données, réseaux, serveurs web, etc.).
  3. L’action rapide : en cas de défaillance, les outils de diagnostic en place permettent de facilement identifier la source du problème :
    • Si elle provient de l’hébergeur, il est probable que des actions soient déjà en place de son côté. En effet, l’hébergeur est sous contrat à engagement de résultat (les fameux SLA, ou Service Level Agreement) et sa réactivité est digne de son exploitation à très grande échelle.
    • S’il s’agit d’un bug logiciel propre à EasyWings, ces mêmes outils de diagnostic nous permettent d’analyser le problème et de réaliser un correctif rapidement. Une fois ce correctif réalisé et testé sur environnement de test, il peut être déployé pour l’ensemble des utilisateurs d’EasyWings de façon automatisée et en moins de 10 minutes. Heureusement, en 3 ans et demi d’existence, ce cas ne s’est encore jamais produit. Nos campagnes de tests poussés avant chaque déploiement d’une mise à jour y sont probablement pour quelque chose :).

Quand nous vous disions respecter les meilleurs pratiques de l’industrie logicielle, ce n’était pas du vent ;)

 

PS : si une panne importante devait survernir, l'avancement de sa résolution serait diffusé dans les news de ce site, ainsi que sur notre fil Twitter.