Cas client

Un processus optimisé pour les tests récurrents du DRP

Le contexte

Un grand groupe industriel possède un parc informatique de plus de 1300 applications. Il a entamé la mise en place d’un programme DRP (Disaster Recovery Plan) et doit secourir près de 300 applications qui constituent la part la plus critique du parc ainsi que tous les centres de développement.

Les éléments à secourir sont répartis sur plusieurs sites sur le territoire national. Les filiales à l’international possèdent chacune un plan DRP local.

Plusieurs types de secours sont identifiés en fonction de la criticité de chacune des applications :

  • Secours dédié : secours des applications les plus critiques avec des serveurs dédiés, actifs en permanence pour garantir un basculement très rapide
  • Secours sur pré-production : secours qui utilise la plateforme de pré-production
  • Secours à froid : secours qui utilise une plateforme technique commune pour reprendre les applications concernées

Compte tenu du nombre conséquent d’applications et de la complexité de l’organisation, le choix initial a été de secourir les applications une par une. Près de 60 applications sont déjà secourues et font l’objet d’exercices unitaires annuels.

Le coût d’une telle gestion des exercices annuels est élevé et une rationalisation du fonctionnement est devenue nécessaire.

Notre approche

Quantic Conseil est intervenu sur l’optimisation des exercices annuels et sur leur suivi pour garantir une meilleure maîtrise globale. Nous avons travaillé avec les équipes en charge de la mise en place du DRP pour définir un nouveau processus de fonctionnement.

Ce nouveau processus est basé sur la création d’une équipe virtuelle composée d’ingénieurs des différents datacenters, la planification à deux niveaux (macro sur l’année et micro par test), le déroulement de chaque exercice en 3 phases :

  • Préparation : il s’agit de préparer séparément les aspects fonctionnels et techniques pour optimiser les différentes interventions
  • Réalisation : il s’agit de la phase de reprise techniques des différents serveurs. Elle inclut également les tests fonctionnels réalisés par le métier.
  • Débriefing : il s’agit de réaliser séparément les retours d’expérience au niveau technique et fonctionnel ainsi que la mise en place des actions correctives si besoin.

Le SI du groupe étant d’une grande complexité, plusieurs éléments ont donc été redéfinis pour le bon déroulement des tests annuels :

  • Rôle de chaque intervenant : Pilote de l’exercice, Pilote technique et Pilote fonctionnel
  • Nouvelle méthode de reprise technique basée exclusivement sur les sauvegardes (ou données répliquées) pour industrialiser la méthode et rendre les équipes indépendantes des technologies utilisées en production
  • Livrables techniques, fonctionnels et organisationnels : plus pragmatiques, plus opérationnels
  • Indicateurs pour le suivi de la performance globale de l’activité ainsi que de celle de chaque exercice
  • Nouvelle gestion documentaire plus simple et plus fluide à travers la GED du groupe

Les résultats

Notre intervention a permis d’optimiser la méthode de conduite des exercices annuels pour mieux maitriser leur déroulement ainsi que l’activité globale des équipes. Cette optimisation participe à la réduction des coûts de fonctionnement et permet une meilleure proactivité dans l’anticipation des blocages éventuels.

Cette  nouvelle approche a industrialisé les reprises tout en maintenant le niveau de MCO du DRP. Elle a favorisé la montée en maturité des équipes pour une meilleure gestion de crise en cas de sinistre réel.

Au-delà du simple aspect procédural, les équipes se sont naturellement préparées pour un basculement vers un « secours site ».