Plan de reprise d'activité informatique

Un plan de reprise d'activité informatique (PRAI), désigné également sous l'acronyme anglais DRP (Disaster Recovery Plan), est un ensemble de procédures documentées permettant à une organisation de restaurer ses systèmes et infrastructures informatiques après un sinistre ou une interruption majeure. Il constitue le volet technique d'une stratégie plus large de résilience organisationnelle et se distingue du Plan de continuité d'activité (PCA), qui couvre l'ensemble des processus métiers au-delà du seul périmètre informatique. Son objectif central est de garantir que les systèmes d'information essentiels redeviennent opérationnels dans des délais prédéfinis et avec une perte de données maîtrisée.

Définition et périmètre

Le plan de reprise d'activité informatique fixe les modalités de restauration des données, des applications et des équipements après un incident grave : panne matérielle, cyberattaque, incendie, inondation, erreur humaine ou catastrophe naturelle. Son périmètre englobe les serveurs physiques et virtuels, les postes de travail, les équipements réseau, les applications métiers, les bases de données et les dépendances inter-systèmes.

Le PRAI se situe à l'intersection de la Cybersécurité, de la gestion des risques et de la gouvernance informatique. Il s'applique à tout organisme possédant un système d'information : entreprises privées, administrations publiques, établissements de santé et collectivités territoriales.

Distinctions terminologiques

PRA (Plan de reprise d'activité) : terme générique recouvrant les aspects informatiques et métiers ; dans l'usage courant francophone, il désigne souvent le seul volet informatique.
PCA (Plan de continuité d'activité) : stratégie globale maintenant la continuité des opérations critiques, y compris les ressources humaines, les locaux et les processus non informatiques (voir Plan de continuité d'activité).
DRP (Disaster Recovery Plan) : appellation anglophone équivalente au PRAI, fréquemment utilisée dans les contrats de services cloud et les normes internationales.
BCP (Business Continuity Plan) : équivalent anglophone du PCA.

Indicateurs clés : RTO et RPO

Deux métriques structurent l'ensemble du PRAI :

Objectif de temps de reprise (RTO — Recovery Time Objective): Durée maximale tolérée entre le début d'un sinistre et la remise en service des systèmes. Un RTO de 4 heures signifie que les applications critiques doivent être rétablies dans les 4 heures suivant l'incident. Plus le RTO est bas, plus les investissements en infrastructure de reprise sont élevés.

Objectif de point de reprise (RPO — Recovery Point Objective): Quantité maximale de données que l'organisation accepte de perdre, exprimée en durée. Un RPO de 1 heure implique que les sauvegardes doivent être réalisées au moins toutes les heures. Cette métrique détermine la fréquence des sauvegardes et le choix des technologies de réplication.

La définition du RTO et du RPO découle d'une Analyse d'impact sur l'activité (BIA — Business Impact Analysis), qui quantifie le coût financier, réglementaire et réputationnel d'une interruption pour chaque processus métier.

Composantes du plan

Inventaire et classification des actifs

Le plan débute par un inventaire exhaustif des actifs informatiques : serveurs physiques et virtuels, postes de travail, équipements réseau, applications métiers, bases de données et dépendances inter-systèmes. Chaque actif reçoit un niveau de criticité (généralement de 1 à 4) qui détermine son RTO et son RPO individuels.

Stratégies de reprise

Plusieurs approches techniques sont combinées selon les contraintes budgétaires et les exigences de RTO et de RPO :

Stratégie	Description	RTO typique	Coût relatif
Site miroir actif-actif	Réplication synchrone en temps réel sur un second site opérationnel	Quelques secondes	Très élevé
Site chaud (hot standby)	Infrastructure prête à basculer, données répliquées quasi en temps réel	Moins de 1 heure	Élevé
Site tiède (warm standby)	Serveurs préconfigurés, données restaurées depuis sauvegardes récentes	4 à 24 heures	Moyen
Site froid (cold standby)	Infrastructure disponible mais non préconfigurée	24 à 72 heures	Faible
Cloud de reprise	Ressources cloud provisionnées à la demande lors du sinistre	1 à 8 heures	Variable

Le Site de repli informatique désigne toute installation secondaire hébergeant les ressources de reprise, qu'il soit physiquement distant ou hébergé dans un cloud public.

Procédures de sauvegarde

La Sauvegarde informatique constitue le fondement opérationnel du PRAI. Les politiques de sauvegarde distinguent plusieurs modalités :

Sauvegarde complète : copie intégrale de toutes les données, généralement hebdomadaire.
Sauvegarde incrémentielle : seules les données modifiées depuis la dernière sauvegarde sont copiées ; rapide à réaliser mais restauration plus complexe.
Sauvegarde différentielle : données modifiées depuis la dernière sauvegarde complète ; compromis entre vitesse de sauvegarde et simplicité de restauration.
Réplication synchrone : écriture simultanée sur deux sites, garantissant un RPO proche de zéro.
Réplication asynchrone : décalage admis entre le site principal et le site de reprise, adapté aux longues distances géographiques.

La règle dite 3-2-1 est largement citée dans les référentiels professionnels : 3 copies des données, sur 2 supports de nature différente, dont 1 hors site.

Depuis la multiplication des rançongiciels (ransomware) à partir de 2017, la stratégie de sauvegarde doit également inclure des copies immuables (immutable backups) inaccessibles depuis le réseau principal, afin d'éviter que le logiciel malveillant ne chiffre ou ne supprime les sauvegardes elles-mêmes.

Documentation opérationnelle

Le PRAI inclut des procédures détaillées de bascule (failover) et de retour à la normale (failback) :

Annuaires de contacts d'urgence : équipes IT internes, prestataires hébergeurs, fournisseurs de cloud, opérateurs télécoms.
Séquences de redémarrage ordonnées par niveau de criticité.
Procédures de validation de l'intégrité des données après restauration.
Modèles de communication de crise à destination des directions métiers et des clients.
Rôles et responsabilités de chaque intervenant pendant le sinistre.

Mise en œuvre

Phases du projet

L'élaboration d'un PRAI suit généralement cinq phases :

Cadrage : définition du périmètre, identification des parties prenantes, constitution de l'équipe projet.
Analyse des risques et BIA : recensement des menaces (cyber, physiques, humaines), évaluation des probabilités et des impacts, détermination des RTO et RPO par processus.
Conception : choix des stratégies de reprise, sélection des technologies, conception de l'architecture de reprise.
Implémentation : déploiement de l'infrastructure de reprise, configuration des outils de sauvegarde et de réplication, rédaction des procédures.
Tests et validation : simulation d'incidents, mesure des performances réelles par rapport aux objectifs documentés.

Tests et exercices

Un PRAI non testé est considéré comme inopérant dans l'ensemble des référentiels professionnels. Les typologies de tests sont les suivantes :

Revue documentaire (document review) : vérification de la cohérence et de l'exhaustivité des procédures écrites.
Simulation en table (tabletop exercise) : simulation verbale d'un scénario de sinistre sans interruption des systèmes, réunissant les parties prenantes autour d'un scénario fictif.
Test de composant : validation technique d'un sous-système isolé (restauration d'une base de données, bascule réseau).
Test de bascule partielle : mise en œuvre réelle d'une portion du plan sur des systèmes non critiques.
Test de bascule complète : déclenchement de l'intégralité du plan, avec basculement effectif de la production vers le site de reprise.

La fréquence recommandée est d'au moins un test annuel pour les systèmes critiques et un exercice complet tous les deux à trois ans.

Maintenance et mise à jour

Le PRAI doit être révisé lors de chaque évolution significative du système d'information : migration vers le cloud, déploiement de nouvelles applications, fusion d'entreprises, changement de prestataires. Les normes sectorielles imposent une revue formelle minimale annuelle. Les résultats des tests sont documentés et les écarts constatés font l'objet de plans d'action corrective avec délais assignés.

Cadre réglementaire et normatif

Normes internationales

ISO 22301:2019 — Sécurité et résilience — Systèmes de management de la continuité d'activité : norme de référence internationale définissant les exigences d'un système de management de la continuité, dont le DRP constitue un élément central.
ISO/IEC 27031:2011 — Technologies de l'information — Lignes directrices pour la préparation des TIC à la continuité d'activité : norme spécifiquement dédiée à la reprise informatique.
NIST SP 800-34 (Contingency Planning Guide for Federal Information Systems) : guide américain de référence pour les organismes fédéraux, largement repris en dehors des États-Unis.
ITIL v4 : cadre de bonnes pratiques pour la gestion des services informatiques, intégrant la gestion de la disponibilité et de la continuité de service.

Obligations légales en France

La conformité au RGPD (Règlement général sur la protection des données, entré en vigueur en mai 2018) impose aux organisations traitant des données personnelles de mettre en place des mesures techniques garantissant la disponibilité, l'intégrité et la résilience des systèmes de traitement (article 32). Une indisponibilité prolongée constitue un incident de sécurité susceptible d'être notifié à la CNIL dans un délai de 72 heures.

Les établissements de santé sont soumis à des exigences supplémentaires via la politique générale de sécurité des systèmes d'information de santé (PGSSI-S) publiée par l'Agence du numérique en santé (ANS). Les opérateurs d'importance vitale (OIV) et les opérateurs de services essentiels (OSE) relèvent de la directive NIS2, transposée en droit français en 2024, qui impose des obligations renforcées de résilience cybernétique incluant la documentation et le test des plans de continuité et de reprise.

Les établissements financiers sont encadrés par le règlement DORA (Digital Operational Resilience Act), applicable depuis janvier 2025, qui impose aux entités financières des tests de résilience opérationnelle numérique, dont des tests de pénétration fondés sur la menace (TIBER-EU) et des exercices de reprise documentés.

Menaces traitées

Le PRAI couvre un spectre large de menaces :

Cyberattaques : rançongiciels, effacement de données, attaques par déni de service (voir Cybersécurité des PME et Audit de cybersécurité).
Pannes matérielles : défaillance de serveurs, d'équipements de stockage ou d'équipements réseau.
Catastrophes naturelles : inondations, incendies, séismes, tempêtes.
Pannes d'infrastructure : coupures d'alimentation électrique prolongées, défaillances d'opérateurs Internet.
Erreurs humaines : suppressions accidentelles, mauvaises manipulations de configuration, mises à jour défectueuses.
Défaillances de tiers : interruption de service d'un fournisseur de cloud ou d'un éditeur de logiciels en mode SaaS.

Relation avec la cyberassurance

Les compagnies d'assurance proposant des contrats de Cyberassurance exigent désormais, pour la souscription ou le renouvellement, la preuve d'un PRAI formalisé et testé. Les questionnaires de souscription évaluent notamment l'existence de sauvegardes immuables hors ligne, la segmentation du réseau, la fréquence des tests et la présence d'une procédure de gestion des incidents documentée. L'absence d'un plan documenté peut entraîner une augmentation des primes ou un refus de couverture pour les sinistres cyber.

Intelligence artificielle et automatisation

Depuis 2022, les outils d'automatisation intégrant l'intelligence artificielle interviennent à plusieurs niveaux du PRAI :

Détection précoce des anomalies précédant un sinistre : comportements atypiques de fichiers, trafic réseau inhabituel, élévations de privilèges non autorisées.
Orchestration automatique des procédures de bascule sans intervention humaine, réduisant le RTO effectif.
Priorisation dynamique des systèmes à restaurer en fonction de l'évolution en temps réel de l'incident.
Tests automatisés de cohérence des données après restauration.

La blockchain est explorée pour garantir l'intégrité et l'inaltérabilité des journaux d'audit et des preuves de sauvegarde, bien que les déploiements opérationnels à grande échelle restent limités en 2025.

Compétences et formations

La mise en œuvre d'un PRAI mobilise des compétences pluridisciplinaires : architecture des systèmes d'information, réseaux, sécurité informatique, gestion de projet et gestion des risques. Les organisations de taille intermédiaire confient généralement ce rôle à un responsable de la sécurité des systèmes d'information (RSSI) ou à un responsable continuité d'activité.

Les certifications professionnelles reconnues dans ce domaine comprennent :

CBCP (Certified Business Continuity Professional) délivrée par le DRI International.
MBCI (Member of the Business Continuity Institute) délivrée par le BCI.
ISO 22301 Lead Implementer et ISO 22301 Lead Auditor délivrées par des organismes accrédités tels que BSI, Bureau Veritas ou LRQA.
CISA (Certified Information Systems Auditor) délivrée par l'ISACA.

En France, la Formation professionnelle permet d'accéder à ces certifications via des parcours de Formation continue ou de Formation certifiante. Le Compte personnel de formation peut financer certaines formations certifiantes reconnues au RNCP. La Validation des acquis de l'expérience constitue une voie d'accès pour les praticiens expérimentés souhaitant formaliser leur expertise sans suivre un cursus complet. Un Bilan de compétences peut aider les professionnels de l'informatique à identifier les modules de formation prioritaires pour évoluer vers des fonctions de responsable continuité ou de RSSI.

Le métier d'Ingénieur en cybersécurité intègre fréquemment la gestion du PRAI parmi ses attributions, notamment dans les grandes entreprises et les établissements soumis à des obligations réglementaires renforcées.

Voir aussi