Atténuer le coût des temps d'arrêt à l'ère de l'intelligence artificielle

La capacité à prédire les pannes matérielles avec un certain degré de précision offre la possibilité de réaliser des économies considérables pour les fournisseurs de services ayant d'importants investissements dans les technologies de l'information (TI). Pour les entreprises clientes qui exploitent à grande échelle des plateformes coûteuses de calcul haute performance (HPC) et d'intelligence artificielle (AI), la disponibilité de leur offre de services est primordiale : un système en panne bloque les clients et piège les ressources, les rendant inutilisables à grands frais. Une panne de ce type peut entraîner une perte de revenus, avoir un impact sur la productivité globale des employés et nuire à l'image de marque d'une entreprise. Selon le secteur d'activité, des études ont montré que le coût moyen d'une heure d'indisponibilité non planifiée peut aller de 100 000 dollars à plus de 500 000 dollars par heure[1] [2].

Entrer dans l'analyse prédictive des défaillances (APD)

En évaluant de grandes quantités de données historiques, l'analyse prédictive des défaillances (APD) peut fournir des indications précieuses sur la probabilité d'une panne. Les puces, les cartes de circuits imprimés, les disques durs et les connexions soudées ont tous une durée de vie limitée. Les tendances observées dans les données historiques sur les défaillances peuvent indiquer un horizon temporel pour les défaillances futures.

Pour les grands fabricants d'équipements ou d'automobiles (et leurs clients), l'IFP peut potentiellement améliorer la durée de vie des actifs, ce qui permet de réduire les dépenses futures jusqu'à 5 %. L'IFP peut également être utilisée pour programmer la maintenance lorsque les opérateurs et les techniciens sont plus disponibles et moins chers, ce qui permet de réaliser des gains d'efficacité et des économies pouvant aller jusqu'à 20 %[3].

De nombreux facteurs peuvent avoir un impact sur la performance de l'IFP. En fonction de la charge de travail moyenne du système en question, de l'étendue des données historiques utilisées et des algorithmes d'apprentissage automatique (ML) ou d'apprentissage profond (DL) impliqués, la précision de l'IFP peut être remise en question.

Les régressions linéaires et polynomiales sont souvent utilisées pour déterminer la durée de vie utile restante (RUI), tandis que les algorithmes de mémoire à long terme (LSTM) et de forêt aléatoire peuvent être utilisés pour affiner les prédictions de défaillance avec plus ou moins de succès. [4] [5] [6] 

S'il est clair que la PFA présente des avantages tangibles, elle n'est pas infaillible. Pour assurer le même niveau de disponibilité des services et protéger la valeur des investissements en capital, il est judicieux d'envisager de compléter tout programme d'assistance utilisant l'IFP par un contrat de télémaintenance.

Les mains à distance comme police d'assurance

L'utilisation des mains à distance en conjonction avec l'IFP offre des avantages pour les arrêts planifiés et non planifiés.  

Une panne planifiée peut être programmée longtemps à l'avance, ce qui permet d'affecter les ressources au moment où elles sont disponibles et le plus abordables. Les fournisseurs d'assistance à distance bénéficient également d'économies d'échelle : Avec des ressources abondantes à déployer, il est possible de réaliser des économies significatives par rapport à l'embauche, à la formation et à la gestion de vos propres techniciens. (Un ingénieur surchargé peut facilement coûter plusieurs dizaines de milliers d'euros par an, voire plus, en fonction des compétences requises).

Dans le cas d'une panne imprévue, le rétablissement du service est la première préoccupation. Une panne imprévue sans contrat de télémaintenance prendra plus de temps à résoudre. Les ressources déployées pour dépanner et résoudre le problème sur place doivent d'abord être vérifiées, assurées et embarquées avant d'être déployées. Le fournisseur de services de télémaintenance, qui dispose de ressources à grande échelle, aura déjà vérifié et affecté les ressources, ce qui se traduira par un temps de réponse plus rapide.

Investissement technologique stratégique

Selon la nature du service, une panne prolongée dans un environnement de grande taille peut facilement coûter des millions de dollars. Un contrat de télémaintenance, seul ou dans le cadre d'un plan de reprise après sinistre plus large incluant la PFA, peut être traité comme un poste de dépenses, voire capitalisé dans le cadre d'un abonnement à un logiciel ou à un service plus important.

Une légère augmentation des coûts opérationnels pourrait très bien vous protéger des millions de dollars de pertes associées à une interruption de service prolongée.

Quelle approche adopter pour justifier un investissement dans l'assistance à distance ? Les indicateurs financiers varient d'une entreprise à l'autre, mais il est possible d'en tirer quelques illustrations.

Étude de cas

Vous évaluez un contrat de télémaintenance de 250 000 dollars pour couvrir trois environnements dans des centres de données en Amérique du Nord pendant un an. Vous estimez le coût des temps d'arrêt à 100 000 dollars par heure en tout et pour tout (y compris les ressources inutilisées, le manque à gagner, l'impact sur l'image de marque, etc.) La dernière fois que vous avez connu une panne de matériel, votre application a été indisponible pendant six heures. L'impact net pour l'entreprise a été de 600 000 dollars.

Les services financiers des entreprises n'approuveront pas les dépenses informatiques si l'investissement n'atteint pas un taux de rendement minimal acceptable de 10 %.

L'un des avantages attendus d'un contrat de télémaintenance est la réduction du temps moyen de rétablissement (MTTR) en cas de panne imprévue. Les estimations suggèrent que le MTTR peut être réduit de manière significative. Une réduction du MTTR de 50 % pour la panne précédente aurait permis d'économiser 300 000 dollars en rétablissant le service trois heures plus tôt.

Les services financiers de l'entreprise devraient-ils autoriser l'achat de ce contrat de télémaintenance en tant que police d'assurance pour aider à réduire les futurs temps d'arrêt non planifiés ?

Nous utiliserons une formule simple pour le retour sur investissement :

ROI = (Bénéfice net / Coût de l'investissement) * 100

Dans ce cas, le bénéfice net correspondrait aux 300 000 dollars d'économies moins le coût du contrat de 250 000 dollars, soit 50 000 dollars.

ROI = (300 000 $ - 250 000 $)/250 000 $ * 100

50 000 $ divisés par 250 000 $ représentent 20 %, soit le double du MARR exigé par la finance.

(N'oubliez pas que ce rendement est mesuré par rapport à une seule panne. En cas d'interruptions multiples et imprévues au cours d'une même année, les économies réalisées seraient considérablement plus importantes).

Le service financier de l'entreprise devrait approuver l'investissement dans le contrat de télémaintenance.

Résumé

L'intelligence artificielle a fait de grands progrès dans le domaine de l'analyse prédictive des défaillances, et l'efficacité de l'analyse prédictive des défaillances ne fera qu'augmenter dans les mois et les années à venir.

Entre-temps, la nécessité de protéger les investissements demeure. Un investissement stratégique dans un contrat de télémaintenance peut contribuer à atténuer l'impact financier des pannes imprévues, tout en vous aidant à tirer parti de la flexibilité des fenêtres de temps d'arrêt planifiées.

Notes

[1] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7

[2] Yadav, D. K., Kaushik, A. et Yadav, N. (n.d.). Predicting machine failures using machine learning and deep learning algorithms (Prévoir les défaillances des machines à l'aide d'algorithmes d'apprentissage automatique et d'apprentissage profond). ScienceDirect. https://www.elsevier.com/locate/smse

[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry

[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd

[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime

[6] Extrait de "Predictive Maintenance : Deloitte's Approach " https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf

 

Thèmes : Mains à distance, apprentissage automatique (ML), intelligence artificielle (IA), apprentissage profond (DL), productivité, centres de données, cloud, analyse prédictive des défaillances (PFA), réseau neuronal récurrent (RNN), calcul à haute performance (HPC), finance d'entreprise, investissements stratégiques, régression linéaire, mémoire à long terme à court terme (LSTM), forêts aléatoires, théorie du portefeuille.

Précédent
Précédent

H100 vs. H200 vs. B200 : Choisir les bons GPU NVIDIA pour votre charge de travail en IA

Suivant
Suivant

La révolution Computex 2025 de NVIDIA : Transformer les centres de données en usines d'IA