Datadog, fournisseur de la plateforme de monitoring et de sécurité des applications cloud, a annoncé aujourd’hui deux nouvelles fonctionnalités pour Watchdog, son moteur d’IA : détection d’anomalies sur les logs (“Log Anomaly Detection”) et analyse des causes racines (“Root Cause Analysis”).
Les environnements applicatifs actuels étant hautement dynamiques, il est impossible pour les ingénieurs d’anticiper et de développer des règles permettant de détecter tous les comportements anormaux possibles qui pourraient impacter les performances et la disponibilité des applications. Intégré à la plateforme d’observabilité de Datadog, Watchdog analyse des milliards d’événements et apprend à quoi ressemble un comportement « normal », afin d’informer de manière proactive les utilisateurs lorsque des anomalies qu’ils n’auraient autrement pas anticipées se produisent. Les deux nouvelles fonctionnalités de Watchdog vont encore plus loin.
Log Anomaly Detection définit automatiquement les comportements normaux dans les logs et découvre de manière proactive les anomalies telles que les nouvelles structures de texte, les changements significatifs dans les volumes de données des comportements existants et les erreurs aberrantes. Grâce à cette nouvelle fonctionnalité, les utilisateurs de Datadog Log Management sont en mesure de voir et de traiter rapidement les problèmes cachés avant qu’ils ne se transforment en incidents critiques.
Root Cause Analysis fonctionne avec les produits d’APM de Datadog pour identifier automatiquement les relations de causalité entre les différents symptômes d’un problème à travers tous les services de l’entreprise. Cela permet d’identifier le service précis à l’origine du problème. Lorsque Datadog RUM (“Real User Monitoring”) est déployé dans un environnement, l’impact commercial du problème est immédiatement quantifié et ajouté. Cette nouvelle fonction unique permet souvent de résoudre en quelques minutes seulement les problèmes de causalité et d’impact utilisateur, diagnostics qui prennent souvent des heures ou des jours lorsqu’ils sont effectués manuellement.
« Le défi constant avec l’IA est d’équilibrer le volume des alertes. Si le volume d’alertes est trop élevé, il risque de surcharger les systèmes de monitoring et d’entraîner une fatigue liée aux alertes. S’il est trop faible, vous risquez de passer à côté de quelque chose qui pourrait avoir un impact critique sur votre activité », déclare Brent Montague, Site Reliability Architect chez Cvent. « Watchdog aide nos équipes à se concentrer sur les signaux importants en faisant apparaître des événements qui ne sont généralement pas détectés par les alertes traditionnelles. Regarder Watchdog chaque matin m’aide à mieux comprendre tout ce qui se passe sur l’ensemble de notre pile technologique. Grâce à Root Cause Analysis, nous disposons de toutes les informations essentielles dont nous avons besoin pour que nos équipes soient en mesure de rapidement et efficacement enquêter et résoudre les problèmes critiques de l’entreprise. »
« Avec la complexité croissante des environnements basés sur le cloud et les volumes de données de télémétrie en constante augmentation, les entreprises ont du mal à séparer les signaux clés du bruit lorsqu’elles surveillent leur pile technologique », déclare Omri Sass, Group Product Manager of APM chez Datadog. « Nous avons conçu Watchdog comme une couche d’intelligence omniprésente qui offre des informations contextuelles directement dans le workflow de l’utilisateur et le dirige vers les zones qui ont le plus besoin de son attention. »
Root Cause Analysis et Log Anomaly Detection ne nécessitent aucune configuration supplémentaire et sont disponibles par défaut pour les utilisateurs d’APM et de Log Management de Datadog.