Afwijkingsdetectie is een statistische techniek die Analytics Intelligence gebruikt om afwijkingen in tijdseriegegevens voor een bepaalde statistiek en afwijkingen in een segment op hetzelfde tijdstip te identificeren.
Afwijkingen in statistieken in de loop van de tijd identificeren
Intelligence past een Bayesiaans toestandruimte-tijdseriemodel toe op de historische gegevens om de waarde van het meest recente gegevenspunt in de tijdserie te voorspellen. Het model genereert een voorspelling en een geloofwaardig interval die we gebruiken om de waargenomen statistiek te evalueren.
Op basis van historische gegevens voorspelt Analytics Intelligence de waarde van de statistiek in de huidige periode en markeert het datapunten als afwijking als de werkelijke waarde buiten het geloofwaardige interval valt. Voor de detectie van afwijkingen per uur is de trainingsperiode 2 weken. Voor de detectie van dagelijkse afwijkingen is de trainingsperiode 90 dagen. Voor de detectie van wekelijkse afwijkingen is de trainingsperiode 32 weken.
Afwijkingen binnen een segment op hetzelfde tijdstip identificeren
Hoewel voor op tijdserie gebaseerde afwijkingsdetectie historische gegevens worden gebruikt om één statistiek binnen één dimensiewaarde te markeren, bieden we ook gelijktijdige afwijkingsdetectie op meerdere statistieken en dimensiewaarden, op een bepaald tijdstip.
Bij deze aanpak gebruiken we hoofdcomponentenanalyse (Principal Component Analysis, PCA) om de correlatiestructuur van de statistieken te benutten in combinatie met kruisvalidatie om afwijkingen te markeren.
Eerst identificeren we de set dimensies en statistieken waarop de PCA wordt uitgevoerd. Op basis van alle mogelijke dimensiewaarden maken we meerdere segmenten en normaliseren dan elke statistiek op basis van het aantal gebruikers in een segment. Vervolgens voeren we de PCA uit voor die segmenten en genormaliseerde statistieken. Als een bepaald segment afwijkend gedrag vertoont voor een statistiek en ten minste 0,05% van de gebruikers in die property omvat, worden die segmenten gemarkeerd als afwijkingen. Momenteel voeren we deze analyse wekelijks uit.