Valori anomali in excel
Excel ha molte funzioni sottoutilizzate che possono migliorare notevolmente l’analisi dei dati. Una delle caratteristiche migliori è rappresentata dalle sue capacità statistiche. È quindi possibile trovare facilmente gli outlier in Excel con semplici formule statistiche.
Perché isolare ed eliminare gli outlier nei dati? Uno dei motivi principali è che questi punti di dati estremi alterano i risultati, causando spesso ipotesi fuorvianti. In sostanza, trascinano la media in una direzione positiva o negativa. Eliminando questi punti estremi si ottiene un quadro migliore dei dati.
Per identificare gli outlier in Excel è possibile utilizzare sia visualizzazioni che formule. Cominciamo con alcune statistiche per trovare un outlier in Excel. Consultate un ottimo corso Master Excel da principiante ad avanzato per migliorare rapidamente le vostre competenze.
1. Box Plot – nell’immagine sottostante si può notare che diversi punti si trovano al di fuori del box. Il riquadro rappresenta la tendenza centrale dei dati. È raggruppata intorno a un valore medio. La linea di demarcazione superiore rappresenta il limite della centralizzazione dei dati. Quartili: rappresentano la suddivisione dei dati in trimestri.
Test degli outlier
Gli outlier sono valori di dati che differiscono notevolmente dalla maggior parte dei dati. Questi valori non rientrano in una tendenza generale presente nei dati. L’esame attento di una serie di dati per cercare gli outlier comporta qualche difficoltà. Anche se è facile vedere, eventualmente con l’uso di uno stemplot, che alcuni valori differiscono dal resto dei dati, quanto deve essere diverso il valore per essere considerato un outlier? Esamineremo una misura specifica che ci darà uno standard oggettivo di ciò che costituisce un outlier.
L’intervallo interquartile è il parametro che possiamo utilizzare per determinare se un valore estremo è effettivamente un outlier. L’intervallo interquartile si basa su una parte del riepilogo a cinque numeri di una serie di dati, ovvero il primo quartile e il terzo quartile. Il calcolo dell’intervallo interquartile comporta un’unica operazione aritmetica. Per trovare l’intervallo interquartile è sufficiente sottrarre il primo quartile dal terzo quartile. La differenza risultante ci dice quanto è diffusa la metà dei nostri dati.
Uitschieters bepalen excel
Fig. 3Immagini di esempio del dataset MVTec LOCO AD per ciascuna delle cinque categorie di dataset. Ogni categoria contiene immagini di addestramento, di validazione e di test prive di anomalie. Le immagini di prova aggiuntive contengono varie anomalie strutturali e logiche. Per tutte le anomalie vengono fornite annotazioni di verità a terra precise al pixelImmagine a grandezza naturale
Fig. 17Risultati qualitativi per ciascun metodo valutato sul dataset MVTec AD. La prima e la terza riga contengono esempi di anomalie strutturali, ossia il transistor danneggiato e i fili piegati nella sezione del cavo. La seconda e la quarta riga contengono esempi di anomalie logiche, come l’assenza totale del transistor e la presenza di un cavo blu anziché giallo.
Abbiamo condotto esperimenti approfonditi sul nostro nuovo set di dati e su un sottoinsieme adeguato del set di dati MVTec AD. I nostri risultati hanno dimostrato che i metodi esistenti tendono a essere prevenuti verso il rilevamento di uno dei due tipi di anomalie. Il nostro approccio ha ottenuto le stesse prestazioni nel rilevamento di anomalie strutturali e logiche e ha migliorato lo stato dell’arte nel rilevamento congiunto di entrambe. Tuttavia, a causa della complessità del nostro nuovo set di dati, c’è ancora spazio per futuri miglioramenti.
I valori anomali eccellono
Utilizzare il metodo di rilevamento della media Aprire il Live ScriptIdentificare potenziali outlier in un orario di dati utilizzando il metodo di rilevamento della media, rimuovere eventuali outlier e visualizzare i dati puliti.Creare un orario di dati e visualizzare i dati per rilevare potenziali outlier.T = ore(1:15);
legend(“Dati originali”, “Dati puliti”)Utilizzare il metodo di rilevamento mobile Open Live ScriptUtilizzare una mediana mobile per rilevare e rimuovere gli outlier locali da un’onda sinusoidale che corrisponde a un vettore temporale.Creare un vettore di dati contenente un outlier locale. x = -2*pi:0,1:2*pi;
A(47) = 0;Creare un vettore temporale che corrisponda ai dati in A. t = datetime(2017,1,1,0,0,0) + ore(0:length(x)-1);Definire gli outlier come punti a più di tre MAD scalari locali dalla mediana locale all’interno di una finestra scorrevole. Trovare le posizioni degli outlier in A rispetto ai punti in t con una finestra di 5 ore e rimuoverli. [B,TFrm] = rmoutliers(A, “movmedian”,ore(5), “SamplePoints”,t);Tracciare i dati originali e i dati con l’outlier rimosso.plot(t,A)