Hur man upptäcker outliers: 10 steg (med bilder)

Innehållsförteckning:

Hur man upptäcker outliers: 10 steg (med bilder)
Hur man upptäcker outliers: 10 steg (med bilder)

Video: Hur man upptäcker outliers: 10 steg (med bilder)

Video: Hur man upptäcker outliers: 10 steg (med bilder)
Video: 7 olika sätt att forma kanelbullar | Lär dig baka med Camilla Hamid 2024, November
Anonim

I statistik är en outlier eller "outlier" en datum som avviker mycket långt från någon annan datum inom ett urval eller en uppsättning datums (uppsättningen datums kallas data). Ofta kan en outlier i en datumuppsättning tjäna som en varning för statistikern om en abnormitet eller experimentellt fel i de mätningar som gjorts, vilket kan leda till att statistikern tar bort outliern från datumuppsättningen. Om statistikern tar bort avvikelserna från datumuppsättningen kan slutsatserna från studien vara mycket olika. Därför är det mycket viktigt att veta hur man beräknar och analyserar avvikare för att säkerställa korrekt förståelse av en statistisk datumuppsättning.

Steg

Beräkna avvikare Steg 1
Beräkna avvikare Steg 1

Steg 1. Lär dig hur du identifierar potentiellt outlier -datums

Innan vi bestämmer oss för om vi ska ta bort outlier -datums från datumuppsättningen eller inte, måste vi naturligtvis identifiera vilka datums som har potential att bli outliers. I allmänhet är en outlier en datum som avviker mycket långt från de andra datumen i en datumuppsättning - med andra ord är en outlier "utanför" de andra datumsna. Det är vanligtvis enkelt att upptäcka avvikelser i en datatabell eller (i synnerhet) en graf. Om en uppsättning datums beskrivs visuellt med en graf, kommer utfallets datum att verka "väldigt långt" från de andra datumen. Om till exempel de flesta datum i en datumuppsättning bildar en rak linje, kommer utfallets datum inte rimligen att tolkas som att den utgör den linjen.

Låt oss titta på en uppsättning datums som representerar temperaturen på 12 olika objekt i ett rum. Om 11 objekt har en temperatur på cirka 70 Fahrenheit (21 grader Celsius), men det 12: e föremålet, en ugn, har en temperatur på 300 Fahrenheit (150 grader Celsius), kan det omedelbart ses att ugnstemperaturen mycket sannolikt är en outlier

Beräkna avvikare Steg 2
Beräkna avvikare Steg 2

Steg 2. Ordna datums i en uppsättning datums från lägsta till högsta

Det första steget för att beräkna avvikare i en datumuppsättning är att hitta medianen (mittenvärdet) för den datummängden. Denna uppgift blir mycket enkel om datums i en uppsättning datums är ordnade från de minsta till de största. Så, innan du fortsätter, ordna datumen i en sådan datumuppsättning.

Låt oss fortsätta exemplet ovan. Detta är vår uppsättning datums som representerar temperaturen på flera objekt i ett rum: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Om vi ordnar datumen från lägsta till högsta, blir ordningen på datumen: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Beräkna avvikare Steg 3
Beräkna avvikare Steg 3

Steg 3. Beräkna medianen för datumuppsättningen

Medianen för en datumuppsättning är en datum där den andra halvan av datumet ligger ovanför detta datum och den återstående halvan är under det - i grund och botten är det datumet som ligger i "mitten" av datumuppsättningen. Om antalet datum i en datumuppsättning är udda är det mycket lätt att hitta - medianen är den datum som har samma tal ovanför och under den. Men om antalet datum i uppsättningen datums är jämnt, eftersom ingen datum passar i mitten, är de 2 datumen i mitten i genomsnitt för att hitta medianen. Det bör noteras att medianen tilldelas vanligtvis variabeln Q2-ni, när Q2 är mellan Q1 och Q3, den nedre och övre kvartilen, som vi kommer att diskutera senare vid beräkning av extremvärden.

  • För att inte förväxla med en datumuppsättning där antalet datum är jämnt-genomsnittet av de två mellersta datumen kommer ofta att returnera ett tal som inte finns i själva uppsättningen datum-det här är okej. Men om de två mellersta datumen är samma tal, kommer genomsnittet naturligtvis också att vara samma tal, vilket också är bra.
  • I exemplet ovan har vi 12 datum. De två mellersta datumen är 6: e och 7: e datumen-70 respektive 71. Medianen för vår uppsättning datums är alltså genomsnittet av dessa 2 nummer: ((70 + 71) / 2), = 70.5.
Beräkna avvikare Steg 4
Beräkna avvikare Steg 4

Steg 4. Beräkna den nedre kvartilen

Detta värde, som vi ger variabeln Q1, är datumet som representerar 25 procent (eller en fjärdedel) av datumen. Med andra ord är det datumet som skär halvorna som ligger under medianen. Om antalet datum under medianen är jämnt måste du återigen genomsnitta de 2 datumen i mitten för att hitta Q1, precis som du skulle hitta själva medianen.

I vårt exempel finns det 6 datums som ligger ovanför medianen och 6 datums som ligger under medianen. Detta betyder att för att hitta den nedre kvartilen måste vi genomsnittliga de 2 datumen i mitten av de 6 datumen under medianen. Tredje och fjärde datum av 6 datum under medianen är båda 70. Så, genomsnittet är ((70 + 70) / 2), = 70. 70 blir vårt första kvartal.

Beräkna avvikare Steg 5
Beräkna avvikare Steg 5

Steg 5. Beräkna den övre kvartilen

Det här värdet, som vi ger variabeln Q3, är datumet på vilket det finns 25 procent av datumen i datumuppsättningen. Att hitta Q3 är i stort sett detsamma som att hitta Q1, förutom att vi i det här fallet tittar på datumen ovanför medianen, inte under medianen.

I fortsättning av vårt exempel ovan är de 2 datumen i mitten av de 6 datumen ovanför medianen 71 och 72. Genomsnittet av dessa 2 datum är ((71 + 72)/2), = 71, 5. 71, 5 är vår Q3.

Beräkna avvikare Steg 6
Beräkna avvikare Steg 6

Steg 6. Hitta mellankvartilavståndet

Nu när vi har hittat Q1 och Q3 måste vi beräkna avståndet mellan dessa två variabler. Avståndet från Q1 till Q3 hittas genom att subtrahera Q1 från Q3. De värden du får för interkvartila avstånd är mycket viktiga för att definiera gränserna för icke-outlier-datums i din datumuppsättning.

  • I vårt exempel är våra värden för Q1 och Q3 70 och 71, 5. För att hitta det interkvartila avståndet, subtraherar vi Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Det bör noteras att detta också är sant även om Q1, Q3 eller båda är negativa tal. Till exempel, om vårt Q1 -värde var -70, skulle vårt korrekta interkvartila avstånd vara 71,5 -(-70) = 141, 5.
Beräkna avvikare Steg 7
Beräkna avvikare Steg 7

Steg 7. Hitta det "inre staketet" i referensuppsättningen

Avvikelser hittas genom att kontrollera om datumet faller inom de talgränser som kallas "inre staket" och "yttre staket". Ett datum som faller utanför det inre staketet för referensuppsättningen kallas för en”mindre avvikelse”, medan ett datum som faller utanför det yttre staketet kallas för en”större avvikelse”. För att hitta det inre staketet i din datumuppsättning multiplicerar du först det interkvartila avståndet med 1, 5. Lägg sedan till resultatet med Q3 och subtrahera det från Q1. De två värdena du får är de inre stängselgränserna för din datumuppsättning.

  • I vårt exempel är interkvartilavståndet (71,5 - 70), eller 1,5. Multiplicera 1,5 med 1,5 vilket resulterar i 2,25. Vi lägger till detta tal till Q3 och vi subtraherar Q1 med detta nummer för att hitta gränserna för det inre staketet enligt följande:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Så, gränserna för vårt inre staket är 67, 75 och 73, 75.
  • I vår uppsättning datums är endast ugnstemperaturen 300 Fahrenheit utanför dessa gränser och därför är detta datum en mindre avvikelse. Vi har dock fortfarande inte beräknat om denna temperatur är en större avvikelse, så dra inte slutsatser förrän vi har gjort våra beräkningar.

    Beräkna avvikare Steg 7Bullet2
    Beräkna avvikare Steg 7Bullet2
Beräkna avvikare Steg 8
Beräkna avvikare Steg 8

Steg 8. Hitta det "yttre staketet" i referensuppsättningen

Detta görs på samma sätt som att hitta det inre staketet, förutom att det interkvartila avståndet multipliceras med 3 istället för 1,5. Resultatet läggs sedan till Q3 och subtraheras från Q1 för att hitta de övre och nedre gränserna för det yttre staketet.

  • I vårt exempel multiplicerar det interkvartila avståndet med 3 (1, 5 x 3) eller 4, 5. Vi hittar gränserna för det yttre staketet på samma sätt som tidigare:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Gränserna för det yttre staketet är 65,5 och 76.
  • De datum som ligger utanför gränsen för det yttre staketet kallas stora outliers. I det här exemplet ligger ugnstemperaturen, 300 Fahrenheit, klart utanför det yttre staketet, så detta datum är "definitivt" en stor avvikelse.

    Beräkna avvikare Steg 8Bullet2
    Beräkna avvikare Steg 8Bullet2
Beräkna avvikare Steg 9
Beräkna avvikare Steg 9

Steg 9. Använd kvalitativ bedömning för att avgöra om du ska”kassera” outlier -datumet eller inte

Med hjälp av den metod som beskrivs ovan kan det fastställas om en datum är en mindre datum, en viktig datum eller inte en avvikelse alls. Men gör inget misstag - att hitta en datum som en outlier markerar endast den datumet som en "kandidat" som ska tas bort från datumuppsättningen, inte som en datum som "bör" kasseras. "Orsaken" som gör att en outlier -datum avviker från andra datum i en datumuppsättning är mycket viktig för att avgöra om den ska kasseras eller inte. I allmänhet kan en outlier orsakad av ett fel i mätning, inspelning eller experimentell planering till exempel kasseras. Å andra sidan kasseras vanligtvis inte avvikare som inte orsakas av fel och som indikerar ny information eller trender som inte tidigare var förutsagda.

  • Ett annat kriterium att överväga är om outlier har stor effekt på medelvärdet av en datumuppsättning, dvs. om outlier förvirrar det eller får det att verka fel. Detta är mycket viktigt att tänka på om du tänker dra slutsatser från genomsnittet av din datamängd.
  • Låt oss studera vårt exempel. I det här exemplet, eftersom det verkar "högst" osannolikt att ugnen nått 300 Fahrenheit genom oförutsägbara naturkrafter, kan vi med nästan säkerhet konstatera att ugnen av misstag lämnades, vilket resulterade i en datumavvikelse vid hög temperatur. Om vi inte tar bort extrema värden är vårt datumvärde medelvärde (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheit (32 grader Celsius)), medan genomsnittet om vi tar bort extremvärdena är (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheit (21 grader Celsius).

    Eftersom dessa avvikelser orsakades av mänskliga fel och eftersom det skulle vara felaktigt att säga att den genomsnittliga rumstemperaturen når nästan 32 grader Celsius, är det bättre att välja att "kasta" våra avvikare

Beräkna avvikare Steg 10
Beräkna avvikare Steg 10

Steg 10. Vet vikten (ibland) av att upprätthålla outliers

Även om vissa avvikare bör tas bort från datumuppsättningen eftersom de orsakar fel och/eller gör resultaten felaktiga eller felaktiga, bör vissa avvikelser bibehållas. Om till exempel en outlier verkar vara naturligt förvärvad (det vill säga inte resultatet av ett fel) och/eller ger ett nytt perspektiv på det fenomen som studeras, bör outlierna inte tas bort från datumuppsättningen. Vetenskaplig forskning är vanligtvis en mycket känslig situation när det gäller outliers - felaktigt borttagande av outliers kan innebära att man kastar information som indikerar en ny trend eller upptäckt.

Till exempel, låt oss säga att vi utformar ett nytt läkemedel för att öka storleken på fisk i en fiskdamm. Vi kommer att använda vår gamla uppsättning datums ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), förutom att den här gången representerar varje datum fiskens vikt (i gram) efter att ha fått ett annat experimentellt läkemedel från födseln. Med andra ord får det första läkemedlet en fisk att väga 71 gram, det andra läkemedlet får en annan fisk att väga 70 gram osv. I det här fallet är 300 "fortfarande" en stor outlier, men vi bör inte kasta detta datum eftersom det, förutsatt att det erhölls utan fel, representerar en framgång i studien. Läkemedlet som kan få fisk att väga 300 gram fungerar bättre än alla andra droger, så detta datum är faktiskt det "viktigaste" i vår datumuppsättning, inte den "minst viktiga"

Rekommenderad: