Standardafvigelse


Standardafvigelsen eller spredningen bruges inden for sandsynlighedsregning og statistik og er et udtryk for, hvor meget en stokastisk variabel fordeler sig omkring sin middelværdi. Standardafvigelse er lig med kvadratroden af varians og er dermed mål for det samme. Derfor har standardafvigelse i modsætning til varians samme enhed som den stokastiske variabel og kan derfor være lettere at fortolke. Ligesom varians er standardafvigelse afhængig af skala, hvilket for eksempel betyder, at de samme størrelser i centimeter vil have 100 gange så stor standardafvigelse, end hvis de bliver målt i meter.

Indholdsfortegnelse

Definition


Standardafvigelsen for en stokastisk variabel \({\displaystyle X}\) benævnes \({\displaystyle \sigma }\) (eller eventuelt \({\displaystyle \sigma _{X}}\) hvis det skal gøres klart, hvilken stokastiske variabel der er tale om) og er defineret som:

\({\displaystyle \sigma ={\sqrt {{\mbox{E}}[(X-\mu )^{2}}}]}\)

Her angiver \({\displaystyle \mu =E\left(X\right)}\) middelværdien for \({\displaystyle X}\) (det sande gennemsnit).

Standardafvigelsen er altså kvadratroden af middelværdien af kvadraterne på den enkelte observations afvigelse fra middelværdien. Det betyder, at én stor afvigelse har større indflydelse end mange små. Således vil 1 observation med afvigelse på 2 bidrage med en størrelsesorden af 4, hvor 2 observationer med en afvigelse på 1 samlet kun vil bidrage med en størrelsesorden af 2. Dette betyder igen, at blot en enkelt fejlobservation kan påvirke den estimerede standardafvigelsen meget – hvor det vil påvirke gennemsnittet i mindre grad.

Estimation af standardafvigelse


Hvis middelværdien af en stokastisk variabel vides at være \({\displaystyle \mu }\) kan den teoretiske standardafvigelse estimeres som kvadratroden af den empiriske varians:

\({\displaystyle {\hat {\sigma }}={\sqrt {{\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}}}}\),

hvor xi for i = 1..n er observationerne. For en stikprøve med stokastisk variabel med ukendt middelværdi estimeres den teoretiske standardafvigelse normalt som:

\({\displaystyle s={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}\),

hvor \({\displaystyle {\overline {x}}}\) er gennemsnittet af observationerne. Selvom \({\displaystyle s^{2}}\) er et centralt estimat for variansen, er s ikke et centralt estimat for standardafvigelsen[1]. Dette betyder, at der er en systematisk negativ afvigelse mellem den teoretiske standardafvigelse og stikprøvens standardafvigelse, hvis denne formel bruges. Forskellen bliver dog lille, når der er mange observationer og i praksis ses bort fra, at det ikke er et centralt estimat.

For et lille antal observationer (5 eller mindre), kan følgende formel bruges for at opnå et centralt estimat.

\({\displaystyle {\hat {\sigma }}={\frac {{\mbox{max}}(X)-{\mbox{min}}(X)}{d}}}\),

hvor \({\displaystyle {\mbox{max}}(X)-{\mbox{min}}(X)=R}\) angiver variationsbredden for stikprøven. d er en konstant, som afhænger af hvor mange observationer, man har i stikprøven. Nedenstående tabel viser værdier af d for N = 2 ... 10 observationer.

n 2 3 4 5 6 7 8 9 10
d 1,128 1,693 2,059 2,326 2,534 2,704 2,847 2,970 3,078

Man skal være opmærksom på, at for større datasæt vil s være den bedste af de to estimater. Den alternative formel bruges mest indenfor industriel kvalitetskontrol i tilfælde, hvor det ikke er muligt at have en stor stikprøve.

Estimation af standardafvigelsen kan lettes ved brug af formlen

\({\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\bar {x}}^{2}}\),

hvilket betyder, at man kan summere data op løbende uden at beholde de enkelte observationer.

Tolkning af standardafvigelse for normalfordelte variable


For en normalfordelt variabel er det let at tolke standardafvigelsen: 68% af datapunkterne vil være maksimalt én standardafvigelse væk fra gennemsnittet, 95% maksimalt to standardafvigelser og 99,7 maksimalt tre standardafvigelser.

Tabellen viser, hvor mange data der vil ligge indenfor et interval af middelværdien plus/minus de givne spredninger.

σ 68,26894921371%
95,44997361036%
99,73002039367%
99,99366575163%
99,99994266969%
99,99999980268%
99,99999999974%

Referencer


  1. ^ Probability and Statistics for Engineers (2000) af Miller & Freund (Prentice Hall), ISBN 0-13-017974-4, 6. udgave, side 275









Kategorier: Statistik




Oplysninger pr: 02.10.2021 02:22:48 CEST

Kilde: Wikipedia (Forfattere [Historik])    Licens: CC-BY-SA-3.0

Ændringer: Alle billeder og de fleste designelementer, der er relateret til dem, blev fjernet. Nogle ikoner blev erstattet af FontAwesome-Icons. Nogle skabeloner blev fjernet (som "artikel skal udvides) eller tildeles (som" hatnotes "). CSS-klasser blev enten fjernet eller harmoniseret.
Wikipedia-specifikke links, der ikke fører til en artikel eller kategori (som "Redlinks", "links til redigeringssiden", "links til portaler") blev fjernet. Hvert eksternt link har et ekstra FontAwesome-ikon. Foruden nogle små designændringer blev medie-container, kort, navigationsbokse, talte versioner og Geo-mikroformater fjernet.

Bemærk venligst: Da det givne indhold automatisk tages fra Wikipedia på det givne tidspunkt, var og er en manuel verifikation ikke mulig. Derfor garanterer LinkFang.org ikke nøjagtigheden og virkeligheden af det erhvervede indhold. Hvis der er en information, der er forkert i øjeblikket eller har en unøjagtig visning, er du velkommen til at kontakt os: e-mail.
Se også: Aftryk & Fortrolighedspolitik.