Regressionsanalyse


Regressionsanalyse er en gren af statistikken, der undersøger sammenhængen mellem en afhængig variabel (også kaldet responsvariabel eller endogen variabel) og andre specificerede uafhængige variable (også kaldet baggrundsvariable eller eksogene variable). Man forsøger altså at opstille en matematisk sammenhæng mellem en række observerede størrelser ved at tage højde for den statistiske usikkerhed. Når modellen er fastlagt, kan man benytte den til at forudsige værdien af den afhængige variabel ud fra andre værdier af baggrundsvariablene, og desuden kan modellen i sig selv give indsigt i de dybereliggende faktorer bag variablenes sammenhæng.

Den matematiske model af variablernes sammenhæng kaldes regressionsligningen. Den afhængige variabel modelleres som en stokastisk variabel på grund af den indbyggede usikkerhed angående dens værdi, givet værdierne af de andre uafhængige variable. En regressionsligning indeholder estimater (dvs. skøn) af en eller flere regressionsparametre ("konstanter"), som kvantitativt forbinder den afhængige og de uafhængige variable. Parametrene estimeres fra det givne datasæt.

Brug af regressionsanalyse inkluderer forudsigelser, modellering af årsagsbestemte forhold samt test af videnskabelige hypoteser om sammenhæng mellem variable.

Indholdsfortegnelse

Historie


Udtrykket "regression" blev brugt i det 19. århundrede til at beskrive biologiske fænomener, nemlig at børn af exceptionelle individer har en tendens til i gennemsnit at være mindre exceptionelle end deres forældre og mere som deres fjerne forfædre. Francis Galton studerede dette fænomen og overførte det lidt misvisende udtryk "regression mod middelmådighed" til det. For Galton havde regression kun denne biologiske betydning, men hans værk[1] blev senere udvidet af Udny Yule og Karl Pearson til en mere generel statistisk kontekst.[2]

Simpel lineær regression


Lineær regressionsanalyse bygger på den antagelse, at sammenhængen mellem de variable der kan beskrives lineært. Det betyder, at grafen for regressionsligningen vil være en ret linje, hvis der kun er én baggrundsvariabel, eller en hyperplan, hvis der er flere baggrundsvariable.

I det mest simple tilfælde er der kun én baggrundsvariabel. Lad \({\displaystyle x_{1},\ldots ,x_{n}}\) betegne de \({\displaystyle n}\) observerede værdier af den uafhængige variabel (forklaringsvariablen) og lad \({\displaystyle y_{1},\ldots ,y_{n}}\) betegne de tilsvarende værdier for responsvariablen (den afhængige variabel). Den generelle form for en simpel lineær regression er da

\({\displaystyle y_{i}=\nu +\beta x_{i}+\varepsilon _{i}}\)

hvor \({\displaystyle \nu }\) er den lodrette skæring med andenaksen, \({\displaystyle \beta }\) er regressionslinjens hældning og \({\displaystyle \varepsilon }\) er fejlleddet, som dækker over den statistiske usikkerhed. Fejlleddet antages sædvanligvis at være normalfordelt. Altså er \({\displaystyle x}\) og \({\displaystyle y}\) kendte størrelser, og \({\displaystyle \nu }\) og \({\displaystyle \beta }\) er de ukendte parametre, der skal estimeres ud fra dataene. Parameterestimaterne kan udledes af mindste kvadraters metode, og de benævnes normalt henholdsvis \({\displaystyle {\hat {\nu }}}\) og \({\displaystyle {\hat {\beta }}}\) eller deres tilsvarende romerske bogstaver. Man kan vise, at estimaterne ved mindste kvadraters metode er givet ved

\({\displaystyle {\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}\)     og     \({\displaystyle {\hat {\nu }}={\bar {y}}-{\hat {\beta }}{\bar {x}}}\)

hvor \({\displaystyle {\bar {y}}}\) er gennemsnittet af \({\displaystyle y}\)-værdierne og \({\displaystyle {\bar {x}}}\) er gennemsnittet af \({\displaystyle x}\)-værdierne.

Når regressionslinjens ligning er bestemt, kan man indsætte en værdi på \({\displaystyle t}\)'s plads og derved finde den \({\displaystyle x}\)-værdi, som modellen forudsiger hører til. Det er desuden muligt at udregne sædvanlige statistiske størrelser for dette skøn, blandt andet standardafvigelse og konfidensintervaller. Den fundne linje vil være sikrest bestemt omkring \({\displaystyle {\bar {t}}}\), mens skøn over meget store eller meget små værdier af baggrundsvariablen vil resultere i stor varians for estimatet.

Generalisering af den simple model


Den simple model ovenfor kan generaliseres på forskellige måder.

Regressionsvaliditet


Når en regressionsmodel er blevet konstrueret, er det vigtigt at bekræfte modellens validitet (dvs. hvor godt den passer med observationerne og antagelserne) samt signifikansen af de estimerede parametre (dvs. om de enkelte parametre kan antages at have en anden given værdi – typisk 0). Almindeligt brugte test for modeltilpasningen omfatter blandt andet R², analyser af residualernes mønster samt konstruktion af ANOVA-tabellen. Statistisk signifikans tjekkes ved et F-test af den overordnede tilpasning, efterfulgt af t-test af de individuelle parametre.

Estimation af parametre


Regressionsmodellens parametre kan estimeres på mange måder. De mest almindelige er

For en model med normalfordelte fejl giver mindste kvadraters metode og likelihood-metoden de samme resultater (se Gauss-Markov-sætningen).

Interpolation og ekstrapolation


Regressionsmodeller forudsiger en værdi for \({\displaystyle x}\)-variablen givet nogle kendte værdier af \({\displaystyle t}\)-variablene. Hvis forudsigelserne skal udføres inden for det område, som \({\displaystyle t}\)-variablene ligger i, kaldes det interpolation. Forudsigelser uden for dataenes rækkevidde kaldes ekstrapolation og er mere risikable.

Hvis man eksempelvis har data for en persons højde målt hver anden måned, vil det at udregne den estimerede højde for hver måned ud fra modellen være interpolation. Hvis man bruger modellen til at udregne højden nogle måneder frem i tiden, er der tale om ekstrapolation.

Underliggende antagelser


Regressionsanalyse afhænger af visse antagelser:

  1. Baggrundsvariablene skal være lineært uafhængige, dvs. det må ikke være muligt at udtrykke en af baggrundsvariablene som en lineær kombination af de andre.
  2. Målingerne skal være uafhængige af hinanden.
  3. Fejlleddet skal være normalfordelt og uafhængigt af målingerne (normalfordelingsantagelsen kan omgås i andre modeller).
  4. Fejlleddets varians skal være ens for alle målingerne.

Brug af regressionsanalyse


Regressionsanalyse spiller en store rolle inden for mange videnskabelige områder.

Regressionsanalyse bliver også benyttet i mere eksotiske sammenhænge. Mange analytikere har benyttet sig af regressioner til at undersøge datamateriale i form af baseballstatistikker for at påvise forhold mellem forskellige aspekter af sporten. Eksempelvis er baseballanalysefirmaet Baseball Prospectus ved hjælp af regressionsanalyse kommet frem til, at de eneste forudsigeligt vigtige elementer, som et baseballhold skal besidde for at have succes i baseballslutspillet, er en god closer, en god defensiv samt pitchers, der kaster mange strikeouts.[3]

Software


Se også


Noter


  1. ^ Francis Galton. Typical laws of heredity, Nature 15 (1877), 492-495, 512-514, 532-533. (Galton bruger udtrykket "reversion" i denne afhandling, som diskuterer ærters størrelse.); Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton bruger udtrykket "regression" i denne afhandling, som diskuterer menneskers højde.)
  2. ^ G. Udny Yule. On the Theory of Correlation, J. Royal Statist. Soc., 1897, s. 812-54; Karl Pearson, G. U. Yule, Norman Blanchard og Alice Lee. The Law of Ancestral Heredity, Biometrika (1903). I Yules og Pearsons arbejde bliver den simultane fordeling af respons- og baggrundsvariablene antaget at være en normalfordeling. Denne antagelse blev svækket af R.A. Fisher i hans værker fra 1922 og 1925 (R.A. Fisher, The goodness of fit of regression formulae, and the distribution of regression coefficients, J. Royal Statist. Soc., 85, 597-612 fra 1922 og Statistical Methods for Research Workers fra 1925). Fisher antog, at den betingede fordeling af responsvariablen var en normalfordeling, men den simultane fordeling behøvede det ikke. I denne henseende er Fishers antagelse tættere på Gauss' formulering fra 1821.
  3. ^ Baseball Prospectus (2006). Jonah Keri (red.). Baseball Between the Numbers. pp. 352-368. ISBN 0-465-00596-9.

Litteraturhenvisninger


Evan J. Williams, "I. Regression," s. 523-41.
Julian C. Stanley, "II. Analysis of Variance," s. 541-554.

Eksterne henvisninger











Kategorier: Statistik




Oplysninger pr: 17.01.2022 08:16:19 CET

Kilde: Wikipedia (Forfattere [Historik])    Licens: CC-BY-SA-3.0

Ændringer: Alle billeder og de fleste designelementer, der er relateret til dem, blev fjernet. Nogle ikoner blev erstattet af FontAwesome-Icons. Nogle skabeloner blev fjernet (som "artikel skal udvides) eller tildeles (som" hatnotes "). CSS-klasser blev enten fjernet eller harmoniseret.
Wikipedia-specifikke links, der ikke fører til en artikel eller kategori (som "Redlinks", "links til redigeringssiden", "links til portaler") blev fjernet. Hvert eksternt link har et ekstra FontAwesome-ikon. Foruden nogle små designændringer blev medie-container, kort, navigationsbokse, talte versioner og Geo-mikroformater fjernet.

Bemærk venligst: Da det givne indhold automatisk tages fra Wikipedia på det givne tidspunkt, var og er en manuel verifikation ikke mulig. Derfor garanterer LinkFang.org ikke nøjagtigheden og virkeligheden af det erhvervede indhold. Hvis der er en information, der er forkert i øjeblikket eller har en unøjagtig visning, er du velkommen til at kontakt os: e-mail.
Se også: Aftryk & Fortrolighedspolitik.