Regression

This project is maintained by mattiasvillani

Regressions- och tidsserieanalys, 7.5 hp

regression data salary vs years since PhD Bikeshare data by season Swedish inflation data and prediction EEG time series

Momentets innehåll

Regressionsanalys är en central statistisk metod som kan användas för att analysera samband mellan variabler och för att göra prediktioner. Regression används inom alla områden som arbetar med dataanalys, t ex inom empirisk samhällsvetenskap, ekonomi och finans, i analys av resultat från medicinska studier. Regression är också grunden för maskininlärning och artificiell intelligens. Funktionsformen för sambandet kan vara linjärt eller icke-linjärt. Teorin för punktskattning, intervallskattning och hypotesprövning tillämpas på regressionsmodeller. Kursen presenterar även tekniker för att upptäcka avvikelser från modellens antaganden, och konsekvenserna av modellavvikelser för den statistiska analysen studeras.

Data som har insamlats över tid är vanligt förekommande inom ett stort antal tillämpningsområden. Kursen presenterar modeller för tidsserieanalys, och beskriver hur dessa kan användas för att skapa prognoser. Praktiska tillämpningar av regressions- och tidsserieanalys diskuteras och exemplifieras genom hela kursmomentet.

Kurslitteratur

Kursens schema på TimeEdit: Schedule.

Föreläsningar


Mattias Villani
Professor i statistik

Föreläsning 1 - Kursinformation. Introduktion till regressionsanalys och tidsserieanalys.
Läs: AJÅ Kapitel 1-2 | Slides
Data: cykeluthyrning | myntauktioner | inflation

Föreläsning 2 - Enkel linjär regression: skattningar, residualer, OLS, ANOVA, förklaringsgrad, korrelation.
Läs: AJÅ Kapitel 2 | Slides
Data: hälsobudget
Extramaterial: Kalkylark för beräkning av residualer - hälsobudget | Kalkylark för minstakvadratskattningar - hälsobudget | regression för hälsobudgetdata i R | Video om regressionsanpassning | gif om regressionsanpassning

Föreläsning 3 - Enkel linjär regression: populationsmodell, samplingfördelning, hypotestest.
Läs: AJÅ Kapitel 2-3 | Slides
Extramaterial: figur om ANOVA | gif om samplingfördelningen för minsta kvadratestimatorn | gif om samplingfördelningen skattning av regressionslinje

Föreläsning 4 - Multipel regression: Estimation, inferens
Läs: AJÅ Kapitel 3 | Slides
Extramaterial: ANOVA - hur allt hänger ihop

Föreläsning 5 - Multipel regression: Modellantaganden, modellkontroll och modellutvärdering
Läs: AJÅ Kapitel 3 | Slides
R notebook: Variabelselektion - R notebook | Variabelselektion - pdf
R kod: regression med bike data | regression healthbudget data

Föreläsning 6 - Enkel/Multipel regression (sammanfattning)
Läs: AJÅ Kapitel 2-3 | Slides | Excelfil för analys av mtcars data
Datamaterial: mtcars
R kod: regression med mtcars data Extramaterial: gif om bias när man missar att inkludera en förklarande variabel

Föreläsning 7 - Icke-linjär regression. Polynomsamband och exponentiella samband. Regularisering.
Läs: AJÅ Kapitel 4 (ej 4.4) | Slides
Kod: R kod för polynomregression mtcars data
Datamaterial: salaries | BNP-tillväxt Kina

Föreläsning 8 - Tidsserieanalys. Komponenter. Säsongsrensning med glidande medelvärden.
Läs: AJÅ Kapitel 5 | Slides
Datamaterial: airpassengers | global temperature
Extramaterial: Excelfil för komponentsuppdelning av airpassengers data

Föreläsning 9 - Autokorrelation. Autoregressiva modeller för tidsserier.
Läs: AJÅ Kapitel 6.4 och 6.8 | Slides
Kod: R kod för att skatta och göra prediktion med AR modeller för svensk inflation

Föreläsning 10 - AR modeller för tidserier. Enkel logistisk regression.
Läs: AJÅ Kapitel 6.8 | Slides | Slides om potenser och logaritmer
Extraläsning: Kapitel 10.5 i boken “Från datainsamling till rapport” av Karin Dahmström
Kod: R kod för att logistisk regression på titanic data

Föreläsning 11 - Multipel logistisk regression.
Läs: Slides
Extraläsning: Kapitel 10.5 i boken “Från datainsamling till rapport” av Karin Dahmström

Föreläsning 12 - Genomgång av en övningstentamen.
Läs: Övningstenta på Athena.

Det statistiska programmeringsspråket R

Kursen använder det mycket populära statistiska programmeringsspråket R. Programmet är helt gratis och kan laddas ner på alla datorer. Du kan ladda ner R här.

R är lättast att jobba i från programmet RStudio. RStudio är en slags arbetsmiljö byggd kring R. RStudio är gratis och kan ladda ner här. Det finns en massa bra videos och tutorials för R och RStudio. Här är t ex en kort video som ge en rundtur i RStudio.

Kursen har ett eget R paket med några hjälpfunktioner som används på kursen. För att kunna använda paketet behöver du installera det:

# För att installera kurspaketet regkurs
install.packages("remotes") # görs bara en gång på din dator
library(remotes)  
install_github("StatisticsSU/regkurs") # görs bara en gång på din dator
library(regkurs)

# För att installera kursen datamaterial
install_github("StatisticsSU/SUdatasets") # görs bara en gång på din dator
library(SUdatasets)

# För en lista med alla funktioner i paketet regkurs
help(, "regkurs")

# För information om ett specifikt datamaterial eller funktion i kurspaketet
?namnet_på_datamaterialet
?namnet_på_funktionen