# Scatterplot, correlations,linear regression

### #1

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 22 juni 2011 - 20:16

The file breathing contains the results of a study on breathing resistance in children with asthma and children with cystic fibrosis to investigate whether there is a relationship between breathing resistance and length in each of the two groups. Consider the cystic fibrosis group.

Vraag A:
Make a scatter plot of resistance against length and compute the sample correlation coefficient between the two variables resistance and length. What do the plots and coefficients tell you about the question?

lengte.ast=
c(90,  97,  97, 104, 119 ,106, 113 ,116, 118 ,119, 117, 122, 122 ,124, 129, 130, 135, 127, 120,
121, 126, 123, 125, 118 ,122, 120, 133,125, 123, 141 ,121,128,125,140 ,140, 140 ,148,145,
138 ,148,132,134)

resistentie.ast=
c(25.6 ,15.1 , 9.8 , 7.5 ,10.1 ,12.5 , 9.1 ,17.0 , 5.5 ,15.7 , 6.4 , 8.8 ,10.1,  5.0 , 5.8,
12.8, 10.0 , 8.0 ,23.8,  7.5 ,12.1 , 6.2, 8.3 , 3.5 ,10.2,16.1 ,10.1 ,12.1, 11.2,  9.4,
15.6 , 7.9 ,18.7 , 8.3 , 7.5 , 8.5 , 8.9 , 7.9 , 5.7 , 9.5 , 6.5, 15.0)

lengte.cyst=
c(89,  93,  92,101, 95,  89,  97,  97, 111, 102, 103, 108, 103, 105, 109,  93,  98, 103, 108,
106, 109, 111, 111, 116)

resistentie.cyst=
c(13.8,  8.2,  9.0, 12.5, 21.1,  6.8, 17.0, 11.0,  8.2, 12.7,  8.5, 10.0, 11.6,  9.5, 15.0,
13.5, 11.0, 11.0,  8.8,  9.5,  9.2, 15.0,  7.0,  6.3)

Antwoord A

> plot(lengte.cyst, resistentie.cyst, main="Scatterplot voor breathing", xlab="Length", ylab="Resistance")
> fit <- lsfit(lengte.cyst, resistentie.cyst)
> fit\$coefficients
Intercept		  X
23.8070432 -0.1246097

> abline(fit, col="red")

The scatterplot shows an negative result, which means there is no relations between the length and resistance of the
cystic fibrosis group.

Klopt dit?

Veranderd door nhl, 22 juni 2011 - 20:17

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

### #2

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 22 juni 2011 - 20:43

Je hebt nu een scatterplot gemaakt. En regressie gedaan. Maar dat laatste was niet de vraag. Ze vroegen een correlatiecoëfficiënt. Dat heb je niet gedaan.

Overigens: een negatieve helling betekent niet geen verband. Enkel dat het verband 'negatief' is. Dus hoe hoger het een, hoe lager het ander.
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #3

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 22 juni 2011 - 20:53

Je hebt nu een scatterplot gemaakt. En regressie gedaan. Maar dat laatste was niet de vraag. Ze vroegen een correlatiecoëfficiënt. Dat heb je niet gedaan.

Overigens: een negatieve helling betekent niet geen verband. Enkel dat het verband 'negatief' is. Dus hoe hoger het een, hoe lager het ander.

Ok thanks. Wat ik nu gedaan heb is de correlatie coëfficiënt uitrekenen en daarbij de test, want we willen weten of de relatie significant is, (of zie ik het anders?)

> cor.test(lengte.cyst, resistentie.cyst)

Pearson's product-moment correlation

data:  lengte.cyst and resistentie.cyst
t = -1.3241, df = 22, p-value = 0.1991
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6083948  0.1479359
sample estimates:
cor
-0.2716735

De correlatie coëfficiënt is -0.2716735.

### #4

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 22 juni 2011 - 21:44

Je moet idd de correlatie berekenen. Maar die test geeft je gewoon een 95%-interval rond je schatting die je maakte (dus -0.27). Dus je schatting gaat daar altijd in het midden in liggen. Betekent niet dat die test overbodig is hè. Zo weet je waartussen je speling ligt (en dat is vrij groot). Maar hieruit mag je niet besluiten dat je met 95% zekerheid weet dat je waarde van -0.27 is omdat dit in dat interval ligt (ofzoiets)...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #5

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 22 juni 2011 - 21:56

Je moet idd de correlatie berekenen. Maar die test geeft je gewoon een 95%-interval rond je schatting die je maakte (dus -0.27). Dus je schatting gaat daar altijd in het midden in liggen. Betekent niet dat die test overbodig is hè. Zo weet je waartussen je speling ligt (en dat is vrij groot). Maar hieruit mag je niet besluiten dat je met 95% zekerheid weet dat je waarde van -0.27 is omdat dit in dat interval ligt (ofzoiets)...

Maar wat betekent een correlatie coëfficiënt van -0.27?

### #6

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 22 juni 2011 - 22:01

Volstaat dit als uitleg voor je vraag of niet echt? Kort gesteld betekent het dat er een 'licht' (omgekeerd) lineair verband is tussen de variabelen (wat ook bleek uit je regressie)...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #7

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 22 juni 2011 - 22:06

Volstaat dit als uitleg voor je vraag of niet echt? Kort gesteld betekent het dat er een 'licht' (omgekeerd) lineair verband is tussen de variabelen (wat ook bleek uit je regressie)...

Dus de (steelproef)correlatiecoëfficiënt kan worden gezien als schatting van populatie correlatiecoëfficiënt.

Dus correlatiecoëfficiënt dichtbij de 1 is groot verband, correlatiecoëfficiënt -0.27 negatieve correlatie.

Ik snap hem dank je wel.

Veranderd door nhl, 22 juni 2011 - 22:08

### #8

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 22 juni 2011 - 22:18

Geen probleem . Graag gedaan!
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #9

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 23 juni 2011 - 17:19

Geen probleem . Graag gedaan!

Hallo, daar ben ik weer . Nu ben ik beland bij de volgende:

Vraag C:
Perform a linear regression with length as independent explanatory variable and resistance as dependent response variable. Draw the estimated regression line (”the best line”) in the scatter plot.

Vraag D:
How much variation in the variable ‘resistance’ is explained by the variable ‘length’?

Antwoord
C:
Dit hebben we toch gedaan >>
> plot(lengte.cyst, resistentie.cyst, main="Scatterplot voor breathing", xlab="Length", ylab="Resistance")
> fit <- lsfit(lengte.cyst, resistentie.cyst)
> fit\$coefficients
Intercept		  X
23.8070432 -0.1246097
> abline(fit, col="red")

D:
Dit snap ik niet echt!!

### #10

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 23 juni 2011 - 17:24

Zegt het begrip 'R kwadraat' je iets? Dat zal je bij D nodig hebben...

Die regressie is okee (merk btw nog even op dat de coefficienten van je regressie negatief zijn; dit bevestigt je correlatie uit de vorige opgave).
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #11

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 23 juni 2011 - 18:15

Zegt het begrip 'R kwadraat' je iets? Dat zal je bij D nodig hebben...

Die regressie is okee (merk btw nog even op dat de coefficienten van je regressie negatief zijn; dit bevestigt je correlatie uit de vorige opgave).

r kwadraat (ofwel determinatiecoefficient ) is hoeveelheid door x-variabele (de 'beste' lijn) verklaarde variatie van y-variabele..

Deze determinatiecoefficient ligt tussen 0 en 1, is kleiner dan r zelf. Als de determinatiecoefficient dicht bij de 1 is, dan is de model goed.

> r <- -0.2716735
> r * r
[1] 0.07380649

En als je de uitbuiters weghaalt dan wordt de correlatiecoefficient kleiner.

Zeg ik het goed?

### #12

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 23 juni 2011 - 19:01

R² is niet per se het kwadraat van de correlatie hoor. Dat is gewoon een begrip. Doe maar eens een summary van je least squares... Of
fit\$r.squared
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #13

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 23 juni 2011 - 19:52

R² is niet per se het kwadraat van de correlatie hoor. Dat is gewoon een begrip. Doe maar eens een summary van je least squares... Of

fit\$r.squared

Ik krijg het volgende:
> fit\$r.squared
NULL

Wat betekend dat?

### #14

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 23 juni 2011 - 19:54

Doe eens
summary(fit)

Als dat ook niet werkt:
> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit\$coefficients
> summary(fit)
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #15

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 23 juni 2011 - 21:34

Doe eens

summary(fit)

Als dat ook niet werkt:
> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit\$coefficients
> summary(fit)

> summary(fit)
Length Class  Mode
coefficients  2	 -none- numeric
residuals	24	 -none- numeric
intercept	 1	 -none- logical
qr			6	 qr	 list

> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit\$coefficients
(Intercept) resistentie.cyst
108.6112757	   -0.5923013
> summary(fit)

Call:
lm(formula = lengte.cyst ~ resistentie.cyst)

Residuals:
Min	   1Q   Median	   3Q	  Max
-15.5836  -4.3460   0.9075   5.4433  11.2732

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)	  108.6113	 5.1954  20.905 5.27e-16 ***
resistentie.cyst  -0.5923	 0.4473  -1.324	0.199
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.547 on 22 degrees of freedom
Multiple R-squared: 0.07381,	Adjusted R-squared: 0.03171
F-statistic: 1.753 on 1 and 22 DF,  p-value: 0.1991

#### 0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!