Springen naar inhoud

Scatterplot, correlations,linear regression


  • Log in om te kunnen reageren

#1

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 22 juni 2011 - 20:16

The file breathing contains the results of a study on breathing resistance in children with asthma and children with cystic fibrosis to investigate whether there is a relationship between breathing resistance and length in each of the two groups. Consider the cystic fibrosis group.



Vraag A:
Make a scatter plot of resistance against length and compute the sample correlation coefficient between the two variables resistance and length. What do the plots and coefficients tell you about the question?

lengte.ast=
 c(90,  97,  97, 104, 119 ,106, 113 ,116, 118 ,119, 117, 122, 122 ,124, 129, 130, 135, 127, 120,
121, 126, 123, 125, 118 ,122, 120, 133,125, 123, 141 ,121,128,125,140 ,140, 140 ,148,145,
138 ,148,132,134)

resistentie.ast=
c(25.6 ,15.1 , 9.8 , 7.5 ,10.1 ,12.5 , 9.1 ,17.0 , 5.5 ,15.7 , 6.4 , 8.8 ,10.1,  5.0 , 5.8,
12.8, 10.0 , 8.0 ,23.8,  7.5 ,12.1 , 6.2, 8.3 , 3.5 ,10.2,16.1 ,10.1 ,12.1, 11.2,  9.4,
15.6 , 7.9 ,18.7 , 8.3 , 7.5 , 8.5 , 8.9 , 7.9 , 5.7 , 9.5 , 6.5, 15.0)


lengte.cyst=
 c(89,  93,  92,101, 95,  89,  97,  97, 111, 102, 103, 108, 103, 105, 109,  93,  98, 103, 108,
106, 109, 111, 111, 116)

resistentie.cyst=
c(13.8,  8.2,  9.0, 12.5, 21.1,  6.8, 17.0, 11.0,  8.2, 12.7,  8.5, 10.0, 11.6,  9.5, 15.0,
13.5, 11.0, 11.0,  8.8,  9.5,  9.2, 15.0,  7.0,  6.3)


ademhaling=list(lengte.ast,resistentie.ast,lengte.cyst,resistentie.cyst)

names(ademhaling)=c("lengte.ast","resistentie.ast","lengte.cyst","resistentie.cyst")


Antwoord A
Geplaatste afbeelding

> plot(lengte.cyst, resistentie.cyst, main="Scatterplot voor breathing", xlab="Length", ylab="Resistance")
> fit <- lsfit(lengte.cyst, resistentie.cyst)
> fit$coefficients
 Intercept		  X 
23.8070432 -0.1246097

> abline(fit, col="red")


The scatterplot shows an negative result, which means there is no relations between the length and resistance of the
cystic fibrosis group.


Klopt dit?

Veranderd door nhl, 22 juni 2011 - 20:17


Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

#2

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 22 juni 2011 - 20:43

Je hebt nu een scatterplot gemaakt. En regressie gedaan. Maar dat laatste was niet de vraag. Ze vroegen een correlatiecoŽfficiŽnt. Dat heb je niet gedaan.

Overigens: een negatieve helling betekent niet geen verband. Enkel dat het verband 'negatief' is. Dus hoe hoger het een, hoe lager het ander.
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#3

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 22 juni 2011 - 20:53

Je hebt nu een scatterplot gemaakt. En regressie gedaan. Maar dat laatste was niet de vraag. Ze vroegen een correlatiecoŽfficiŽnt. Dat heb je niet gedaan.

Overigens: een negatieve helling betekent niet geen verband. Enkel dat het verband 'negatief' is. Dus hoe hoger het een, hoe lager het ander.


Ok thanks. Wat ik nu gedaan heb is de correlatie coŽfficiŽnt uitrekenen en daarbij de test, want we willen weten of de relatie significant is, (of zie ik het anders?)

> cor.test(lengte.cyst, resistentie.cyst)


		Pearson's product-moment correlation

data:  lengte.cyst and resistentie.cyst 
t = -1.3241, df = 22, p-value = 0.1991
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.6083948  0.1479359 
sample estimates:
	   cor 
-0.2716735

De correlatie coŽfficiŽnt is -0.2716735.

#4

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 22 juni 2011 - 21:44

Je moet idd de correlatie berekenen. Maar die test geeft je gewoon een 95%-interval rond je schatting die je maakte (dus -0.27). Dus je schatting gaat daar altijd in het midden in liggen. Betekent niet dat die test overbodig is hŤ. Zo weet je waartussen je speling ligt (en dat is vrij groot). Maar hieruit mag je niet besluiten dat je met 95% zekerheid weet dat je waarde van -0.27 is omdat dit in dat interval ligt (ofzoiets)...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#5

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 22 juni 2011 - 21:56

Je moet idd de correlatie berekenen. Maar die test geeft je gewoon een 95%-interval rond je schatting die je maakte (dus -0.27). Dus je schatting gaat daar altijd in het midden in liggen. Betekent niet dat die test overbodig is hŤ. Zo weet je waartussen je speling ligt (en dat is vrij groot). Maar hieruit mag je niet besluiten dat je met 95% zekerheid weet dat je waarde van -0.27 is omdat dit in dat interval ligt (ofzoiets)...


Maar wat betekent een correlatie coŽfficiŽnt van -0.27?

#6

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 22 juni 2011 - 22:01

Volstaat dit als uitleg voor je vraag of niet echt? Kort gesteld betekent het dat er een 'licht' (omgekeerd) lineair verband is tussen de variabelen (wat ook bleek uit je regressie)...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#7

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 22 juni 2011 - 22:06

Volstaat dit als uitleg voor je vraag of niet echt? Kort gesteld betekent het dat er een 'licht' (omgekeerd) lineair verband is tussen de variabelen (wat ook bleek uit je regressie)...



Dus de (steelproef)correlatiecoŽfficiŽnt kan worden gezien als schatting van populatie correlatiecoŽfficiŽnt.

Dus correlatiecoŽfficiŽnt dichtbij de 1 is groot verband, correlatiecoŽfficiŽnt -0.27 negatieve correlatie.

Ik snap hem dank je wel.

Veranderd door nhl, 22 juni 2011 - 22:08


#8

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 22 juni 2011 - 22:18

Geen probleem ;). Graag gedaan!
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#9

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 23 juni 2011 - 17:19

Geen probleem ;). Graag gedaan!



Hallo, daar ben ik weer :P. Nu ben ik beland bij de volgende:

Vraag C:
Perform a linear regression with length as independent explanatory variable and resistance as dependent response variable. Draw the estimated regression line (Ēthe best lineĒ) in the scatter plot.

Vraag D:
How much variation in the variable Ďresistanceí is explained by the variable Ďlengthí?


Antwoord
C:
Dit hebben we toch gedaan >>
> plot(lengte.cyst, resistentie.cyst, main="Scatterplot voor breathing", xlab="Length", ylab="Resistance")
> fit <- lsfit(lengte.cyst, resistentie.cyst)
> fit$coefficients
 Intercept		  X 
23.8070432 -0.1246097
> abline(fit, col="red")


D:
Dit snap ik niet echt!!

#10

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 23 juni 2011 - 17:24

Zegt het begrip 'R kwadraat' je iets? Dat zal je bij D nodig hebben...

Die regressie is okee (merk btw nog even op dat de coefficienten van je regressie negatief zijn; dit bevestigt je correlatie uit de vorige opgave).
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#11

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 23 juni 2011 - 18:15

Zegt het begrip 'R kwadraat' je iets? Dat zal je bij D nodig hebben...

Die regressie is okee (merk btw nog even op dat de coefficienten van je regressie negatief zijn; dit bevestigt je correlatie uit de vorige opgave).



r kwadraat (ofwel determinatiecoefficient ) is hoeveelheid door x-variabele (de 'beste' lijn) verklaarde variatie van y-variabele..

Deze determinatiecoefficient ligt tussen 0 en 1, is kleiner dan r zelf. Als de determinatiecoefficient dicht bij de 1 is, dan is de model goed.


> r <- -0.2716735
> r * r
[1] 0.07380649

En als je de uitbuiters weghaalt dan wordt de correlatiecoefficient kleiner.

Zeg ik het goed?

#12

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 23 juni 2011 - 19:01

R≤ is niet per se het kwadraat van de correlatie hoor. Dat is gewoon een begrip. Doe maar eens een summary van je least squares... Of
fit$r.squared
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#13

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 23 juni 2011 - 19:52

R≤ is niet per se het kwadraat van de correlatie hoor. Dat is gewoon een begrip. Doe maar eens een summary van je least squares... Of

fit$r.squared



Ik krijg het volgende:
> fit$r.squared
NULL

Wat betekend dat?

#14

Drieske

    Drieske


  • >5k berichten
  • 10217 berichten
  • Moderator

Geplaatst op 23 juni 2011 - 19:54

Doe eens
summary(fit)

Als dat ook niet werkt:
> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit$coefficients
> summary(fit)
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

#15

nhl

    nhl


  • >100 berichten
  • 111 berichten
  • Ervaren gebruiker

Geplaatst op 23 juni 2011 - 21:34

Doe eens

summary(fit)

Als dat ook niet werkt:
> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit$coefficients
> summary(fit)





> summary(fit)
			 Length Class  Mode   
coefficients  2	 -none- numeric
residuals	24	 -none- numeric
intercept	 1	 -none- logical
qr			6	 qr	 list


> fit <- lm(lengte.cyst ~ resistentie.cyst)
> fit$coefficients
	 (Intercept) resistentie.cyst 
	 108.6112757	   -0.5923013 
> summary(fit)

Call:
lm(formula = lengte.cyst ~ resistentie.cyst)

Residuals:
	 Min	   1Q   Median	   3Q	  Max 
-15.5836  -4.3460   0.9075   5.4433  11.2732 

Coefficients:
				 Estimate Std. Error t value Pr(>|t|)	
(Intercept)	  108.6113	 5.1954  20.905 5.27e-16 ***
resistentie.cyst  -0.5923	 0.4473  -1.324	0.199	
---
Signif. codes:  0 Ď***í 0.001 Ď**í 0.01 Ď*í 0.05 Ď.í 0.1 Ď í 1 

Residual standard error: 7.547 on 22 degrees of freedom
Multiple R-squared: 0.07381,	Adjusted R-squared: 0.03171 
F-statistic: 1.753 on 1 and 22 DF,  p-value: 0.1991





0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!

Gesponsorde vacatures

Vacatures