Relative frequency, probability vragen

nhl

Hallo,

Zou iemand wellicht mijn antwoorden willen checken of ze correct zijn?

=======

KLM.TXT

=======

The file klm contains data on delivery time (in days) of parts from Boeing to KLM. Assume that these data come from a continuous distribution.

A)

Assume that the measurements indeed form a sample from the distribution that

you chose in part c. Estimate based this assumption and with the use of R the

following probabilities:

i) the probability that the delivery time is smaller than 50;

ii) the probability that the delivery time is larger than 150;

iii) the probability that the delivery time is between 10 and 200.

B)

Compare the estimates of part A) with the estimates for the same probabilities that you would obtain if you would use the relative frequency based on the delivery time data for estimating the probabilities.

C)

Does the comparison of part B) tell you anything about the plausibility of the assumption used in part A)?

===============================

Mijn antwoorden:

A)

(i) The probability that the delivery time is smaller than 50 is 0.288424.

Code: Selecteer alles

> mean(xpop)

[1] 57.73333

> mean(xsamp)

[1] 29.60606

> sd(xpop)

[1] 50.40778

> (mean(xsamp) - mean(xpop)) / sd(xpop)

[1] -0.5579946

> pnorm(-0.5579946)

[1] 0.288424

(ii) The probability that the delivery time is larger than 150 is 0.0008894848.

Code: Selecteer alles

> mean(xpop)

[1] 57.73333

> mean(xsamp)

[1] 215.25

> sd(xpop)

[1] 50.40778

> (mean(xsamp) - mean(xpop)) / sd(xpop)

[1] 3.124848

> 1 - pnorm(3.124848)

[1] 0.0008894848

(iii) The probability that the delivery time is between 10 and 200 is 0.9156256.

Code: Selecteer alles

> mean(xpop)

[1] 57.73333

> mean(xsamp)

[1] 52.39286

> sd(xpop)

[1] 50.40778

> (mean(xsamp) - mean(xpop)) / sd(xpop)

[1] -0.1059455

> 2*pnorm(-0.1059455)

[1] 0.9156256

B)

(i) Based on the relative frequency, the probability that the delivery time is smaller than 50 is 0.55.

(ii) Based on the relative frequency, the probability that the delivery time is larger than 150 is 0.06667.

(iii) Based on the relative frequency, the probability that the delivery time is between 10 and 200 is 0.93333.

C)

The results of part A and B are different. There are not enough samples of the delivery time. Both the sample mean and the populations mean dont have the same standard deviation. They even dont have the same z-score and the same probability.

MVG

Drieske

Het handigst lijkt me je antwoorden een voor een overlopen.

nhl schreef:A)

(i) The probability that the delivery time is smaller than 50 is 0.288424.
Code: Selecteer alles
> mean(xpop)

[1] 57.73333

> mean(xsamp)

[1] 29.60606

> sd(xpop)

[1] 50.40778

> (mean(xsamp) - mean(xpop)) / sd(xpop)

[1] -0.5579946

> pnorm(-0.5579946)

[1] 0.288424

Ik veronderstel dat xpop en xsamp staan voor resp populatie en steekproef? Verder, waar (en hoe) in je code test je precies of de levertijd kleiner is dan 50?

nhl

Drieske schreef:Het handigst lijkt me je antwoorden een voor een overlopen.

Ik veronderstel dat xpop en xsamp staan voor resp populatie en steekproef? Verder, waar (en hoe) in je code test je precies of de levertijd kleiner is dan 50?

Klopt!. XPOP is de populatie en XSAMP is de steekproef. Eerlijk gezegd ik wist niet hoe je in R kan filteren getallen kleiner dan 50. Dus ik heb die getallen die kleiner dan 50 zijn apart gekopieerd en verwerkt.

Ik dacht dus zoiets:

Code: Selecteer alles

> klm

 [1]  70  59  28  59  33  48  84  20  64  23  29  72  37  30  30  52  40 177  54 214 167  70  55  76  29  46  75  74  57  56  32  21  22  18  39 126 103 303   7  38  26  44  32  80  29  77  65  77  36  65   6  32  37  25

[55]  30  31  23  56  29  27

> klm < 50

 [1] FALSE FALSE  TRUE FALSE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE

[37] FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE

Maar dan krijg ik true of false te zien, enig idee hoe ik alleen de getallen die kleiner dan 50 zijn te zien krijg?

Drieske

Maar de vraag luidt:

Assume that the measurements indeed form a sample from the distribution that

you chose in part c. Estimate based this assumption and with the use of R the

following probabilities:

i) the probability that the delivery time is smaller than 50;

Dus: welke verdeling heb je verondersteld? En wat is dan P(X <= 50), gegeven deze verdeling? Wat jij wilt doen, is kijken hoeveel getallen (van de (grootte KLM.txt)) er nu kleiner zijn dan 50. Dat is de vraag niet...

nhl

Drieske schreef:Maar de vraag luidt:

Dus: welke verdeling heb je verondersteld? En wat is dan P(X <= 50), gegeven deze verdeling? Wat jij wilt doen, is kijken hoeveel getallen (van de (grootte KLM.txt)) er nu kleiner zijn dan 50. Dat is de vraag niet...

Dit was eigenlijk de vraag ervoor:

Investigate the data with the given functions for making QQ-plots and find an appropriate location-scale family for the underlying distribution of this sample. Apart from giving a proper location-scale family, also specify the member of the

location-scale family that is most close to the underlying distribution of the data, in other words, give estimates for the location and scale of the underlying distribution of the data.

Mijn antwoord was:

QQplots are used for global research of data that originally from a normal distribution. As for the form, there are 5 different forms, which are, symmetrical, right-skewed, left-skewed, two-tops, “uniform or homogeneous”. Looking at the histogram and the boxplot, I can conclude the distribution has the form of a right-skewed. As for the location and scale, since the boxplot is skewed, then the scale is median. I can read from the boxplot that the median is 42, the location is invariant and scale is equivariant. If I draw a straight line on the QQplot, then I see a normal distribution.

Ik heb eigenlijk een QQplot en boxplot en histogram erbij gemaakt, maar ik kan het niet uploaden op het forum. Waar het op neerkomt is dat het een normale distributie is.

Dus eigenlijk wil ik verder met een normale distributie.

heb je een beetje duidelijkheid op je vraag ?

heb ik het vraag verkeerd geïnterpreteerd??

Drieske

Dat is idd wat ik moest weten

.

Okee, bij een normale verdeling van een variabele X. Wat weet je daar over P(X <= a)? Die is gelijk aan?

Je zit dus niet helemaal mis. Je hebt het gemiddelde en de standaarddeviatie nodig (om te weten wat voor normale verdeling je hebt, en dan zijn dit je beste schatters). Maar wat je dan doet met die x'en nemen die kleiner dan 50 zijn, moet niet. Vandaar ook mijn bovenstaande vraag ivm P(X <= a)...

nhl

Drieske schreef:Dat is idd wat ik moest weten .

Okee, bij een normale verdeling van een variabele X. Wat weet je daar over P(X <= a)? Die is gelijk aan?

Je zit dus niet helemaal mis. Je hebt het gemiddelde en de standaarddeviatie nodig (om te weten wat voor normale verdeling je hebt, en dan zijn dit je beste schatters). Maar wat je dan doet met die x'en nemen die kleiner dan 50 zijn, moet niet. Vandaar ook mijn bovenstaande vraag ivm P(X <= a)...

Maar dat is toch wat er gevraagd is, de schatting van de delivery time die minder dan 50 zijn, dus filteren op de getallen die < 50 zijn en dan daarop de mean en de sd uitrekenen, of heb ik het fout?

"Wat weet je daar over P(X <= a)? Die is gelijk aan?", uhm gelijk aan weet ik eerlijk gezegd niet, wat moet ik hierover weten?

Je bedoelt toch de de relative frequency uitrekenen, dus length(klm < 50)/length(klm)???

Drieske

Nee, ze vragen geen schatting. Ze vragen de probability, of dus de kans, dat X kleiner is dan 50. Daar je geen gemiddelde of sd van de getallen kleiner dan 50 voor nodig. Stel dat de kans 15% zou zijn, dan zou in je steekproef ongeveer 15 van de 100 getallen kleiner dan 50 moeten zijn...

Maar vergeet dit effe. Stel dat ik je het volgende gaf: je hebt een steekproef uit N(1, 3). Wat is de kans dan dat je een getal hebt kleiner dan 0?

EDIT: En nee, ik heb het niet over een relative frequency uitrekenen.

nhl

Drieske schreef:Nee, ze vragen geen schatting. Ze vragen de probability, of dus de kans, dat X kleiner is dan 50. Daar je geen gemiddelde of sd van de getallen kleiner dan 50 voor nodig. Stel dat de kans 15% zou zijn, dan zou in je steekproef ongeveer 15 van de 100 getallen kleiner dan 50 moeten zijn...

Maar vergeet dit effe. Stel dat ik je het volgende gaf: je hebt een steekproef uit N(1, 3). Wat is de kans dan dat je een getal hebt kleiner dan 0?

EDIT: En nee, ik heb het niet over een relative frequency uitrekenen.

Het eerste wat bij mij opkomt is

Code: Selecteer alles

> x <- c(3,4,5,6,7,8,5,4,3,2)

> pnorm(x < 0, 1,3)

 [1] 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413

Drieske

Neen. Wat het eerste argument moet het getal zijn waarvan je de kans wilt. Correct is dus

Code: Selecteer alles

pnorm(0, 1, 3)

Ook wel logisch hè. Want jij zegt nu da iets da binnen 1 standaardafwijking van het gemiddelde valt, maar met kans 2% voorkomt... Mss ook eens je normale verdeling opfrissen?

EDIT: Die nieuwe code klopt ook niet (volledig) helaas...

Kan je nu, gegeven hoe je dus de kans op X<= 0 berekent bij de normale verdeling, zeggen wat je moet doen bij vraag A,i?

nhl

Drieske schreef:Neen. Wat het eerste argument moet het getal zijn waarvan je de kans wilt. Correct is dus
Code: Selecteer alles
pnorm(0, 1, 3)
Ook wel logisch hè. Want jij zegt nu da iets da binnen 1 standaardafwijking van het gemiddelde valt, maar met kans 2% voorkomt... Mss ook eens je normale verdeling opfrissen?

EDIT: Die nieuwe code klopt ook niet (volledig) helaas...

Kan je nu, gegeven hoe je dus de kans op X<= 0 berekent bij de normale verdeling, zeggen wat je moet doen bij vraag A,i?

Oh ok, begrepen. Dus dan denk ik dat de kans dat x <= 50 is als volgt:

Code: Selecteer alles

> pnorm(50, mean(klm), sd(klm))

[1] 0.4390353

Drieske

nhl schreef:Oh ok, begrepen. Dus dan denk ik dat de kans dat x <= 50 is als volgt:
Code: Selecteer alles
> pnorm(50, mean(klm), sd(klm))

[1] 0.4390353

Idd... Stel nu vervolgens dat je P(X >= a) zou willen kennen ipv P(X <= a). Enig idee hoe dit moet?

nhl

Idd... Stel nu vervolgens dat je P(X >= a) zou willen kennen ipv P(X <= a). Enig idee hoe dit moet?

Zo wellicht?

Code: Selecteer alles

> pnorm(50, mean(klm), sd(klm), lower.tail=FALSE)

[1] 0.5609647

Drieske

Idd

. Kun je dan nu vraag A helemaal beantwoorden?

PS: wat ook zou werken is 1-P(X<= a). Dit is een regel uit kansrekenen... Puur informatief zet ik het er toch maar bij

.

nhl

Drieske schreef:Idd . Kun je dan nu vraag A helemaal beantwoorden?

PS: wat ook zou werken is 1-P(X<= a). Dit is een regel uit kansrekenen... Puur informatief zet ik het er toch maar bij .

, dank je wel..

En hoe zit het met groter dan 10 en kleiner dan 200, is het als volgt?

Code: Selecteer alles

> pnorm(10, mean(klm), sd(klm), lower.tail=FALSE) + pnorm(200, mean(klm), sd(klm))

[1] 1.825782

Wetenschapsforum

Laatste berichten

Nieuwsberichten

Relative frequency, probability vragen

Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen

Re: Relative frequency, probability vragen