# Relative frequency, probability vragen

### #1

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 12:52

Hallo,

Zou iemand wellicht mijn antwoorden willen checken of ze correct zijn?

=======
KLM.TXT
=======

```70.00
59.00
28.00
59.00
33.00
48.00
84.00
20.00
64.00
23.00
29.00
72.00
37.00
30.00
30.00
52.00
40.00
177.00
54.00
214.00
167.00
70.00
55.00
76.00
29.00
46.00
75.00
74.00
57.00
56.00
32.00
21.00
22.00
18.00
39.00
126.00
103.00
303.00
7.00
38.00
26.00
44.00
32.00
80.00
29.00
77.00
65.00
77.00
36.00
65.00
6.00
32.00
37.00
25.00
30.00
31.00
23.00
56.00
29.00
27.00```

The file klm contains data on delivery time (in days) of parts from Boeing to KLM. Assume that these data come from a continuous distribution.

A)
Assume that the measurements indeed form a sample from the distribution that
you chose in part c. Estimate based this assumption and with the use of R the
following probabilities:
i) the probability that the delivery time is smaller than 50;
ii) the probability that the delivery time is larger than 150;
iii) the probability that the delivery time is between 10 and 200.

B)
Compare the estimates of part A) with the estimates for the same probabilities that you would obtain if you would use the relative frequency based on the delivery time data for estimating the probabilities.

C)
Does the comparison of part B) tell you anything about the plausibility of the assumption used in part A)?

===============================
Mijn antwoorden:

A)
(i) The probability that the delivery time is smaller than 50 is 0.288424.
```> mean(xpop)
[1] 57.73333
> mean(xsamp)
[1] 29.60606
> sd(xpop)
[1] 50.40778
> (mean(xsamp) - mean(xpop)) / sd(xpop)
[1] -0.5579946
> pnorm(-0.5579946)
[1] 0.288424```

(ii) The probability that the delivery time is larger than 150 is 0.0008894848.
```> mean(xpop)
[1] 57.73333
> mean(xsamp)
[1] 215.25
> sd(xpop)
[1] 50.40778
> (mean(xsamp) - mean(xpop)) / sd(xpop)
[1] 3.124848
> 1 - pnorm(3.124848)
[1] 0.0008894848```

(iii) The probability that the delivery time is between 10 and 200 is 0.9156256.
```> mean(xpop)
[1] 57.73333
> mean(xsamp)
[1] 52.39286
> sd(xpop)
[1] 50.40778
> (mean(xsamp) - mean(xpop)) / sd(xpop)
[1] -0.1059455
> 2*pnorm(-0.1059455)
[1] 0.9156256```

B)
(i) Based on the relative frequency, the probability that the delivery time is smaller than 50 is 0.55.
(ii) Based on the relative frequency, the probability that the delivery time is larger than 150 is 0.06667.
(iii) Based on the relative frequency, the probability that the delivery time is between 10 and 200 is 0.93333.

C)
The results of part A and B are different. There are not enough samples of the delivery time. Both the sample mean and the populations mean don’t have the same standard deviation. They even don’t have the same z-score and the same probability.

MVG

Dit forum kan gratis blijven vanwege banners als deze. Door te registeren zal de onderstaande banner overigens verdwijnen.

### #2

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 12:56

Het handigst lijkt me je antwoorden een voor een overlopen.

A)
(i) The probability that the delivery time is smaller than 50 is 0.288424.

```> mean(xpop)
[1] 57.73333
> mean(xsamp)
[1] 29.60606
> sd(xpop)
[1] 50.40778
> (mean(xsamp) - mean(xpop)) / sd(xpop)
[1] -0.5579946
> pnorm(-0.5579946)
[1] 0.288424```

Ik veronderstel dat xpop en xsamp staan voor resp populatie en steekproef? Verder, waar (en hoe) in je code test je precies of de levertijd kleiner is dan 50?
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #3

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 13:05

Het handigst lijkt me je antwoorden een voor een overlopen.

Ik veronderstel dat xpop en xsamp staan voor resp populatie en steekproef? Verder, waar (en hoe) in je code test je precies of de levertijd kleiner is dan 50?

Klopt!. XPOP is de populatie en XSAMP is de steekproef. Eerlijk gezegd ik wist niet hoe je in R kan filteren getallen kleiner dan 50. Dus ik heb die getallen die kleiner dan 50 zijn apart gekopieerd en verwerkt.

Ik dacht dus zoiets:

```> klm
[1]  70  59  28  59  33  48  84  20  64  23  29  72  37  30  30  52  40 177  54 214 167  70  55  76  29  46  75  74  57  56  32  21  22  18  39 126 103 303   7  38  26  44  32  80  29  77  65  77  36  65   6  32  37  25
[55]  30  31  23  56  29  27

> klm < 50
[1] FALSE FALSE  TRUE FALSE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
[37] FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE```

Maar dan krijg ik true of false te zien, enig idee hoe ik alleen de getallen die kleiner dan 50 zijn te zien krijg?

Veranderd door nhl, 06 juni 2011 - 13:09

### #4

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 13:14

Maar de vraag luidt:

Assume that the measurements indeed form a sample from the distribution that
you chose in part c. Estimate based this assumption and with the use of R the
following probabilities:
i) the probability that the delivery time is smaller than 50;

Dus: welke verdeling heb je verondersteld? En wat is dan P(X <= 50), gegeven deze verdeling? Wat jij wilt doen, is kijken hoeveel getallen (van de (grootte KLM.txt)) er nu kleiner zijn dan 50. Dat is de vraag niet...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #5

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 13:20

Maar de vraag luidt:

Dus: welke verdeling heb je verondersteld? En wat is dan P(X <= 50), gegeven deze verdeling? Wat jij wilt doen, is kijken hoeveel getallen (van de (grootte KLM.txt)) er nu kleiner zijn dan 50. Dat is de vraag niet...

Dit was eigenlijk de vraag ervoor:

Investigate the data with the given functions for making QQ-plots and find an appropriate location-scale family for the underlying distribution of this sample. Apart from giving a proper location-scale family, also specify the member of the
location-scale family that is most close to the underlying distribution of the data, in other words, give estimates for the location and scale of the underlying distribution of the data.

Mijn antwoord was:

QQplots are used for global research of data that originally from a normal distribution. As for the form, there are 5 different forms, which are, symmetrical, right-skewed, left-skewed, two-tops, “uniform or homogeneous”. Looking at the histogram and the boxplot, I can conclude the distribution has the form of a right-skewed. As for the location and scale, since the boxplot is skewed, then the scale is median. I can read from the boxplot that the median is 42, the location is invariant and scale is equivariant. If I draw a straight line on the QQplot, then I see a normal distribution.

Ik heb eigenlijk een QQplot en boxplot en histogram erbij gemaakt, maar ik kan het niet uploaden op het forum. Waar het op neerkomt is dat het een normale distributie is.

Dus eigenlijk wil ik verder met een normale distributie.
heb je een beetje duidelijkheid op je vraag ?

heb ik het vraag verkeerd geïnterpreteerd??

Veranderd door nhl, 06 juni 2011 - 13:23

### #6

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 13:29

Dat is idd wat ik moest weten .

Okee, bij een normale verdeling van een variabele X. Wat weet je daar over P(X <= a)? Die is gelijk aan?

Je zit dus niet helemaal mis. Je hebt het gemiddelde en de standaarddeviatie nodig (om te weten wat voor normale verdeling je hebt, en dan zijn dit je beste schatters). Maar wat je dan doet met die x'en nemen die kleiner dan 50 zijn, moet niet. Vandaar ook mijn bovenstaande vraag ivm P(X <= a)...
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #7

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 13:37

Dat is idd wat ik moest weten .

Okee, bij een normale verdeling van een variabele X. Wat weet je daar over P(X <= a)? Die is gelijk aan?

Je zit dus niet helemaal mis. Je hebt het gemiddelde en de standaarddeviatie nodig (om te weten wat voor normale verdeling je hebt, en dan zijn dit je beste schatters). Maar wat je dan doet met die x'en nemen die kleiner dan 50 zijn, moet niet. Vandaar ook mijn bovenstaande vraag ivm P(X <= a)...

Maar dat is toch wat er gevraagd is, de schatting van de delivery time die minder dan 50 zijn, dus filteren op de getallen die < 50 zijn en dan daarop de mean en de sd uitrekenen, of heb ik het fout?

"Wat weet je daar over P(X <= a)? Die is gelijk aan?", uhm gelijk aan weet ik eerlijk gezegd niet, wat moet ik hierover weten?
Je bedoelt toch de de relative frequency uitrekenen, dus length(klm < 50)/length(klm)???

Veranderd door nhl, 06 juni 2011 - 13:42

### #8

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 13:45

Nee, ze vragen geen schatting. Ze vragen de probability, of dus de kans, dat X kleiner is dan 50. Daar je geen gemiddelde of sd van de getallen kleiner dan 50 voor nodig. Stel dat de kans 15% zou zijn, dan zou in je steekproef ongeveer 15 van de 100 getallen kleiner dan 50 moeten zijn...

Maar vergeet dit effe. Stel dat ik je het volgende gaf: je hebt een steekproef uit N(1, 3). Wat is de kans dan dat je een getal hebt kleiner dan 0?

EDIT: En nee, ik heb het niet over een relative frequency uitrekenen.

Veranderd door Drieske, 06 juni 2011 - 13:46

Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #9

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 13:55

Nee, ze vragen geen schatting. Ze vragen de probability, of dus de kans, dat X kleiner is dan 50. Daar je geen gemiddelde of sd van de getallen kleiner dan 50 voor nodig. Stel dat de kans 15% zou zijn, dan zou in je steekproef ongeveer 15 van de 100 getallen kleiner dan 50 moeten zijn...

Maar vergeet dit effe. Stel dat ik je het volgende gaf: je hebt een steekproef uit N(1, 3). Wat is de kans dan dat je een getal hebt kleiner dan 0?

EDIT: En nee, ik heb het niet over een relative frequency uitrekenen.

Het eerste wat bij mij opkomt is

```> x <- c(3,4,5,6,7,8,5,4,3,2)
> pnorm(x < 0, 1,3)
[1] 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413 0.3694413```

Veranderd door nhl, 06 juni 2011 - 13:57

### #10

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 14:00

Neen. Wat het eerste argument moet het getal zijn waarvan je de kans wilt. Correct is dus
`pnorm(0, 1, 3)`

Ook wel logisch hè. Want jij zegt nu da iets da binnen 1 standaardafwijking van het gemiddelde valt, maar met kans 2% voorkomt... Mss ook eens je normale verdeling opfrissen?

EDIT: Die nieuwe code klopt ook niet (volledig) helaas...

Kan je nu, gegeven hoe je dus de kans op X<= 0 berekent bij de normale verdeling, zeggen wat je moet doen bij vraag A,i?

Veranderd door Drieske, 06 juni 2011 - 14:03

Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #11

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 14:12

Neen. Wat het eerste argument moet het getal zijn waarvan je de kans wilt. Correct is dus

`pnorm(0, 1, 3)`

Ook wel logisch hè. Want jij zegt nu da iets da binnen 1 standaardafwijking van het gemiddelde valt, maar met kans 2% voorkomt... Mss ook eens je normale verdeling opfrissen?

EDIT: Die nieuwe code klopt ook niet (volledig) helaas...

Kan je nu, gegeven hoe je dus de kans op X<= 0 berekent bij de normale verdeling, zeggen wat je moet doen bij vraag A,i?

Oh ok, begrepen. Dus dan denk ik dat de kans dat x <= 50 is als volgt:
```> pnorm(50, mean(klm), sd(klm))
[1] 0.4390353```

### #12

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 14:19

Oh ok, begrepen. Dus dan denk ik dat de kans dat x <= 50 is als volgt:

```> pnorm(50, mean(klm), sd(klm))
[1] 0.4390353```

Idd... Stel nu vervolgens dat je P(X >= a) zou willen kennen ipv P(X <= a). Enig idee hoe dit moet?
Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #13

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 14:30

Idd... Stel nu vervolgens dat je P(X >= a) zou willen kennen ipv P(X <= a). Enig idee hoe dit moet?

Zo wellicht?

```> pnorm(50, mean(klm), sd(klm), lower.tail=FALSE)
[1] 0.5609647```

### #14

Drieske

Drieske

• >5k berichten
• 10217 berichten
• Moderator

Geplaatst op 06 juni 2011 - 14:34

Idd . Kun je dan nu vraag A helemaal beantwoorden?

PS: wat ook zou werken is 1-P(X<= a). Dit is een regel uit kansrekenen... Puur informatief zet ik het er toch maar bij .

Veranderd door Drieske, 06 juni 2011 - 14:41

Zoek je graag naar het meest interessante wetenschapsnieuws? Wij zoeken nog een vrijwilliger voor ons nieuwspostteam.

### #15

nhl

nhl

• >100 berichten
• 111 berichten
• Ervaren gebruiker

Geplaatst op 06 juni 2011 - 14:47

Idd . Kun je dan nu vraag A helemaal beantwoorden?

PS: wat ook zou werken is 1-P(X<= a). Dit is een regel uit kansrekenen... Puur informatief zet ik het er toch maar bij .

, dank je wel..

En hoe zit het met groter dan 10 en kleiner dan 200, is het als volgt?

```> pnorm(10, mean(klm), sd(klm), lower.tail=FALSE) + pnorm(200, mean(klm), sd(klm))
[1] 1.825782```

Veranderd door nhl, 06 juni 2011 - 14:50

#### 0 gebruiker(s) lezen dit onderwerp

0 leden, 0 bezoekers, 0 anonieme gebruikers

Ook adverteren op onze website? Lees hier meer!