User:Zelenka/Statistics/exercises 9.10.2007
From eqqon
(Difference between revisions)
(→16.10.2007) |
(→9.10.2007) |
||
Line 5: | Line 5: | ||
* Konsument Online Umfrage des Monats (08/2007): "Prospekte im Briefkasten" 4 vorgegebene diskrete Merkmale stehen zur Auswahl, Anzahl der Stimmanbgaben ist angegeben (370), Zeitraum der Erhebung ist angegeben (1 Monat), grafische Darstellung durch ein Balkendiagramm | * Konsument Online Umfrage des Monats (08/2007): "Prospekte im Briefkasten" 4 vorgegebene diskrete Merkmale stehen zur Auswahl, Anzahl der Stimmanbgaben ist angegeben (370), Zeitraum der Erhebung ist angegeben (1 Monat), grafische Darstellung durch ein Balkendiagramm | ||
- | ;2 | + | ;2. R-script: Im WS 2005 und 2006 verteilten sich die Inskriptionszahlen der Studienrichtungen, für die die VO/UE Statistik u. Wahrscheinlichkeitstheorie anrechenbar bzw. verpflichtend ist, wie unten angegeben (Quelle: TUWIEN). Erstellen Sie vergleichende Balken– und Kreisdiagramme für die Gesamtzahlen (oder für Teilzahlen). Gibt es „signifikante“ Veränderungen? |
+ | |||
+ | {| class ="eqqon_table2" | ||
+ | |+'''Zahlen für WS 2005''' | ||
+ | |----------- | ||
+ | !| ||Inländer || ||Ausländer | ||
+ | |----------- | ||
+ | !|KNR Studienrichtung ||Forts. ||Anf. ||Forts. ||Anf. ||Summe | ||
+ | |----------- | ||
+ | ||526 Wirtschaftsinformatik ||497 ||106 ||142 ||24 ||769 | ||
+ | |----------- | ||
+ | ||531 Data Egineering & Statistics ||55 ||14 ||22 ||3 ||94 | ||
+ | |----------- | ||
+ | ||532 Medieninformatik ||645 ||210 ||180 ||33 ||1068 | ||
+ | |----------- | ||
+ | ||533 Medizinische Informatik ||285 ||104 ||101 ||24 ||514 | ||
+ | |----------- | ||
+ | ||534 Software & Information Engineering ||702 ||167 ||336 ||61 ||1266 | ||
+ | |----------- | ||
+ | ||535 Technische Informatik ||427 ||117 ||205 ||37 ||786 | ||
+ | |} | ||
+ | |||
+ | {| class ="eqqon_table2" | ||
+ | |+'''Zahlen für WS 2006''' | ||
+ | |----------- | ||
+ | !| ||Inländer || ||Ausländer | ||
+ | |----------- | ||
+ | !|KNR Studienrichtung ||Forts. ||Anf. ||Forts. ||Anf. ||Summe | ||
+ | |----------- | ||
+ | ||526 Wirtschaftsinformatik ||459 ||132 ||126 ||19 ||736 | ||
+ | |----------- | ||
+ | ||531 Data Egineering & Statistics ||55 ||11 ||22 ||4 ||92 | ||
+ | |----------- | ||
+ | ||532 Medieninformatik ||770 ||226 ||223 ||34 ||1253 | ||
+ | |----------- | ||
+ | ||533 Medizinische Informatik ||368 ||80 ||118 ||17 ||583 | ||
+ | |----------- | ||
+ | ||534 Software & Information Engineering ||771 ||146 ||352 ||39 ||1308 | ||
+ | |----------- | ||
+ | ||535 Technische Informatik ||484 ||94 ||229 ||38 ||845 | ||
+ | |} | ||
+ | |||
+ | Nehmen Sie (z.B.) das folgende R–Script. Informieren Sie sich über die dabei verwendeten Funktionen und deren Argumente (help(name)). | ||
+ | R-Script: | ||
+ | x2005 <- c(769,94,1068,514,1266,786) | ||
+ | x2006 <- c(736,92,1253,583,1308,845) | ||
+ | Studien <- c("Wirtschafts-\ninformatik","Data Engineering\n& Statistics", | ||
+ | "Medien-\ninformatik","Medizinische\nInformatik", | ||
+ | "Software & Information\nEngineering","Technische\nInformatik") | ||
+ | names(x2005) <- names(x2006) <- Studien | ||
+ | par(mfrow=c(2,2)) | ||
+ | pie(x2005, radius=0.9, main="Inskribierte WS 2005", cex=0.8) | ||
+ | barplot(sort(x2005, decreasing=TRUE)/sum(x2005), axis.lty=1, cex.names=0.7, | ||
+ | col="orange2", main="Inskribierte WS 2005") | ||
+ | pie(x2006, radius=0.9, main="Inskribierte WS 2006", cex=0.8) | ||
+ | barplot(sort(x2006, decreasing=TRUE)/sum(x2006), axis.lty=1, cex.names=0.7, | ||
+ | col="orange2", main="Inskribierte WS 2006") | ||
+ | par(mfrow=c(1,1)) | ||
;3) | ;3) |
Revision as of 16:23, 9 October 2007
9.10.2007
- 1) 3 Beispiele für Statistiken
- Forbes - Liste der Rechsten Bürger der Welt, Datenquellen nicht abgegeben, keine grafische Darstellung
- Bank Austria Creditanstalt - ATX Börseindex. Daten werden von der Börse AG bereitgestellt, grafische Darstellung durch ein Liniendiagramm
- Konsument Online Umfrage des Monats (08/2007): "Prospekte im Briefkasten" 4 vorgegebene diskrete Merkmale stehen zur Auswahl, Anzahl der Stimmanbgaben ist angegeben (370), Zeitraum der Erhebung ist angegeben (1 Monat), grafische Darstellung durch ein Balkendiagramm
- 2. R-script
- Im WS 2005 und 2006 verteilten sich die Inskriptionszahlen der Studienrichtungen, für die die VO/UE Statistik u. Wahrscheinlichkeitstheorie anrechenbar bzw. verpflichtend ist, wie unten angegeben (Quelle: TUWIEN). Erstellen Sie vergleichende Balken– und Kreisdiagramme für die Gesamtzahlen (oder für Teilzahlen). Gibt es „signifikante“ Veränderungen?
Inländer | Ausländer | ||||
---|---|---|---|---|---|
KNR Studienrichtung | Forts. | Anf. | Forts. | Anf. | Summe |
526 Wirtschaftsinformatik | 497 | 106 | 142 | 24 | 769 |
531 Data Egineering & Statistics | 55 | 14 | 22 | 3 | 94 |
532 Medieninformatik | 645 | 210 | 180 | 33 | 1068 |
533 Medizinische Informatik | 285 | 104 | 101 | 24 | 514 |
534 Software & Information Engineering | 702 | 167 | 336 | 61 | 1266 |
535 Technische Informatik | 427 | 117 | 205 | 37 | 786 |
Inländer | Ausländer | ||||
---|---|---|---|---|---|
KNR Studienrichtung | Forts. | Anf. | Forts. | Anf. | Summe |
526 Wirtschaftsinformatik | 459 | 132 | 126 | 19 | 736 |
531 Data Egineering & Statistics | 55 | 11 | 22 | 4 | 92 |
532 Medieninformatik | 770 | 226 | 223 | 34 | 1253 |
533 Medizinische Informatik | 368 | 80 | 118 | 17 | 583 |
534 Software & Information Engineering | 771 | 146 | 352 | 39 | 1308 |
535 Technische Informatik | 484 | 94 | 229 | 38 | 845 |
Nehmen Sie (z.B.) das folgende R–Script. Informieren Sie sich über die dabei verwendeten Funktionen und deren Argumente (help(name)). R-Script:
x2005 <- c(769,94,1068,514,1266,786) x2006 <- c(736,92,1253,583,1308,845) Studien <- c("Wirtschafts-\ninformatik","Data Engineering\n& Statistics", "Medien-\ninformatik","Medizinische\nInformatik", "Software & Information\nEngineering","Technische\nInformatik") names(x2005) <- names(x2006) <- Studien par(mfrow=c(2,2)) pie(x2005, radius=0.9, main="Inskribierte WS 2005", cex=0.8) barplot(sort(x2005, decreasing=TRUE)/sum(x2005), axis.lty=1, cex.names=0.7, col="orange2", main="Inskribierte WS 2005") pie(x2006, radius=0.9, main="Inskribierte WS 2006", cex=0.8) barplot(sort(x2006, decreasing=TRUE)/sum(x2006), axis.lty=1, cex.names=0.7, col="orange2", main="Inskribierte WS 2006") par(mfrow=c(1,1))
- 3)
- 4)
- 5)
- 6)
- 7)
- 8)
16.10.2007
- 9. Betrachten Sie den Datensatz cpu.dat (vgl. Aufgabe 5)
- (a) Berechnen Sie den Mittelwert, den Median und den Modalwert (Modus).
- (b) Berechnen Sie die Varianz, die Streuung und den Quartilabstand.
- (c) Berechnen Sie die mittlere absolute Abweichung (MAD).
- (d) Ermitteln Sie die 5–Zahlen Zusammenfassung und zeichnen Sie einen Boxplot.
- Hinweis: Die R–Funktionen lauten fivenum() und boxplot().
- 10. Wiederholen Sie Aufgabe 9 für den Datensatz concurrent.dat (vgl. Aufgabe 7).
- 11. Zeigen Sie, daß ein allgemeiner Ausdruck für das p–Quantile auf Basis eines klassierten Datensatzes gegeben
ist wie folgt: Ist Ki = (ui, oi] diejenige Klasse, in die das p–Quantile hineinfällt, so gilt: xp = ui + p − i−1 Xj=1 hj! oi − ui hi
(hj = relative Klassenhäufigkeit der j–ten Klasse) Überprüfen Sie die Gültigkeit des Ausdrucks an der Berechnung des Medians bzw. des Quartilabstands in Aufgabe 9 oder 10.
- 12. Anzahl der täglichen (blockierten) Intrusion–Versuche im Verlauf von zwei Wochen
- 56 47 49 37 38 60 50 43 43 59 50 56 54 58
Nach einer Änderung der Einstellungen der Firewall lauteten die Zahlen in den folgenden 20 Tagen:
- 53 21 32 49 45 38 44 33 32 43 53 46 36 48 39 35 37 36 39 45
Vergleichen Sie die Daten vor und nach der Änderung:
- *(a) Konstruieren Sie Stem-and-Leaf–Plots. Hinweis: Die R–Funktion lautet stem().
- (b) Bestimmen Sie Lage– und Streuungsparameter.
- *(c) Bestimmen Sie die 5-Zahlen–Zusammenfassungen.
- *(d) Zeichnen Sie (parallele) Box-Plots.
- (e) Kommentieren Sie die Ergebnisse.
- *13. Wie in der VO angesprochen, versucht man in der schließenden Statistik (u.a.) den empirisch gegebenen Verteilungen (Histogrammen) theoretische Verteilungen (Dichten) anzupassen. Man versuche dies wahlweise für den Datensatz resistor.dat (Aufgabe 6) oder concurrent.dat (Aufgabe 7) mit der Anpassung
einer Normaldichte. Für die beiden Parameter dieser Verteilung (μ, �2) nehme man die entsprechenden empirischen Größen (x, s2).
- 14.
- (a) Wieviele verschiedene Passwörter, bestehend aus 8 Zeichen, kann man aus einem Alphabet, bestehend aus 10 Ziffern, 26 Klein– und 26 Großbuchstaben, bilden?
- m = (10+26+26)8 = 218 340 105 584 896
- (b) Angenommen, ein Spy–Programm kann pro Sekunde 1 Million Passwörter verarbeiten. Wie lange braucht es für alle möglichen Passwörter? Wie lange braucht es im Durchschnitt, um Ihr persönliches Passwort zu finden?
- das Spy Programm benötigt maximal s = m/1000000 = 218340105.584896 Sekunden.
- das Spy Programm findet mein persönliches Passwort im Durchschnitt nach med(s) = (s+1)/2 = 109170053.292448 Sekunden.
- (c) Mit welcher Wahrscheinlichkeit findet das Spy–Programm von (b) innerhalb einer Woche Ihr persönliches Passwort?
- Die Wahrscheinlichkeit gibt an mit welcher Erwartung ein bestimmtes Ereignis eintreten wird. Der Wertebereich liegt zwischen 0 und 1 [0 - 1].
- (d) Beantworten Sie die Fragen (a) bis (c), wenn Großbuchstaben bei der Bildung von Passwörtern nicht verwendet werden.
- 15. In einem Array der Länge n werden zufällig k (≤ n) Daten abgelegt
-
- Also zunächst mal ein Beispiel: n=10
- 0 1 2 3 4 5 6 7 8 9 oder 2 - 2 - 3 - - 4 7 5
- (a) Mit welcher Wahrscheinlichkeit kommt es dabei zu Mehrfachbelegungen?
- (b) Wie groß muß k für n = 100 mindestens sein, damit diese Wahrscheinlichkeit größer als 0.5 (größer als 0.9) ist?
- (c) Beantworten Sie (b) für n = 365. (Bem.: Diesen Fall nennt man auch „Geburtstagsproblem“.)
- 16. Eine Variante des „Geburtstagsproblems“ (vgl. Aufgabe 15(c))
- Sie wollen jemanden finden, der am selben Tag wie Sie geboren ist. Welche Mindestanzahl von Personen müssen Sie befragen, damit die Wahrscheinlichkeit dafür etwa 1/2 beträgt? Wieviele, wenn die Wahrscheinlichkeit dafür mindestens 0.99 sein soll?