Kurz: Pravděpodobnost a statistika (PaSTA)
Projekt č. 1: Pravděpodobnost I
Jméno: Bc. Kryštof Šara (SAR0130)
Datum: 03. 04. 2024
Příklad 1
Zadání
Termín pro odevzdání diplomové práce je 30. 4. Mirek nerad pracuje se zbytečným předstihem a tak v tento den musí svou práci ještě dopsat, vytisknout a nechat na počkání svázat v knihařství, kam může včas dojet pouze autem. Pravděpodobnost, že se v tento den pokazí počítač, na kterém svou práci píše, je 0,05. Pravděpodobnost, že se pokazí tiskárna je 0,2. Naštěstí má ještě druhou tiskárnu, které ale s pravděpodobností 0,3 dojde toner a náhradní není k dispozici. Auto je sice spolehlivé, ale s pravděpodobností 0,08 překousala kuna elektrické kabely. Knihař na rozdíl od auta úplně spolehlivý není, s pravděpodobností 0,15 práci během vázání zničí. Určete s jakou pravděpodobností Mirek práci včas odevzdá.
Řešení
Nejdříve si vypíšeme jednotlivé jevy a doplňky těchto jevů.
$$ \begin{align} &P \dots \text{pokazí se počítač},~\overline{P} \dots \text{nepokazí se počítač}\\ &T1 \dots \text{pokazí se první tiskárna},~\overline{T1} \dots \text{nepokazí se první tiskárna}\\ &T2 \dots \text{dojde toner druhé tiskárně},~\overline{T2} \dots \text{nedojde toner druhé tiskárně}\\ &K \dots \text{kuna překouše kabely v autě},~\overline{K} \dots \text{kuna nepřekouše kabely v autě}\\ &Z \dots \text{knihař zničí vázání práce},~\overline{Z} \dots \text{knihař nezničí vázání práce}\\ &O \dots \text{Mirek odevzdá práci včas} \end{align} $$
Dále si ze zadání vypíšeme pravděpodobnosti jednotlivých jevů a pravděpodobnosti doplňků, a to tak, že
$$ P(X) \dots \text{pravděpodobnost jevu X},~P(\overline{X}) \dots \text{pravděpodobnost doplňku jevu X.} $$
$$ P(P) = 0.05,~P(\overline{P}) = 1 - P(P) = 0.95\\ P(T1) = 0.20,~P(\overline{T1}) = 1 - P(T1) = 0.80\\ P(T2) = 0.30,~P(\overline{T2}) = 1 - P(T2) = 0.70\\ P(K) = 0.08,~P(\overline{K}) = 1 - P(K) = 0.92\\ P(Z) = 0.15,~P(\overline{Z}) = 1 - P(Z) = 0.85\\ \\ P(O) = ? $$
Obr. 1: Diagram se zobrazením sériovosti a paralelnosti jednotlivých jevů pro zadání 1.
Jevy \(T1\) a \(T2\) je nutné sloučit v grafu (obrázek 1) do paralelního svazku. Průnik doplňků těchto jevů (tedy, že alespoň jedna tiskárna funguje) pak označíme jako pravděpodobnost \(P(\overline{T})\), přičemž jev \(\overline{T}\) značí:
$$ \begin{align} &\overline{T} \dots \text{alespoň jedna tiskárna funguje}\\ \end{align} $$
$$ P(\overline{T}) = P(\overline{T1} \cup \overline{T2}) = 1 - P(T1 \cap T2) $$
Pokud předpokládáme nezávislost jevů, můžeme rovnou pravděpodobnost průniku jevů \(T1\) a \(T2\) psát jako jejich součin, tedy součin pravděpodobností jednotlivých jevů rovnou ze zadání:
$$ P(\overline{T}) = 1 - P(T1 \cap T2) = 1 - P(T1) * P(T2) = 1 - 0.20 * 0.30 = 1 - 0.06 = 0.94 $$
Dále můžeme díky sériovosti diagramu rovnou psát výslednou pravděpodobnost \(P(O)\), tedy že Mirek odevzdá práci včas, jako průnik doplňků jednotlivých jevů a sjednocené pravděpodobnosti tiskáren:
$$ P(O) = P(\overline{P} \cap \overline{T} \cap \overline{K} \cap \overline{Z}) $$
$$ \boxed{ P(O) = P(\overline{P}) * P(\overline{T}) * P(\overline{K}) * P(\overline{Z}) = 0.95 * 0.94 * 0.92 * 0.85 \approx 0.70 } $$
Pravděpodobnost, že Mirek odevzdá svou práci všas, je přibližně 0.70.
Příklad 2
Zadání
Filtr nevyžádané pošty obsahuje databázi frází, které se ve spamu vyskytují s vysokou četností. Analýzou bylo zjištěno, že pokud je daný email spam, pak s pravděpodobností 0,9 obsahuje nějakou frázi z databáze. V případě, že se nejedná o spam, je v těle emailu nějaká fráze z databáze s pravděpodobností 0,05. Dále je známo, že 40 % emailů, které přichází na server, tvoří spam.
- a) Jaká je pravděpodobnost, že příchozí email obsahuje frázi z databáze?
- b) Jaká je pravděpodobnost, že příchozí email obsahující frázi z databáze je spam?
Řešení
Nejprve si vypíšeme jednotlivé jevy ze zadání:
$$ \begin{align} &S \dots \text{příchozí mail je spam},~\overline{S} \dots \text{příchozí mail není spam}\\ &F \dots \text{příchozí mail obsahuje frázi z databáze},~\overline{F} \dots \text{příchozí mail neobsahuje frázi z databáze}\\ \end{align} $$
Dále zadání poukazuje na podmíněné pravděpodobnosti, a to:
$$ P(F \vert S) \dots \text{pokud je daný mail spam, tak obsahuje nějakou frázi z databáze}\\ P(F \vert \overline{S}) \dots \text{pokud není daný mail spam, tak obsahuje nějakou frázi z databáze}\\ $$
Ze zadání můžou být vypsány jednotlivé pravděpodobnosti:
$$ P(F \vert S) = 0.90\\ P(F \vert \overline{S}) = 0.05\\ P(S) = 0.40 \implies P(\overline{S}) = 0.60 \\ $$
Ze zadání ještě vyplývají jednotlivá podzadání, tedy:
$$ a) P(F) = ?\\ b) P(S \vert F) = ?\\ $$
Podřešení a)
Pomocí Bayesova vzorce lze jednotlivé složené pravděpodobnosti rozepsat přímo jako:
$$ P(F) = P(F \vert \overline{S}) * P(\overline{S}) + P(F \vert S) * P(S) $$
Hodnoty pravděpodobností je možné psát přímo ze zadání a z dopočteného doplňku \(P(\overline{S})\):
$$ \boxed{ P(F) = 0.05 * 0.60 + 0.90 * 0.40 \approx 0.39 } $$
Pravděpodobnost, že příchozí mail obsahuje frázi z databáze, je přibližně 0.39.
Podřešení b)
Opět lze použít Bayesův vzorec, tedy přímo jako:
$$ P( S \vert F ) = \frac{ P(S \cap F) }{ P(F) } = \frac{ P(F \vert S) * P(S) }{ P(F) } $$
Předpokládáme, že jevy \(S\) a \(F\) jsou nezávislé, pak lze rozepsat průnik v čitateli jako součin pravděpodobností jednotlivých jevů.
Pravděpodobnost, že příchozí mail obsahuje frázi z databáze, byla vypočtena v předchozím podřešení/podpříkladu, tj.:
$$ P(F) \approx 0.39 $$
Dosazením hodnot pak:
$$ \boxed{ P( S \vert F ) = \frac{ 0.90 * 0.40 }{ 0.39 } \approx 0.92 } $$
Pravděpodobnost, že příchozí mail obsahující frázi z databáze je spam, je přibližně 0.92.