From Algorithms to Z-Scores: Probabilistic and Statistical ... CONTENTS iii 2.2.2 Use of Densities...

download From Algorithms to Z-Scores: Probabilistic and Statistical ... CONTENTS iii 2.2.2 Use of Densities to

If you can't read please download the document

  • date post

    30-Jun-2020
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of From Algorithms to Z-Scores: Probabilistic and Statistical ... CONTENTS iii 2.2.2 Use of Densities...

  • From Algorithms to Z-Scores:

    Probabilistic and Statistical Modeling in Computer Science

    Norm Matloff

    University of California, Davis

    fX(t) = ce −0.5(t−µ)′Σ−1(t−µ)

    library(MASS) x

  • 2

  • Contents

    1 Discrete Probability Models 1

    1.1 ALOHA Network Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 Basic Ideas of Probability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.2.1 The Crucial Notion of a Repeatable Experiment . . . . . . . . . . . . . . . . . . . . 2

    1.2.2 Our Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.2.3 Basic Probability Computations: ALOHA Network Example . . . . . . . . . . . . . 6

    1.2.4 Bayes’ Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.2.5 ALOHA in the Notebook Context . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.2.6 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.2.6.1 Simulation of the ALOHA Example . . . . . . . . . . . . . . . . . . . . 10

    1.2.6.2 Rolling Dice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    1.2.7 Combinatorics-Based Probability Computation . . . . . . . . . . . . . . . . . . . . 12

    1.2.7.1 Which Is More Likely in Five Cards, One King or Two Hearts? . . . . . . 12

    1.2.7.2 “Association Rules” in Data Mining . . . . . . . . . . . . . . . . . . . . 13

    1.3 Discrete Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1.4 Independence, Expected Value and Variance . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1.4.1 Independent Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    1.4.2 Expected Value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1.4.2.1 Intuitive Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1.4.2.2 Computation and Properties of Expected Value . . . . . . . . . . . . . . . 15

    1.4.2.3 Casinos, Insurance Companies and “Sum Users,” Compared to Others . . 18

    1.4.3 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    i

  • ii CONTENTS

    1.4.4 Is a Variance of X Large or Small? . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.4.5 Chebychev’s Inequality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.4.6 The Coefficient of Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.4.7 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.4.8 A Combinatorial Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.4.9 Expected Value, Etc. in the ALOHA Example . . . . . . . . . . . . . . . . . . . . . 23

    1.4.10 Reconciliation of Math and Intuition (optional section) . . . . . . . . . . . . . . . . 24

    1.5 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    1.5.1 Basic Notions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    1.5.2 Parameteric Families of pmfs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1.5.2.1 The Geometric Family of Distributions . . . . . . . . . . . . . . . . . . . 25

    1.5.2.2 The Binomial Family of Distributions . . . . . . . . . . . . . . . . . . . . 26

    1.5.2.3 The Poisson Family of Distributions . . . . . . . . . . . . . . . . . . . . 27

    1.5.2.4 The Negative Binomial Family of Distributions . . . . . . . . . . . . . . 27

    1.5.2.5 The Power Law Family of Distributions . . . . . . . . . . . . . . . . . . 29

    1.6 Recognizing Distributions When You See Them . . . . . . . . . . . . . . . . . . . . . . . . 29

    1.6.1 A Coin Game . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    1.6.2 Tossing a Set of Four Coins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    1.6.3 The ALOHA Example Again . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.7 A Cautionary Tale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.7.1 Trick Coins, Tricky Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    1.7.2 Intuition in Retrospect . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    1.7.3 Implications for Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.8 Why Not Just Do All Analysis by Simulation? . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.9 Tips on Finding Probabilities, Expected Values and So On . . . . . . . . . . . . . . . . . . 33

    2 Continuous Probability Models 37

    2.1 A Random Dart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.2 Density Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    2.2.1 Motivation, Definition and Interpretation . . . . . . . . . . . . . . . . . . . . . . . 40

  • CONTENTS iii

    2.2.2 Use of Densities to Find Probabilities and Expected Values . . . . . . . . . . . . . . 42

    2.3 Famous Parametric Families of Continuous Distributions . . . . . . . . . . . . . . . . . . . 43

    2.3.1 The Uniform Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    2.3.1.1 Density and Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    2.3.1.2 Example: Modeling of Disk Performance . . . . . . . . . . . . . . . . . . 43

    2.3.1.3 Example: Modeling of Denial-of-Service Attack . . . . . . . . . . . . . . 43

    2.3.2 The Normal (Gaussian) Family of Continuous Distributions . . . . . . . . . . . . . 44

    2.3.2.1 Density and Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    2.3.2.2 Example: Network Intrusion . . . . . . . . . . . . . . . . . . . . . . . . 45

    2.3.2.3 The Central Limit Theorem . . . . . . . . . . . . . . . . . . . . . . . . . 46

    2.3.2.4 Example: Coin Tosses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    2.3.2.5 Museum Demonstration . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2.3.2.6 Optional topic: Formal Statement of the CLT . . . . . . . . . . . . . . . . 47

    2.3.2.7 Importance in Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.3 The Chi-Square Family of Distributions . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.3.1 Density and Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.3.2 Importance in Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.4 The Exponential Family of Distributions . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.4.1 Density and Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    2.3.4.2 Connection to the Poisson Distribution Family . . . . . . . . . . . . . . . 49

    2.3.4.3 Importance in Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    2.3.5 The Gamma Family of Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    2.3.5.1 Density and Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    2.3.5.2 Example: Network Buffer . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    2.3.5.3 Importance in Modeling . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    2.4 Describing “Failure” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    2.4.1 Memoryless Property . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    2.4.2 Hazard Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    2.4.2.1 Basic Concepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    2.4.3 Example: Software Reliability Models . . . . . . . . . . . . . . . . . . . . . . . . . 55

  • iv CONTENTS

    2.5 A Cautionary Tale: the Bus Paradox . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    2.6 Choosing a Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

    2.7 A General Method for Simulating a Random Variable . . . . . . . . . . . . . . . . . . . . . 57

    3 Multivariate Probability Models 61

    3.1 Multivariate Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.1.1 Why Are They Needed? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.1.2 Discrete Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    3.1.3 Multivariate Densities . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    3.1.3.1 Motivation and Definition . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    3.1.3.2 Use of Multivariate Densities in Finding Probabilities and Expected Values 63

    3.1.3.3 Example: a Triangular Distribution . . . . . . . . . . . . . . . . . . . . . 64

    3.2 More on Co-variation of Random Variables . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3.2.1 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    3.2.2 Correlation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.2.3 Example: Continuation of Section