Iωαννης Αντωνιου Χαραλαμπος Μπρατσας...

33
Στατιστικη Μαθησης και Επεξεργασία Γνώσης ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ Statistics of Learning and Knowledge Processing WINTER SEMESTER Τμημα Μαθηματικων Αριστοτελειο Πανεπιστημιο Θεσσαλονικης School of Mathematics Aristotle University of Thessaloniki Iωαννης Αντωνιου Χαραλαμπος Μπρατσας [email protected] [email protected] Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

Transcript of Iωαννης Αντωνιου Χαραλαμπος Μπρατσας...

  • Στατιστικη Μαθησης και Επεξεργασία Γνώσης

    ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ

    Statistics of Learning and Knowledge Processing

    WINTER SEMESTER Τμημα Μαθηματικων

    Αριστοτελειο Πανεπιστημιο Θεσσαλονικης

    School of MathematicsAristotle University

    of Thessaloniki

    Iωαννης Αντωνιου Χαραλαμπος Μπρατσας [email protected] [email protected]

    Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

  • Δεδομενα από Μετρησεις Δειγμα Μ Μετρησεων των Μεταβλητων Χ,Υ

    Data Matrix Variable X Variable Y Observation 1 𝜒 𝓎 Observation 2 𝜒 𝓎

    ⋮ ⋮ ⋮ Observation M 𝜒 𝓎

     

    Καταχωρουνται n Χ διαφορετικες τιμες της Χ: 𝒙𝟏, 𝒙𝟐, …, 𝒙𝒏 𝑿 και n Y διαφορετικες τιμες της Υ: 𝒚𝟏, 𝒚𝟐, …, 𝒚𝒏 𝒀 M 𝑥 το πληθος των τιμων 𝑦 που καταχωρηθηκαν M 𝑦 το πληθος των τιμων 𝑥 που καταχωρηθηκαν M 𝑦 , 𝑥 το πληθος των ζευγων τιμων 𝑦 , 𝑥 που καταχωρηθηκαν

  • Παλινδρομηση Προβλημα Να ευρεθει η Σχεση εξαρτησης των Μεταβλητων Χ, Υ: Υ= f(X) από τις Παρατηρησεις (Data Fitting) Παλινδρομώ = δρομώ προς το μερος οθεν (προ)ηλθον

  • Πιναξ Μ Μετρησεων των Μεταβλητων Χ, Υ

    Συναρτηση Παλινδρομισης (Regression Function) Μαθηματικη Απαιτηση Ιδεωδες

    Σφαλμα (Error) της Εκτιμησης 𝑓 𝜒 από την Παρατηρουμενη τιμη 𝓎 Πραγματικοτητα

    Χ Υ 𝑌 𝑓 𝑋 𝓎 𝑓 𝜒 𝜀

    𝜒 𝓎1 𝓎 𝑓 𝜒 𝓎 𝑓 𝜒 𝜀

    𝜒 𝓎2 𝓎 𝑓 𝜒 𝓎 𝑓 𝜒 𝜀

    ⋮ ⋮ ⋮ ⋮

    𝜒 𝓎 𝓎 𝑓 𝜒 𝓎 𝑓 𝜒 𝜀 Επιδιωκουμε οι τιμες 𝑓 𝜒 , 𝑓 𝜒 , … , 𝑓 𝜒 , της προς εκτιμηση συναρτησης f να είναι «κοντα» στις αντιστοιχες παρατηρουμενες τιμες 𝓎 , 𝓎 , … , 𝓎 Δηλαδη επιδιωκουμε Ελαχιστο Σφαλμα

  • Gauss C.F. 1795 18 ετων   Legendre A.M. 1805, Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris. “Sur la Méthode des moindres quarrés” appendix . Gauss C.F. 1809, Theoria Matus Corporum Coelestium. Perthes, Hamburg. Translation reprinted as: Theory of the Motions of the Heavenly Bodies Moving about the Sun in Conic Sections, Dover, New York, 1963 Stigler S. 1981, Gauss and the Invention of Least Squares, Annals of Statistics 9, 465-474 Ανακαλυψη Ποσειδωνα 1846 από τις «Διαταραχες» στην Παρατηρουμενη Τροχια του Ουρανου

  •   Συναρτηση Παλινδρομισης Μεσο Ολικο Τετραγωνικο Σφαλμα

    𝜰 𝒇𝜷 𝑿 𝛽: παραμετροι προσδιορισμου της Συναρτησης Παλινδρομισης

    𝓎 𝓎 ⋯ 𝓎 𝓔 β

    Υ=α+βΧ  «Γραμμικη» σχεση                   Πολυωνυμο 1ου βαθμου 

    ∑ 𝑥 𝑎 𝛽𝑥𝛭 ℰ α, β

    Υ= α𝜲𝟐+βΧ+γ  Τετραγωνικη Σχεση Πολυωνυμο 2ου βαθμου

    ∑ 𝑥 𝑎 𝛽𝑥 𝛾𝑥𝛭 ℰ α, β, γ

    𝑌 𝛽 𝛽 x ⋯ 𝛽 𝑥Πολυωνυμο βαθμου n 

    ∑ 𝑥 𝛽 𝛽 𝑥 ⋯ 𝛽 𝑥𝛭 ℰ 𝛽 , 𝛽 , … , 𝛽

  • Γραμμικη Παλινδρομιση

  • Θεωρημα Εκτιμηση των παραμετρων α, β της Ευθειας ΠαλινδρομησηςΜεθοδος Ελαχιστων Τετραγωνων Gauss1 H συναρτηση Y f X 𝛼 𝛽Χ εχει Ελαχιστο Μεσο Ολικο Τετραγωνικο Σφαλμα 𝓔 α,β

    Για τις παραμετρους: 𝛽 𝛽 ∑ 𝓎 𝓂 𝓂

    ∑r

    𝛼 𝛼 𝓂 𝛽 𝓂 𝓂 r 𝓂 𝑚 ∑ 𝜒 , 𝑚 ∑ 𝓎 οι Μεσες Τιμες των Χ, Υ

    𝜎 ∑

    , 𝜎 ∑ 𝓎

    οι Τυπικες Αποκλισεις των Χ, Υ 𝓇 ∑ 𝓎

    ∑ 𝓎 η Συσχετιση Pearson των Χ,Υ

    2 Το Ελαχιστο Μεσο Ολικο Τετραγωνικο Σφαλμα ειναι: ℰ ℰ α, β 𝜎 1 r

  • Διερευνηση των Τιμων του Συντελεστη Pearson

  • ΣΧΟΛΙΑ 1 Γενικα Γραμμικα Μοντελα Y α β1Χ1 β2Χ2 … βΝΧΝ 2 Μη Γραμμικη Παλινδρομηση Λογιστικη Παλινδρομιση 3 Παρεμβολη με κλασσεις συναρτησεων Πολυωνυμα, Τριγωνομετρικες, Wavelets 4 Δειγματοληψια Shannon

  • Παραδειγματα Συναρτησεων που αναγονται σε Γραμμικες Αρχικη Συναρτηση

    𝒛 𝒇 𝒙

    Μετασχηματισμος𝒛 𝒈 𝒚

    𝒚 𝒂 𝜷𝒙 𝒛 𝒆𝜶 𝜷𝒙 𝒛 𝒆𝒚

    𝒛 𝑨𝒆𝜷𝒙 𝒛 𝒆𝒚, 𝑨 𝒆𝜶

    𝒛𝟏

    𝒂 𝜷𝒙 𝒛𝟏𝒚

    𝒛 𝑨𝝃𝜷 𝒛 𝒆𝒚, 𝑨 𝒆𝜶, 𝝃 𝒆𝒙

    𝒛𝟏

    𝒂 𝜷𝒙 𝒏 𝒛𝟏

    𝒚𝒏

  • Λογιστικη Παλινδρομιση Sigmoid Map (Innovation)

  • Λογιστικη Παλινδρομιση Item Response Model (IRM) = Latent Trait Model = Mental Test Model (1950) IRM does not assume that each item is equally difficult (unlike simpler alternatives for creating scales evaluating questionnaire responses). IRM treats the difficulty of each item as information to be incorporated in scaling items. The response of a person to an item is modeled by the Item response function (the Logistic function) 𝑓 x 𝑐 x η ικανοτης του προσωπου, 𝑐 , 𝛽 , 𝛼 παραμετροι εξαρτωμενοι από το θεμα (κ) IRM is useful for the design, analysis, and scoring of tests, questionnaires, instruments measuring abilities, attitudes

  • Regression = Παλινδρομιση Construct a function within a specific Class 𝒜 of functions with minimal distance from discrete samples Least Squares Regression = Least Squares Fit: the Distance is the ℒ 2 – distance

  • Interpolation = Παρεμβολη Παρεμβολη στο Πλαισιο κλασσεων συναρτησεων (Πολυωνυμα, Τριγωνομετρικες, Wavelets) Reconstruction of a function from discrete samples Given the points (y1 , t1) , (y2 , t2), …, (yN , tN) Find an Interpolation function f within a specific Class 𝒜 of functions : yn = f(tn) , n=1,2,…,N

  • ΠΡΟΒΛΗΜΑΤΑ ΣΥΣΧΕΤΙΣΗΣ PEARSON

    ΠΡΟΒΛΗΜΑ 1

    Η Συσχετιση Pearson 𝑟 είναι Αξιοπιστη για Δεδομενα «κοντα» στην Σχεση Υ αΧ β

    Παραδειγμα: Τα 4 Συνολα Δεδομενων του Anscombe

    Οι Παραμετροι Παλινδρομισης αρα και οι Ευθειες Παλινδρομισης συμπιπτουν

    Ενώ οι σχεσεις είναι πολύ διαφορετικες

  • Δεικτης Τιμες στα 4 Συνολα Δεδομενων

    Μεση Τιμη της Χ 𝒎𝑿 𝟗

    Διασπορα της Χ 𝝈𝑿 𝟑, 𝟑𝟐

    Μεση Τιμη της Υ 𝒎𝜰 7,50

    Διασπορα της Υ 𝟐, 𝟎𝟑𝟎 𝝈𝑿 𝟐, 𝟎𝟑𝟏

    Συντελεστης Pearson 𝒓𝑿𝒀 𝟎. 𝟖𝟏𝟔

    Παραμετροι Παλινδρομισης 𝒚 3.00 0.500x 𝜶 𝟑. 𝟎𝟎

    𝜷 𝟎. 𝟓𝟎

    Anscombe F. 1973, Graphs in statistical analysis, The American Statistician 27, 17–21.

    Chatterjee S., Firat A. 2007, Generating Data with Identical Statistics but Dissimilar Graphics:

    A Follow up to the Anscombe Dataset, American Statistician 61, 248–254

  • Ηθικον Διδαγμα:

    Πρωτα Παρατηρουμε την γραφικη Παρασταση των Δεδομενων και

    Κατοπιν Προχωρουμε στην Μαθηματικη Αναλυση

    Η Αναλυση Παλινδρομισης χρειαζεται Ελεγχο Θεωρουμενη ως Υποθεση

  • ΠΡΟΒΛΗΜΑ 2

    𝑟 0 συνεπαγεται μονο ότι Χ , Χ Γραμμικα Ασυσχετιστες

    δεν συνεπαγεται ότι Χ , Χ Ανεξαρτητες

    ∃ Γραμμικα Ασυσχετιστες Μεταβλητες που δεν είναι Ανεξαρτητες

    αλλα αν Χ , Χ Ανεξαρτητες, τοτε Χ , Χ Γραμμικα Ασυσχετιστες

    ΠΡΟΒΛΗΜΑ 3

    Η Συσχετιση Pearson 𝑟 εκτιμα μονο Συμμετρικες Σχεσεις

    ΠΡΟΒΛΗΜΑ 4

    𝑟 δεν εφαρμοζεται για Συμβολικες Μεταβλητες

  • Επισκοπιση Γραφικης Παραστασης ΔεδομενωνΠριν γινουν οι Υπολογισμοι

    Αποκτουμε μια πρωτη εικονα

    των υφισταμενων σχεσεων

  • The lin-lin graph: linear scale on the x-axis, and linear scale on the y-axis. First degree Polynomials are Lines Exponential Functions above the diagonal Logarithmic Functions below the diagonal

  • The lin-log graph: logarithmic scale on the x-axis, and linear scale on the y-axis. The logarithmic functions are represented as Straight lines y Alog Bx AlogB A logx

  • The log-lin graph: logarithmic scale on the y-axis, and linear scale on the x-axis. The exponential functions 𝒚 𝑲𝒂𝜞𝒙 are represented as straight lines: 𝒍𝒐𝒈𝜷𝒚 𝒍𝒐𝒈𝜷 𝑲𝒂𝜞𝒙 𝒍𝒐𝒈𝜷 𝑲 𝜞𝒙 𝒍𝒐𝒈𝜷 𝒂 𝜞𝒍𝒐𝒈𝜷𝒂 𝒙 𝒍𝒐𝒈𝜷 𝑲 A line with slope 𝜞𝒍𝒐𝒈𝜷𝒂 and vertical intercept 𝒍𝒐𝒈𝜷 𝑲 . logs to base β 10 or β e, β 2 Change logarithm basis

    𝑙𝑜𝑔 𝑥 𝑙𝑜𝑔 𝑥𝑙𝑜𝑔 𝛽

    x, η, β 0 , η 1, β 1

  • The log-log graph: logarithmic scales on both axes The Power Law functions 𝒚 𝑲𝒙 𝒂 are represented as straight lines: 𝒍𝒐𝒈𝜷𝒚 𝒍𝒐𝒈𝜷 𝑲𝒙 𝒂 𝒍𝒐𝒈𝜷 𝑲 𝒂 𝒍𝒐𝒈𝜷 𝒙 𝒍𝒐𝒈𝜷 𝑲 𝒂 𝒍𝒐𝒈𝜷𝒙 A line with slope 𝒂 and vertical intercept 𝒍𝒐𝒈𝜷 𝑲 . β 10 or β e or β 2

  • The log-log graph Power Law Distributions Survival Function 𝑮 𝒙 𝟏 𝑭 𝒙 is Straight Line:

    𝑮 𝒙 𝒅𝒙𝑲𝒙 𝒂

    𝒙

    ∞, 𝒂 𝟏𝑲

    𝟏 𝒂 𝒙𝟏 𝒂, 𝒂 𝟏

    𝒍𝒐𝒈𝜷𝑮 𝒙 𝒂 𝟏 𝒍𝒐𝒈𝜷 𝒙 𝒍𝒐𝒈𝜷𝑲

    𝟏 𝒂

  • Power Law Distributions Ισχυρες Αλληλοεξαρτησεις : 𝝆 𝒙 𝑲𝒙 𝒂, 𝑲 𝟎1896 Pareto the distribution of income and wealth follows the logarithmic pattern.1926 Lotka the number of authors who published x papers is proportional to x1932 Zipf the frequency of English words follows a power law function.1949 Yule the probability that a new species is added to a genus is proportional to the

    number of species the genus already preferential attachmentYule Distribution is Asymptotic Power Law

    1955 Simon Proposed the preferential attachment model which has the power law as invariant distribution. Specific Systems

    • words in prose samples by their frequency of occurrence • scientists by number of papers published • cities by population • incomes by size• biological genera by number of species.

    1999 Kumar ea., Barabasi ea., Faloutsos ea.

    the WWW is a power law graph.

    Abello,ea the call graphs are power law graphs Bhalla ea. Schilling ea.

    the metabolic networks are power law graphs

    2000 Watts ea. several social networks are power law graphs.

  • Scale Invariant FunctionsScale transformation: Μετασχηματισμος Αλλαγης Κλιμακας Μεγεθυνση : x ⟼ λx Μετασχηματισμος Συναρτησεων: 𝑓 ⟼ 𝑓 : 𝑓 𝑥 𝜆 𝑓 𝑥 α the Scaling Exponent Parameter Δραση της Ομαδος των Μεγεθυνσεων στις Συναρτησεις Συναρτησεις Αναλλοιωτες σε Αλλαγη Κλιμακας: 𝑓 𝑓 ⟺ f 𝑥 𝜆 𝑓 𝑥 ⟺ f 𝑥 𝑓 𝑥 Οι Ομογενεις Συναρτησεις βαθμου α H Power law f x 𝐴𝑥 είναι Scale Invariant:

    𝑓1𝜆 𝑥 𝐴

    1𝜆 𝑥 𝐴

    1𝜆 𝑥

    1𝜆 f 𝑥

  • The log-log graph: logarithmic scales on both axes

    The Log-Normal functions y 𝟏𝝈𝒙√𝟐𝝅

    𝒆 𝒍𝒏𝒙 𝒎 𝟐

    are represented as quadratic functions:

    𝑙𝑛𝒚 𝑙𝑛 𝟏𝝈𝒙√𝟐𝝅

    𝒆 𝒍𝒏𝒙 𝒎 𝟐

    𝑙𝑛 𝟏𝒙𝝈√𝟐𝝅

    𝒍𝒏𝒙 𝒎 𝟐

    ⟺ 𝑙𝑛𝑦 𝑙𝑛𝑥 𝑙𝑛 𝜎√2𝜋 𝑙𝑛𝑥 2𝑙𝑛𝑥

    ⟺ 𝒍𝒏𝒚 𝑙𝑛 𝜎√2𝜋 1 𝒍𝒏𝒙 𝒍𝒏𝒙 𝟐 For large σ: 𝒍𝒏𝒚 ≃ 𝑙𝑛

    √1 𝒍𝒏𝒙

    ⟺ 𝒚 ≃√

    𝒙 𝟏 Power Law Power Law functions as the first Approximation to Log-Normal functions

  • Αυτο-ομοια Δικτυα. Mηχανισμοι Αναπτυξης: Log-Normal Distribution

    Oι Πλουσιοι Κομβοι Γινονται Πλουσιωτεροι 𝝆 𝒙 𝟏𝝈𝒙√𝟐𝝅

    𝒆 𝒍𝒏𝒙 𝒎 𝟐

    και Οι Πτωχοι Κομβοι Πτωχοτεροι 1 Τυρβωδης Ροη 2 Κατατμηση Πετρωματων Kolmogorov 1941 Οι λογαριθμοι των μεγεθων των τεμαχιων ακολουθουν Κανονικη Κατανομη Αυτο-ομοιες Στοχαστικες Διαδικασιες Πριν τα Fractals και την Preferential Attachment τω γαρ εχοντι παντὶ δοθήσεται καὶ περισσευθήσεται του δὲ μὴ εχοντος καὶ ο εχει ἀρθήσεται ἀπ' αυτου Κατά Ματθαιον 25,29 Μerton R. 1968, The Matthew Effect in Science, Science, 159 3810 : 56-63 Antoniou I., Ivanov Vi., Ivanov Va. Zrelov P. 2002, On the log-normal distribution of Network Traffic, Physica D 167, 72–85

  • Log-Normal Distribution Applications:• Geology and Mining • Atmospheric sciences and aerobiology • Environment • Biochemical Networks • Food Technology • Medicine • Linguistics • Software Reliability • Economics • Sociology • Internet

    Limpert E., Stahel W., Abbt M. 2001, Log-normal Distributions across the Sciences: Keys and Clues, BioScience 51, 341-352 Downey A. 2005, Lognormal and Pareto Distributions in the Internet, Computer Communications 28, 790-801 Nacher J., Ochiai Yamada T., Kanehisa M. , AkutsuT. 2006, The role of log-normal dynamics in the evolution of biochemical pathways, BioSystems 83, 26–37 Gronholm T., Annila A. 2007, Natural Distribution, Mathematical Biosciences 210, 659–667 Gokhale S., Mullen R. 2008, Application of the Lognormal Distribution to Software Reliability Engineering, in: Handbook of Performability Engineering, ed. Misra K. Springer, London, 1209-1225

  • Downey A. 2005, Lognormal and Pareto Distributions in the Internet, Journal Computer Communications 28, 790-801 Mitzenmacher M. 2003, A Brief History of Generative Models for Power Law and Lognormal Distributions, Internet Mathematics 1, 226-251 Milojević S. 2010, Modes of Collaboration in Modern Science – Beyond Power Laws and Preferential Attachment, Journal of the Amer. Soc. for Information Science and Technology 61, 1410–1423