ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (5ο thWINTER SEMESTER (5...

Post on 14-Sep-2018

214 views 0 download

Transcript of ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (5ο thWINTER SEMESTER (5...

Μοντέλα Παλινδρόμησης και Επεξεργασία Γνώσης

ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ (5ο)

Regression Models and Knowledge Processing WINTER SEMESTER (5th)

Τμημα Μαθηματικων Αριστοτελειο Πανεπιστημιο

Θεσσαλονικης 54124

School of Mathematics Aristotle University of Thessaloniki 54124

2. Σχεση Μεταβλητων Παλινδρομιση

Iωαννης Αντωνιου Χαραλαμπος Μπρατσας iantonio@math.auth.gr cbratsas@math.auth.gr Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

Εξαρτηση Μεταβλητων Ντετερμινιστικη Eξαρτηση Καθορισμενη Εξαρτηση Υ=φ(Χ) Η Μεταβλητη Υ Εξαρταται ως συναρτηση από την Μεταβλητη Χ

𝒚𝟏⋮𝒚𝑴

=𝒇𝟏 𝒙𝟏, … ,𝒙𝑵;𝜷

⋮𝒇𝑴 𝒙𝟏, … ,𝒙𝑵;𝜷

Κ(Χ,Υ)=0 Οι Μεταβλητες Χ,Υ Αλληλοεξαρτωνται ως Εμπλεγμενες Απεμπλοκη της Υ=f(Χ) Θεωρημα Εμπλεγμενης Συναρτησης

𝐾1 𝑦1, … , 𝑦𝑀 ; 𝑥1, … , 𝑥𝑁 = 0⋮

𝐾𝑀 𝑦1, … ,𝑦𝑀 ; 𝑥1, … , 𝑥𝑁 = 0

Στατιστικη Εξαρτηση Στοχαστικη Εξαρτηση

∃ 𝝉𝝉𝝉𝝉𝝉 𝝃,𝜼: 𝐏 𝐘 = 𝛈 𝐗 = 𝛏 ≠ 𝐏 𝐘 = 𝛈

Τουλαχιστον μια τιμη της Μεταβλητης Υ δεσμευεται από Τουλαχιστον μια τιμη της Μεταβλητης Χ

Γραμμικη Παλινδρομηση Προβλημα Ευρεσης Σχεσης Υ= f(X) από τις Παρατηρησεις (Data Fitting)

Επιδιωκουμε οι τιμες 𝑓 𝜒1 ,𝑓 𝜒2 , … ,𝑓 𝜒𝛭 , της προς εκτιμηση συναρτησης f να είναι «κοντα» στις αντιστοιχες παρατηρουμενες τιμες 𝓎1,𝓎2, … ,𝓎𝛭 Δηλαδη επιδιωκουμε Ελαχιστο Σφαλμα

Πιναξ Μ Μετρησεων των Μεταβλητων Χ, Υ

Συναρτηση Παλινδρομισης (Regression Function)

Σφαλμα (Error) της Εκτιμησης 𝑓 𝜒 από την Παρατηρουμενη τιμη 𝓎

Χ Υ 𝑌 = 𝑓(𝑋) 𝓎 − 𝑓 𝜒 = 𝜀

𝜒1 𝓎1 𝓎1 = 𝑓 𝜒1 𝓎1 − 𝑓 𝜒1 = 𝜀1

𝜒2 𝓎2 𝓎2 = 𝑓 𝜒2 𝓎2 − 𝑓 𝜒2 = 𝜀2

⋮ ⋮ ⋮ ⋮ 𝜒𝛭 𝓎𝛭 𝓎𝛭 = 𝑓 𝜒𝛭 𝓎𝛭 − 𝑓 𝜒𝛭 = 𝜀𝛭

Γραμμικη Παλινδρομηση Εκτιμηση των παραμετρων α, β της Ευθειας Παλινδρομησης Μεθοδος Ελαχιστων Τετραγωνων Gauss Θεωρημα H συναρτηση Y=f(X) = 𝛼�+�̂�Χ με παραμετρους

𝜷� = ∑ 𝝌𝝂𝔂𝝂−𝜧𝓶�𝜲𝓶�𝜰𝜨𝝂=𝟏

∑ 𝝌𝝂 𝟐−𝑵 ∑ 𝝌𝝂𝜨𝝂=𝟏

𝟐𝜨𝝂=𝟏

= 𝑺𝜲𝜰𝑺𝜲 𝟐

𝜶� = 𝒚� − 𝜷�𝒙�

οπου: 𝑆𝛸𝛸 = ∑ 𝜒𝜈𝓎𝜈−𝛭𝓂�𝛸𝓂�𝛶𝛮𝜈=1

𝛭−1

𝑆𝛸 2 = ∑ 𝜒𝜈 2−𝛭𝓂�𝛸2𝛮

𝜈=1𝛭−1

, 𝑆𝛸 2 = ∑ 𝓎𝜈 2−𝛭𝓂�𝛶2𝛮

𝜈=1𝛭−1

𝓂�𝛸= ∑ 𝜒𝜈𝛭𝜈=1𝛭

, 𝓂�𝛸 = ∑ 𝓎𝜈𝛭𝜈=1𝛭

εχει το Ελαχιστο (Ολικο) Τετραγωνικο Σφαλμα: 𝓎1 − 𝑓 𝜒1 2 + 𝓎2 − 𝑓 𝜒2 2 + ⋯+ 𝓎𝛭 − 𝑓 𝜒𝛭 2= SE(α,β)

Θεωρημα H ελαχιστη τιμη του Μεσου Τετραγωνικου Σφαλματος είναι:

𝑚𝑚𝑚𝑆𝑆 𝛼,𝛽

𝛭= 𝝈�𝒀2 1 − �̃�2

Οπου:

𝜎�𝑌2 = ∑ 𝓎𝜈 2−𝛭𝓂�𝛶2𝛮

𝜈=1𝛭

Η Εμπειρικη Διασπορα της Μεταβλητης Υ

�̃� = �̃�𝑋𝑌 =𝜎�𝑋𝑌𝜎�𝛸𝜎�𝛸

=∑ 𝜒𝜈 −𝑚�𝛸 𝓎𝜈 −𝑚�𝛸𝑀𝜈=1

∑ 𝜒𝜈 − 𝑚�𝛸 2𝑀𝜈=1 ∑ 𝓎𝜈 −𝑚�𝛸 2𝑀

𝜈=1

�̃� =𝑆𝑥𝑥𝑆𝑥𝑆𝑥

= �̂�𝑆𝑥𝑆𝑥

Ο Συντελεστης Pearson (Γραμμικης Συσχετισης) των Μεταβλητων X, Y

𝒓�≅ 1 ⟹ 𝜷�>0

Υπαρχει θετικη Γραμμικη εξαρτηση των Χ,Υ

𝟎 < 𝒓� <1 ⟹ 𝜷�>0

𝒓� = 0 ⟹ 𝜷�=0

Δεν υπαρχει Γραμμικη Σχεση Μεταξυ των Χ,Υ Χ,Υ δεν είναι κατ’αναγκην Ανεξαρτητες, Αν ομως Χ,Υ Ανεξαρτητες, τοτε: 𝒓� = 0

𝟎 < 𝒓� <1 ⟹ 𝜷�<0

𝒓� ≅ −1 ⟹ 𝜷�<0

Υπαρχει αρνητικη Γραμμικη εξαρτηση των Χ,Υ

ΣΧΟΛΙΑ 1) Ανακαλυψη Μεθοδου Ελαχιστων Τετραγωνων Gauss 1795 (18 ετων) 2) Ανακαλυψη Ποσειδωνα από την τροχια του Ουρανου 1846 Με την Μεθοδο Ελαχιστων Τετραγωνων 3) Γενικα Γραμμικα Μοντελα Y=α+β1Χ1 + β2Χ2 +…+ βΝΧΝ 4) Μη Γραμμικη Παλινδρομηση 5) Παρεμβολη με κλασσεις συναρτησεων (Πολυωνυμα, Τριγωνομετρικες, Wavelets) 6) Δειγματοληψια Shannon

Παραδειγματα Συναρτησεων που αναγονται σε Γραμμικες

Αρχικη Συναρτηση

𝒛 = 𝒇(𝒙)

Μετασχηματισμος 𝒛 = 𝒈(𝒚)

𝒚 = 𝒂 + 𝜷𝒙

𝒛 = 𝐞𝛂+𝛃𝒙 𝒛 = 𝐞𝐲 𝒛 = 𝐀𝐞𝛃𝒙 𝒛 = 𝐞𝐲, 𝑨 = 𝐞𝜶

𝒛 =𝟏

𝒂 + 𝜷𝒙 𝒛 =

𝟏𝒚

𝒛 = 𝐀𝝃𝛃 𝒛 = 𝐞𝐲,𝑨 = 𝐞𝜶, 𝝃 = 𝐞𝐱

𝒛 =𝟏

𝒂 + 𝜷𝒙 𝒏 𝒛 =𝟏𝒚𝒏

Λογιστικη Παλινδρομιση Sigmoid Map (Innovation)

Λογιστικη Παλινδρομιση Item Response Model (IRM) = Latent Trait Model = Mental Test Model (1950) IRM does not assume that each item is equally difficult (unlike simpler alternatives for creating scales evaluating questionnaire responses). IRM treats the difficulty of each item as information to be incorporated in scaling items. The response of a person to an item is modeled by the Item response function (the Logistic function) 𝑓𝜅(x) = 𝑐𝜅 + 1−𝑐𝜅

1+𝑒−𝛽𝜅(𝑥−𝑎𝜅) x η ικανοτης του προσωπου, 𝑐𝜅,𝛽𝜅, 𝛼𝜅 παραμετροι εξαρτωμενοι από το θεμα (κ) IRM is useful for the design, analysis, and scoring of tests, questionnaires, instruments measuring abilities, attitudes

Regression = Παλινδρομιση Construct a function within a specific Class 𝒜 of functions with minimal distance from discrete samples Least Squares Regression = Least Squares Fit: the Distance is the ℒ 2 – distance

Interpolation = Παρεμβολη Παρεμβολη με κλασσεις συναρτησεων (Πολυωνυμα, Τριγωνομετρικες, Wavelets) Reconstruction of a function from discrete samples Given the points (y1 , t1) , (y2 , t2), …, (yN , tN) Find an Interpolation function f within a specific Class 𝒜 of functions : yn = f(tn) , n=1,2,…,N

Προβλημα: Οι Παραμετροι Παλινδρομισης (αρα και οι Ευθειες Παλινδρομισης) συμπιπτουν στα 4 Συνολα Δεδομενων του Anscombe

Δεικτης Τιμες στα 4 Συνολα Δεδομενων Μεση Τιμη της Χ 𝑚�𝑋 = 9

Διασπορα της Χ 𝜎�𝑋 = 3,32

Μεση Τιμη της Υ 𝑚�𝛸 =7,50 Διασπορα της Υ 2,030 ≤ 𝜎�𝑋 ≤ 2,031

Συντελεστης Pearson 𝑟𝑋𝑌 = 0.816 Παραμετροι Παλινδρομισης

y = 3.00 + 0.500x 𝛼� = 3.00 �̂� = 0.50

Ηθικον Διδαγμα: • Πρωτα Παρατηρουμε την γραφικη Παρασταση των Δεδομενων και Κατοπιν Προχωρουμε στην Μαθηματικη Αναλυση • Η Αναλυση Παλινδρομισης χρειαζεται Ελεγχο Anscombe F. 1973, Graphs in statistical analysis, The American Statistician 27, 17–21. Chatterjee S., Firat A. 2007, Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset, American Statistician 61, 248–254

Επισκοπιση Γραφικης Παραστασης Δεδομενων Πριν γινουν οι Υπολογισμοι Αποκτουμε μια πρωτη εικονα των υφισταμενων σχεσεων

The lin-lin graph: linear scale on the x-axis, and linear scale on the y-axis. Linear Functions are Lines Exponential Functions above the diagonal Logarithmic Functions below the diagonal

The lin-log graph: logarithmic scale on the x-axis, and linear scale on the y-axis. The logarithmic functions are represented as Straight lines y=Alog(Bx)=(AlogB) +A (logx)

The log-lin graph: logarithmic scale on the y-axis, and linear scale on the x-axis. The exponential functions 𝒚 = 𝑲𝒂𝜞𝒙 are represented as straight lines: 𝒍𝒍𝒈𝜷𝒚 = 𝒍𝒍𝒈𝜷 𝑲𝒂𝜞𝒙 = 𝒍𝒍𝒈𝜷 𝑲 + (𝜞𝒙)𝒍𝒍𝒈𝜷 𝒂 ⟺ 𝒍𝒍𝒈𝜷𝒚 = 𝜞𝒍𝒍𝒈𝜷𝒂 𝒙 + 𝒍𝒍𝒈𝜷 𝑲 A line with slope 𝜞𝒍𝒍𝒈𝜷𝒂 and vertical intercept 𝒍𝒍𝒈𝜷 𝑲 . logs to base β=10 or β=e, β=2

Change logarithm basis

𝒍𝒍𝒈𝜷𝐱 =𝒍𝒍𝒈𝜼𝒙𝒍𝒍𝒈𝜼𝜷

x, η, β > 0 , η≠1, β ≠1

The log-log graph: logarithmic scales on both axes The Power Law functions 𝒚 = 𝑲𝒙−𝒂 are represented as straight lines: 𝒍𝒍𝒈𝜷𝒚 = 𝒍𝒍𝒈𝜷 𝑲𝒙−𝒂 = 𝒍𝒍𝒈𝜷 𝑲 + (−𝒂)𝒍𝒍𝒈𝜷 𝒙 ⟺ 𝒍𝒍𝒈𝜷𝒚 = 𝒍𝒍𝒈𝜷 𝑲 + (−𝒂)𝒍𝒍𝒈𝜷𝒙 A line with slope −𝒂 and vertical intercept 𝒍𝒍𝒈𝜷 𝑲 .

β=10 or β=e or β=2

The log-log graph Power Law Distributions Survival Function 𝑮 𝒙 = 𝟏 − 𝑭(𝒙) is Straight Line:

𝑮 𝒙 = � 𝒅𝒙𝑲𝒙−𝒂∞

𝒙

= �∞, 𝒂 ≤ 𝟏

𝑲𝟏 − 𝒂

𝒙𝟏−𝒂, 𝒂 > 𝟏

𝒍𝒍𝒈𝜷𝑮(𝒙) = (𝒂 − 𝟏)𝒍𝒍𝒈𝜷 𝒙 + 𝒍𝒍𝒈𝜷𝑲

𝟏 − 𝒂

Power Law Distributions (Ισχυρες Αλληλοεξαρτησεις): 𝝆 𝒙 = 𝑲𝒙−𝒂,𝑲 > 𝟎

1896 Pareto the distribution of income and wealth follows the logarithmic pattern. 1926 Lotka the number of authors who published x papers is proportional to x−2 1932 Zipf the frequency of English words follows a power law function. 1949 Yule

the probability that a new species is added to a genus is proportional to the number of species the genus already (preferential attachment) Yule Distribution is Asymptotic Power Law

1955 Simon Proposed the preferential attachment model which has the power law as invariant distribution. Specific Systems • words in prose samples by their frequency of occurrence • scientists by number of papers published • cities by population • incomes by size • biological genera by number of species.

1999 Kumar ea., Barabasi ea., Faloutsos ea.

the WWW is a power law graph.

Abello,ea the call graphs are power law graphs Bhalla ea. Schilling ea.

the metabolic networks are power law graphs

2000 Watts ea. several social networks are power law graphs.

Scale Invariant Functions Scale transformation:

Μετασχηματισμος Αλλαγης Κλιμακας (Μεγεθυνση): x ⟼ λx

Μετασχηματισμος Συναρτησεων: 𝑓 ⟼ 𝑓𝜆 ∶ 𝑓𝜆 𝑥 = 𝜆𝛼𝑓 1𝜆𝑥

α the Scaling Exponent (Parameter)

Δραση της Ομαδος των Μεγεθυνσεων στις Συναρτησεις Συναρτησεις Αναλλοιωτες σε Αλλαγη Κλιμακας: 𝑓 = 𝑓𝜆 ⟺ f 𝑥 = 𝜆𝛼𝑓 1

𝜆𝑥 ⟺ 1

𝜆𝛼f 𝑥 = 𝑓 1

𝜆𝑥

Οι Ομογενεις Συναρτησεις βαθμου α

H Power law f(x)=𝑨𝒙𝜶 είναι Scale Invariant: 𝑓

1𝜆𝑥 = 𝐴

1𝜆𝑥

𝛼

= 𝐴1𝜆𝛼𝑥𝛼 =

1𝜆𝛼

f 𝑥

Ασκηση:[0.3] H Log-Normal είναι Scale Invariant? Είναι Ασυμπτωτικα? Υπο Προυποθεσεις?

The log-log graph: logarithmic scales on both axes

The Log-Normal functions y = 𝟏𝝈𝒙 𝟐𝝅

𝒆− 𝒍𝒏𝒙−𝒎𝟐

2𝜎2 are represented as quadratic functions: 𝑙𝑚𝒚 = 𝑙𝑚 𝟏

𝝈𝒙 𝟐𝝅𝒆− 𝒍𝒏𝒙−𝒎

𝟐

2𝜎2 = 𝑙𝑚 𝟏𝒙𝝈 𝟐𝝅

− 𝒍𝒏𝒙−𝒎 𝟐

2𝜎2

⟺ 𝑙𝑚𝑦 = −𝑙𝑚𝑥 − 𝑙𝑚 𝜎 2𝜋 − 12𝜎2

𝑙𝑚𝑥 2 − 𝑚2

2𝜎2+ 2𝑙𝑚𝑥 𝑚

2𝜎2

⟺ 𝒍𝒏𝒚 = −𝑙𝑚 𝜎 2𝜋 − 𝑚2

2𝜎2+ 𝑚

𝜎2− 1 𝒍𝒏𝒙 + − 1

2𝜎2𝒍𝒏𝒙 𝟐

For large σ: 𝒍𝒏𝒚 ≃ 𝑙𝑚 1𝜎 2𝜋

+ −1 𝒍𝒏𝒙

𝒚 ≃ 1𝜎 2𝜋

𝒙−𝟏 Power Law

Log-Normal Distribution Applications: • Geology and Mining • Atmospheric sciences and aerobiology • Environment • Biochemical Networks • Food Technology • Medicine • Linguistics • Software Reliability • Economics • Sociology • Internet Limpert E., Stahel W., Abbt M. 2001, Log-normal Distributions across the Sciences: Keys and Clues, BioScience 51, 341-352 Downey A. 2005, Lognormal and Pareto Distributions in the Internet, Computer Communications 28, 790-801 Nacher J., Ochiai Yamada T., Kanehisa M. , AkutsuT. 2006, The role of log-normal dynamics in the evolution of biochemical pathways, BioSystems 83, 26–37 Gronholm T., Annila A. 2007, Natural Distribution, Mathematical Biosciences 210, 659–667 Gokhale S., Mullen R. 2008, Application of the Lognormal Distribution to Software Reliability Engineering, in: Handbook of Performability Engineering, ed. Misra K. Springer, London, 1209-1225

Lognormal vs. Power Law Downey A. 2005, Lognormal and Pareto Distributions in the Internet, Journal Computer Communications 28, 790-801 Mitzenmacher M. 2003, A Brief History of Generative Models for Power Law and Lognormal Distributions, Internet Mathematics 1, 226-251 Milojević S. 2010, Modes of Collaboration in Modern Science – Beyond Power Laws and Preferential Attachment, Journal of the Amer. Soc. for Information Science and Technology 61, 1410–1423