ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ, ΕΝΤΡΟΠΙΑ...

92
ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ, ΕΝΤΡΟΠΙΑ, ΠΟΛΥΠΛΟΚΟΤΗΤΑ 2. Κωδικοποιηση και Εντροπια Ioannis E. Antoniou Mathematics Department Aristotle University 54124,Thessaloniki,Greece [email protected] http://users.auth.gr/iantonio Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

Transcript of ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ, ΕΝΤΡΟΠΙΑ...

ΘΕΩΡΙΑ ΠΛΗΡΟΦΟΡΙΑΣ, ΕΝΤΡΟΠΙΑ, ΠΟΛΥΠΛΟΚΟΤΗΤΑ

2. Κωδικοποιηση και Εντροπια

Ioannis E. Antoniou Mathematics Department

Aristotle University 54124,Thessaloniki,Greece

[email protected] http://users.auth.gr/iantonio

Το παρόν εκπαιδευτικό υλικό υπόκειται σε Αδεια Χρήσης Creative Commons

2 Κωδικοποιηση και Εντροπια 1 Μηνυματα Ψηφιακα - Αναλογικα 2 Κωδικοποιηση Γεγονοτων 3 Αμεσοι Κωδικες 4 Η Εντροπια Shannon ως Ελαχιστο Μηκος Αμεσης Κωδικoποιησης

1 Μηνυματα Ψηφιακα - Αναλογικα

ΣΧΟΛΙΟ Ολα τα Γεγονοτα Καταγραφονται στην Μνημη ως Ακολουθιες Συμβολων Τα επεξεργαζομαστε (Πραξεις) ως Ακολουθιες Συμβολων Μπορουμε να κωδικοποιησουμε Ψηφιακα τα (Αφηρημενα) Γεγονοτα ως Ακολουθιες Συμβολων Όπως κωδικοποιουμε Ψηφιακα τους (Αφηρημενους) Πραγματικους Αριθμους ως Ακολουθιες Συμβολων?

𝒙 = [𝒔𝒊𝒈𝒏(𝒙)𝒙𝑵𝒙𝑵−𝟏…𝒙𝟐𝒙𝟏𝒙𝟎𝒙−𝟏𝒙−𝟐… ]𝒃 = 𝒔𝒊𝒈𝒏(𝒙) ∑ 𝒙𝝂𝒅𝝂

𝜨

𝝂=−∞

𝒙 = 𝒔𝒊𝒈𝒏(𝒙)∑𝒙𝝂𝒅𝝂

𝜨

𝝂=𝟎

+ ∑ 𝒙𝝂𝒅𝝂

−𝟏

𝝂=−∞

= ⌊𝒙⌋ + ∑ 𝒙𝝂𝟏𝟎𝝂

−𝟏

𝝂=−∞

𝒙𝑵 το πρωτο σημαντικο ψηφιο του x στην ψηφιακη παρασταση με βαση d.

Η Δεκαδικη Παρασταση: 𝒙 = ⌊𝒙⌋ + ∑ 𝒙𝝂𝟏𝟎𝝂−𝟏

𝝂=−∞

Ορισμος ΜΕSSAGES = MHNYMATA Ψηφιακο (Συμβολικο) Μηνυμα Μηκους m (Digital Message of length m) Κάθε ακολουθια (𝜒𝑡+1 , 𝜒𝑡+2 , . . . , 𝜒𝑡+𝑚), m ορων, m=1,2,3,… απο d Συμβολα 𝜮 = {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} , 𝝍𝒕 ∈ 𝜮 𝜒𝑡+1 ο πρωτος ορος του Μηνυματος 𝑡 ∈ 𝕋 , 𝕋 ⊆ ℤ t o δεικτης Xρονου, 𝕋 ο Διακριτος Χρονος Αναλογικο Μηνυμα Διαρκειας m (Analog Message of Duration m) Κάθε συναρτηση χ: (𝜏, 𝜏 + 𝑚] ⟶ 𝛴: 𝑡 ⟼ 𝜒(𝑡) ,𝑚 > 0, (𝜏, 𝜏 + 𝑚] ⊆ 𝕋 ⊆ ℝ Με τιμες απο b Συμβολα 𝛴 = {𝜎1, 𝜎2, . . . 𝜎𝑏} , 𝜓𝑡 ∈ 𝛴 𝑡 ∈ (𝜏, 𝜏 + 𝑚] ⊆ 𝕋 , ∀ 𝜏 ∈ 𝕋 ⊆ ℝ, t o δεικτης Xρονου, 𝕋 ο Συνεχης Χρονος 𝕋 = o Xρονος = το διαταγμενο συνολο καταγραφων του Χρονου

Ο χρονος μπορει να είναι συνεχης, t , η διακριτος 𝐭 = 𝐧𝛕, 𝐧Z , τ η μοναδα χρονου = ο στοιχειωδης χρονος = το χρονον (chronon).

Συμβολισμος

𝜮𝕋 το Συνολο των Μηνυματων. Δηλαδη το συνολο των απεικονισεων με πεδιο ορισμου τον χρονο 𝑡 ∈ 𝕋 (δεικτες χρονου) και πεδιο τιμων τα συμβολα σ από το 𝜮 = {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} 𝜮𝒎= τα Μηνυματα (Λεξεις) μηκους m με συμβολα εν Σ 𝜮≤𝒎= τα Μηνυματα (Λεξεις) μηκους ≤ m με συμβολα εν Σ

𝜮𝑭= τα πεπερασμενα Μηνυματα (Λεξεις) με συμβολα εν Σ

𝜮𝒎 ⊂ 𝜮≤𝒎 ⊂ 𝜮𝑭

ΣF = Σ*= ⋃ 𝜮𝑵𝑵∈ℕ Kleene Closure Ασκηση {1} To συνολο Σ* εχει απειρο πληθος στοιχειων. Οι λεξεις-στοιχεια εχουν πεπερασμενο μηκος

Παραδειγμα Σ = {0, 1}, Σ* = {ε, 0, 1, 00, 01, 10, 11, 000, 001, 010, 011, …}. 𝜺 = 𝝈𝟎: η κενη λεξη Hopcroft, J., Motwani R., Ullman, J. 2008, Introduction to Automata Theory, Languages, and Computation, 3rd ed., Addison-Wesley, Boston, MA

ΣΧΟΛΙΟ: Reading Messages and Shifts Messages are read in the passive way The Observer (Apparatus) is not moving. The sequence shifts in front of the Registration Apparatus | | t=0 ... , ψ -1 , ψ0 , ψ 1 , ψ 2 , ψ 3 , ψ 4 , ψ 5 ,... t=1 ... , ψ -1 , ψ0 , ψ1 , ψ 2 , ψ 3 , ψ 4 , ψ 5 ,... t=2 ... , ψ -1 , ψ0 , ψ 1 , ψ2 , ψ 3 , ψ 4 , ψ 5 ,... t=3 ... , ψ -1 , ψ0 , ψ 1 , ψ 2 , ψ3 , ψ 4 , ψ 5 ,... reading Messages is described by successive shifts S: (ψ t)↦ (ψt+1) , S (ψ0 , ψ1 , ψ2 , ψ3 , ψ4 , ψ5 ,...) = (ψ1 , ψ2 , ψ3 , ψ4 , ψ5 ,...) Shifts are prototypes All Logical Operations reduce to Shifts All SSP and DS admit Shift Representation Cornfeld I., Fomin S. and Sinai Ya. 1982, Ergodic Theory, Springer-Verlag, Berlin Breiman L. 1992, Probability, SIAM, Philadelphia.

Παραδειγματα Γεγονοτων, Μηνυματων, Συμβολων

Γεγονος Μηνυμα = Διαδοχη Συμβολων

Μετρηση Θερμοκρασιας, Πιεσης, Ηλεκτρικου Ρευματος

Ρητοι Αριθμοι

Τηλεγραφημα του 1902

. , _ , ΚΕΝΟ

Δυαδικο 0,1

Ηχος, Moυσικη

Νοτες, Υψη, Διαρκειες

Εικονα, Video, Aκολουθια Pixels

Ενταση (Red, Green, Blue)

Κειμενο βιβλιου ASCII χαρακτηρες

Εmails, Περιεχομενο Iστοσελιδων

Προγραμμα τα Συμβολα της Γλωσσας Προγραμματισμου Πχ. ΜathML

DNA Tα 4 Νουκλεοτιδια Α,G,C,T

Πρωτεινες Τα 20 Αμινοξεα Α,C,D,E,F,G,H,I, K, L,M,N,P,Q, R,S,T,V,W,Y

Παιγνιο με Ζαρια 1,2,3,4,5,6

The 20 Amino Acids directly encoded by the universal genetic code NAME ΟΝΟΜΑ Abbreviation Symbol Produced by Organism Alanine αλανινη ALA A Non Essential

Arginine αργινινη ARG R Conditional

Asparagine Ασπαραγινη ΑSN N Non Essential

Aspartic acid ασπαρτικο οξυ ASP D Non Essential

Cysteine Κυστεινη CYS C Conditional

Glutamin acid γλουταμικο οξυ GLU E Non Essential

Glutamine γλουταμινη GLN Q Conditional

Glycine Γλυκινη GLY G Conditional

Histidine ιστιδινη HIS H Essential

Isoleucine ισολευκινη ILE I Essential

Leucine Λευκινη LEU L Essential

Lysine Λυσινη LYS K Essential

Methionine μεθειονινη MET M Essential

Phenylalanine φαινυλαλανινη PHE F Essential

Proline προλινη PRO P Conditional

Serine σερινη SER S Conditional

Threonine θρεονινη THR T Essential

Tryptophan τρυπτοφανη TRP W Essential

Tyrosine τυροσινη TYR Y Conditional

Valine βαλινη VAL V Essential

Όλα τα Μηνυματα κωδικοποιουνται ως Διτιμες Ακολουθιες (με στοιχεια 0,1) 6 = 1x22 + 1x21 + 0 x20= (110)2 5 = 1x22 + 0x21 + 1 x20= (101)2 4 = 1x22 + 0x21 + 0 x20= (100)2 3 = 0x22 + 1x21 + 1 x20= (011)2 2 = 0x22 + 1x21 + 0 x20= (010)2 1 = 0x22 + 0x21 + 1 x20= (001)2

Ορισμος

Γλωσσα με Αλφαβητο Σ (L, Σ, 𝓖) 1) 𝜮 = {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} το συνολο συμβολων (ψηφιων, γραμματων) της Γλωσσας

Τα Συμβολα αναγνωριζονται μονοσημαντως.

Το Νοημα (meaning) των Συμβολων οριζεται στο πλαισιο μιας Οντολογιας

2) 𝒢 = η Γραμματικη της Γλωσσας

= οι κανονες συνταξης λεξεων-προτασεων που οριζουν

ποιες λεξεις (ακολουθιες συμβολων)

είναι συντακτικα αποδεκτες (syntactically admissible,valid)

3) L ⊆ ΣF

L(Σ) ένα συνολο μηνυματων = λεξεων με συμβολα από το Σ.

Τα δυνατα κειμενα, η «Γραμματεια» της Γλωσσα

Παραδειγμα: Η Βιβλιοθηκη της Βαβελ περιεχει τα βιβλια που γραφτηκαν και θα γραφτουν «the Library is total and that its shelves register all the possible combinations of the twenty-odd orthographical symbols (a number which, though extremely vast, is not infinite): Everything: the minutely detailed history of the future, the archangels' autobiographies, the faithful catalogues of the Library, thousands and thousands of false catalogues, the demonstration of the fallacy of those catalogues, the demonstration of the fallacy of the true catalogue, the Gnostic gospel of Basilides, the commentary on that gospel, the commentary on the commentary on that gospel, the true story of your death, the translation of every book in all languages, the interpolations of every book in all books.» Βοrges J. L. 1944 Ficciones, Grove Press 1962 The Babel Library has 251312000 ≃ 1.956 x 101834097 books

the alphabet has 25 symbols. Each book has 410 pages, with 40 lines of 80 characters on each page. Number of symbols in a Book: 410 × 40 × 80 = 1.312.000 Bloch W. G.2008, The Unimaginable Mathematics of Borges’ Library Of Babel, Oxford University Press The Library of Congress has ∼3 x 107 Books

Number of Orthographically correct Books written in English: ∼ 750000492000 = 102890530

Number of English Words: ∼ 750000

Number of Words per line (including comma, period, space): ∼ 30

Number of Words per Book: ∼ 410 x 30 x 40 = 492000

ΣΧΟΛΙΟ Γλωσσα Λογικη Οντολογια Γνωση (Formal) Logic Net

Reasoning Inference Rules (Deterministic, Statistical) Ontology or Theory REASONING

Knowledge

Net Validated Truth

EVIDENCE BASED REASONING LEARNING

Symbols Language

Conceptual Models = Domain

Models

Semantic Net = Mental Models

Grammar Rules for Syntax of Messages

Μessages, Φρασεις, Logical Forms, Σχηματα Λογου

Specification of Classes of Entities-Beings

Axioms, Relation between Entities

Meaning, Interpretation Rules

Pragmatic (Intended) Meaning in Communication Evaluation of Meaning (Evidence, Validation, Trust)

Knowledge = Ontology + Verification-Validation

Ontology = Semantic Net + Reasoning (Logic)

Semantic Net = Mental Model = Conceptual Model + Meaning (Interpretation)

Conceptual Model =Domain Model

= Symbols + Syntax + Messages +Entities (including Concepts) +Relations among the Entities

Παραδειγματα • Euclidean Geometry consists of 23 definitions and 10 postulates/axioms

followed by 13 books of theorems with proof, the first known Ontology • Spinoza's Ethics imitates Euclid's Geometry • Βιοlogical Ontology • Medical Ontology • Semantic Web

Gerber A., Van der Merwe A.,Barnard A. 2008, A Functional Semantic Web architecture, European Semantic Web Conference, ESWC’08,

ΕΦΑΡΜΟΓΕΣ

• Συντακτικα Φιλτρα , πχ Ορθογραφος Microsoft Word

• Η συντακτικη επεξεργασια μεσω της Γραμματικης είναι αναγκαια για την Νοηματοδοτηση (Meaning) των Μηνυματων-κειμενων, αλλα δεν επαρκει

• Νοηματικη Επεξεργασια (Semantic Processing)

• Σημασιολογικα Φιλτρα (Semantic Filters)

• Λογικη,

• Υπολογιστες,

• Προγραμματισμος,

• Διαδικτυο

• Γλωσσολογια

• Βιολογια

• Μουσικη

Ginsburg S. 1975, Algebraic and automata theoretic properties of formal languages, North-Holland Harrison Μ. 1978, Introduction to Formal Language Theory, Addison-Wesley. Hopcroft J. and Ullman J. 1979, Introduction to Automata Theory, Languages and Computation, Addison-Wesley Publishing, Reading Massachusetts Rozenberg G., Salomaa A. 1997, Handbook of Formal Languages: Volumes I-III, Springer

ΣΧΟΛΙΟ

Digital to Analog Conversion (DAC) = Curve fitting = Smoothing

= finding a curve which has the best fit to a series of data points and possibly other constraints

includes interpolation (exact fit) regression analysis (approximate fit) extrapolation Interpolation = Παρεμβολη Reconstruction of a function from discrete samples ⇔ Representation of a function in terms of discrete samples Given the points (y1 , t1) , (y2 , t2), …, (yN , tN) Find an Interpolation function f within a specific Class 𝒜 of functions: yn = f(tn) , n=1,2,…,N

Regression = Παλινδρομιση Construct a function within a specific Class 𝒜 of functions with minimal distance from discrete samples Least Squares Regression = Least Squares Fit: the Distance is the ℒ 2 – distance Extrapolation is the extension of f (constructed by Interpolation or by Regression) for t > tN

Regression , Interpolation, Extrapolation are called

Function Basis of 𝒜

Polynomial Polynomials

Rational Fractions of Polynomials

Trigonometric Periodic Functions Fourier Analysis

Exponential Exponentials

Smoothing = Εξομαλυνση

𝒜 ⊆ 𝒞r is a Class of Smooth functions

Wavelet Wavelets Wavelet Analysis

ΣΧΟΛΙΟ

Analog to Digital Conversion (DAC) Sampling = Δειγματοληψια The conversion of Continuous Functions (Signals) to Numerical Sequences (Time Series)

ΣΧΟΛΙΟ Both DAC (Interpolation) and ADC (Sampling) are based on Function Expansion Formulas ⊆ Harmonic Analysis

𝒇(𝒕) =∑𝐟𝛎(𝒕)𝐮𝛎𝛎

uν οrthonormal basis of Functions in some Hilbert Space of functions on some interval (a,b) 𝐟𝛎(𝒕) = ⟨𝒇|𝐮𝛎⟩ = ∫(a,b) dt w(t) f(t)⋅uν w(t)dt = dν(t) the measure on (a,b) ℒ2([a,b), w) the Hilbert Space of square integrable Functions on [a,b) with respect to the measure w(t)dt = dν(t)

ΣΧΟΛΙΟ Αναλυση (Στατιστικη και Μοντελοποιηση) Μηνυματων Η αναλυση των Μηνυματων αναγεται στην αναλυση Χρονοσειρων συμβολων από το Σ Message Analysis is Time Series Analysis Ταξινομιση Παρατηρουμενων Χρονοσειρων Προβλεψιμες Ομαλες (Predictable, Regular, Trendy)

Περιοδικες (Periodic)

Περιοδικες Periodic

Σχεδον Περιοδικες (Almost Periodic)

Απεριοδικες Aperiodic

Απεριοδικες Ομαλες

Απροβλεπτες (Non-Predictable)

Ανωμαλες (Irregular) Θορυβος

Priestley, M. B. 1981, Spectral analysis and time series, Academic Press, New York Wiener, N. 1964, Extrapolation, Interpolation, and Smoothing of Stationary Time Series, MIT Press

ΣΧΟΛΙΟ Messages are Time Series Message Analysis is Time Series Analysis Time Series are Realizations of Stochastic Processes (including Dynamical Systems) Κάθε Μηνυμα (ψ) = (ψt+1 , ψt+2 , ... , ψt+m) b συμβολων από το Σ ως πραγματοποιηση (realization) της Στοχαστικης Διαδικασιας 𝐀𝒕: 𝜴 → 𝜮 , 𝒕 ∈ 𝕋

𝝍𝒕+𝟏 = 𝐀𝒕+𝟏(𝝎), 𝝍𝒕+𝟐 = 𝐀𝒕+𝟐 (𝝎), … , 𝝍𝒕+𝒎 = 𝑨𝒕+𝒎(𝝎), 𝝎 ∈ 𝜴

If the Observer is apriori certain about the Messages he is going to receive, there is no need for any modeling, any Statistics, any Information theory Τhe observer is not apriori certain which of the n symbols will appear in each location of the Received Message. Once a given symbol σi is observed, the observer has obtained Information

The observer's uncertainty is reduced. The Observation of the Message 𝝍𝒕+𝟏, 𝝍𝒕+𝟐, … ,𝝍𝒕+𝒎 is equivalent to The Οbservation-Realization of the Event:

{𝛚 ∈ 𝛀 | 𝑨𝒕+𝟏(𝝎) = 𝝍𝒕+𝟏, 𝑨𝒕+𝟐(𝝎) = 𝝍𝒕+𝟐, … , 𝑨𝒕+𝒎(𝝎) = 𝝍𝒕+𝒎} Probabilistic Modeling of Messages as Events (Measurable Sets) In a Measure space of Sequences

Λημμα

Το πληθος των Δυνατων Μηνυματων Μηκους 𝓂 από b Συμβολα 𝛴 = {𝜎1, 𝜎2, . . . 𝜎𝑑}:

𝑑𝑚

Αποδειξη κάθε ακολουθια (ψt+1 , ψt+2 , ... , ψt+m) ειναι διαταγμενο δειγμα μεγεθους m, εκ των b συμβολων {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅}, οπου καθε συμβολο μπορει να επαναλαμβανεται. Ισοδυναμα: (ψt+1 , ψt+2 , ... , ψt+m) ειναι Επαναληπτικη Διαταξη (𝝈𝒌𝟏 , 𝝈𝒌𝟐 , ... , 𝝈𝒌𝒎 )

των b συμβολων {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} ανα m

Το πληθος των Δυνατων Μηνυματων είναι το πληθος 𝒃𝒎 των Επαναληπτικων

Διαταξεων b Στοιχειων ανα m

ΣΧΟΛΙΟ Αναπαρασταση των 𝒅𝒎 Μηνυματων Μηκους 𝓶 από b Συμβολα {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒃} Ως Μονοπατια Μηκους 𝓶 στο Τελειο d-αδικο Δενδρο

Τα Μηνυματα Μηκους 𝓶 από d Συμβολα {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} ως Μονοπατια Μηκους 𝓶 στο Τελειο d-αδικο Δενδρο ερμηνευονται

ισοδυναμα ως: • Απαριθμηση των Στοιχειων του Καρτεσιανου Γινομενου: 𝜮𝒎

• Απαριθμηση των Αποτελεσματων 𝒎 Διαδοχικων Μετρησεων

Μεταβλητης με d τιμες {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} • Απαριθμηση των δυνατων Περιπτωσεων σε Δενδρο 𝒎 Διαδοχικων

Αποφασεων μεταξυ d Εκδοχων {𝝈𝟏, 𝝈𝟐, . . . 𝝈𝒅} (Decision Tree)

• Απαριθμηση των δυνατων Απαντησεων σε Δενδρο 𝒎 Διαδοχικων

Ερωτησεων μεταξυ d Εκδοχων {𝝈𝟏, 𝝈𝟐, … 𝝈𝒅} (Search Tree)

Για d=2: SHANNON GRAPH = Binary Decision Tree Representing Boolean Functions

ΠΑΡΑΔΕΙΓΜΑ Μοντελο Βernoulli Τα Συμβολα είναι Aνεξαρτητα: 𝒑𝜿 = 𝑷[𝝈𝜿]

ΠΑΡΑΔΕΙΓΜΑ Μοντελο Markov Εξαρτηση μονο από το προηγουμενο Συμβολο: 𝒘𝜿𝝀 = 𝑷[𝝈𝝀|𝝈𝜿]

2 Κωδικοποιηση Γεγονοτων

Ερωτηματα Κωδικοποιησης Γεγονοτων Τι είναι Κωδικοποιηση? Γιατι γινεται Κωδικοποιηση? Τι ειδη Κωδίκων διακρινουμε? Πως Κωδικοποιουμε τα Γεγονοτα ως Μηνυματα (Ακολουθιες Συμβολων)? Ποιοι Κωδικες ειναι Aξιοπιστοι (δεν χανεται Πληροφορια)? Οι Αμεσοι Κωδικες Mπορω να ελεγξω αν ενας Κωδικας ειναι Aξιοπιστος Χωρις να διατρεχω τις λεξεις? Ναι! Θεωρημα Kraft Ποιο είναι το Ελαχιστο Μεσο Μηκος Κωδικοποιησης? Η Εντροπια! Ποιοι Αξιοπιστοι Κωδικες είναι Βελτιστοι (διασφαλιζουν Μεγιστη Συμπιεση Πληροφοριας)? Οι Κωδικες Shannon

ΕΡΩΤΗΜΑ Τι είναι Κωδικοποιηση? Κωδικοποιηση = Coding is the transformation of Events (letters, words, phrases, gestures) in a given representation into Messages (Sequences of Symbols) in another representation Code is the transformation Rule Αποκωδικοποιηση = Decoding is the reverse transformation From Sequences of Symbols in the Symbolic representation The Events are reconstructed in the initial representation

Definition Κωδικοποιηση n Γεγονοτων με d Κωδικα Συμβολα Coding n Events {𝑎1, 𝑎2, … , 𝑎𝑛} = 𝛷 with d Encoding Symbols {𝜎1, . . . 𝜎𝑑} = 𝛴

d-ary Code of n Events 𝒅 < 𝒏, otherwise there is no need for coding

a map: 𝓒: 𝛷⟶ Σℤ: 𝛼𝑘 ⟼ 𝒞(𝛼𝑘) = 𝜎𝜄1𝜎𝜄2,..., σ𝜄ℓ𝑘 a sequence of symbols

η Κωδικη Λεξη του Γεγονοτος [𝛼𝑘] the Codeword of the Event [𝛼𝑘], k = 1,2,...n

𝛴ℤ τα Μηνυματα εκ d Συμβολων ως (αμφιπλευρες) ακολουθιες d Συμβολων 𝓵k= 𝓵[𝒞(𝛼𝑘)] = το Μηκος της Κωδικης Λεξης 𝒞(𝛼𝑘) του Γεγονοτος [𝛼𝑘] = the Length of the Codeword of the Event [𝛼𝑘], k = 1,2,...n The lengths ℓ1, ℓ2, … , ℓ𝑛 are Natural Numbers 𝑑 = 2: binary Coding 𝑑 = 3: ternary Coding

ΣΧΟΛΙΟ Τα Γεγονοτα 𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 μπορει να είναι:

• Τα Συμβολα (Αφαβητο) μιας Γλωσσας συνταξης Μηνυματων

• Οι Λεξεις (μερη του Λογου) μιας Γλωσσας

• Το Φασμα τιμων μιας ή πολλων Μεταβλητων

• Οι διαφορετικες Παρατηρησεις ενός φαινομενου

• Γεγονοτα

• Οντα

• Αντικειμενα

ΣΧΟΛΙΟ Coding=Noiseless Channel=transducer (MacMillan) Berstel J., Perrin D. , Reutenauer C. 2009, Codes and Automata, Cambridge University Press.

ΕΡΩΤΗΜΑ Γιατι γινεται Κωδικοποιηση? Why Coding? More convenient (Goal) representation of Events-Messages

• Less Memory

• Processing Possible, Easier, Faster, Safer

• Communication Possible in different ways: Easier, Faster, Safer, Secret

ΕΡΩΤΗΜΑ Τι ειδη Κωδίκων διακρινουμε? Ειδη Κωδικοποιησης Κωδικας Κριτηρια Επιλογης μεταδοση μηνυματων

Συμπιεση Μηνυματων για μειωση του χρονου και του κοστους μικρα μηκη σε Κωδικες Λεξεις συμβολων που εμφανιζονται με μεγαλη συχνοτητα

Πραξεις σε ΗΥ Διορθωση λαθων Κρυπτογραφια Ασφαλης Μεταβιβαση Μηνυματων

Κρυπτογραφηση = Κωδικοποιηση the encryption map is easy Αποκρυπτογραφηση = Αποκωδικοποιηση the decryption (inverse) map is difficult

Οργανισμοι Biologically Inspired Computation

Aνοχη, Ανθεκτικοτης σε Λαθη, Καταστροφες, Επιθεσεις

The 5 Basic (Coding) Τheorems of Shannon Information Theory Sampling Theorem How to Transform Continuous (Functions) Events to Discrete Messages (Sequences) Source Coding Theorem= Data Compression Theorem= = Shannon-McMillan-Breiman Theorem = Ergodic Theorem =Asymptotic Equipartion Theorem Find shortest messages (symbolic sequences) to code Events Channel Coding Theorem Reliable Information Transmission over Unreliable (Noisy) Channels Error Correction Codes Rate Distortion Theorem Min Distortion for Noisy compression Cryptography Theorem Min Information Rate for Max (Unconditional) Security

Definition

Block Codes

fixed length m source words (m-blocks) are translated to Code words with fixed length 𝓵 (𝓵 -blocks) (𝜓1, 𝜓2, …𝜓𝑚) ⟼ 𝒞(𝜓1, 𝜓2, …𝜓𝑚)

ℓ = 𝐿𝑒𝑛𝑔𝑡ℎ [𝒞(𝜓1, 𝜓2, …𝜓𝑚)]

Definition

Source Codes

Coding οf information from the source for further processing (transmission, computation). ΣΧΟΛΙΟ Example: Data Compression the common "Zip" data compression used to reduce make files smaller.

Definition

Channel Codes

the encoding οf information from the source for further processing (transmission, computation). ΣΧΟΛΙΟ Channel Coding adds extra data bits to make the transmission of data more robust to disturbances present on the transmission channel. Channel Coding usually involves Error Detection and Correction Codes. Example: CDs (as transmission channels) use the Reed-Solomon code to correct for scratches and dust.

ΕΡΩΤΗΜΑ Ποιοι Κωδικες ειναι Aξιοπιστοι (δεν χανεται Πληροφορια)?

Παραδειγματα Συμβολικης Κωδικοποιησης

Φ 𝛴={0,1} Κωδικας 𝓒1

α 0= 𝒞1(𝛼)

β 1= 𝒞1(𝛽)

γ 0= 𝒞1(𝛾)

δ 1= 𝒞1(𝛿)

𝓒1 (α)= 𝓒1 (γ) 𝓒1 (β)= 𝓒1 (δ) Διαφορετικα Συμβολα Κωδικοποιουνται στην αυτη ΚΛ Ιδιαζων Κωδικας

Φ 𝛴={0,1}

Κωδικας 𝓒1 Κωδικας 𝓒2 α 0= 𝒞1(𝛼) 0= 𝒞2(𝛼) β 1= 𝒞1(𝛽) 1= 𝒞2(𝛽) γ 0= 𝒞1(𝛾) 00= 𝒞2(𝛾) δ 1= 𝒞1(𝛿) 01= 𝒞2(𝛿) 𝓒1 (α)= 𝓒1 (γ) 𝓒1 (β)= 𝓒1 (δ) Διαφορετικα Συμβολα Κωδικοποιουνται στην αυτη ΚΛ

𝓒2 (𝑎𝜅)≠ 𝓒2 (𝑎𝜆)

Αν 𝑎𝜅≠ 𝑎𝜆 αλλα 0011= 𝓒2(αδβ)= 𝓒2(γββ) Μη Μονοσημαντη Αποκωδικοποιηση Μηνυματων

Ιδιαζων Κωδικας

Μη-Ιδιαζων Κωδικας

Definition

Μη-Ιδιαζων Κωδικας (Non-Singular Code) Δεν συγχεονται τα Συμβολα: 𝓒(σα) ≠ 𝓒(σβ) , εαν σα ≠ σβ ,

Φ Σ={0,1} Κωδικας 𝓒1 Κωδικας 𝓒2 Κωδικας 𝓒3

α 0= 𝒞1(𝛼) 0= 𝒞2(𝛼) 10= 𝒞3(𝛼) β 1= 𝒞1(𝛽) 1= 𝒞2(𝛽) 00= 𝒞3(𝛽) γ 0= 𝒞1(𝛾) 00= 𝒞2(𝛾) 11= 𝒞3(𝛾) δ 1= 𝒞1(𝛿) 01= 𝒞2(𝛿) 110= 𝒞3(𝛿) 𝓒1 (α)= 𝓒1 (γ) 𝓒1 (β)= 𝓒1 (δ) Διαφορετικα Συμβολα Κωδικοποιουνται στην αυτη ΚΛ

𝓒2 (𝑎𝜅)≠ 𝓒2 (𝑎𝜆)

Αν 𝑎𝜅≠ 𝑎𝜆 αλλα 0011= 𝓒2(αδβ)= 𝓒2(γββ) Μη Μονοσημαντη Αποκωδικοποιηση Μηνυματων

Μονοσημαντη Αποκωδικοποιηση Μηνυματων αλλα η ΚΛ 𝓒3(γ)=11 ειναι προθεμα της ΚΛ 𝓒3(δ)=110 Για να αναγνωριστουν οι ΚΛ απαιτειται αναγνωση του πρωτου συμβολου της επομενης ΚΛ

Ιδιαζων Κωδικας

Μη-Ιδιαζων Κωδικας

Μονοσημαντος Κωδικας

Definition

Μονοσημαντος Κωδικας (Uniquely Decodable Code) Δεν συγχεονται τα Mηνυματα: 𝒞(𝜓𝛼𝜓𝛽𝜓𝛾 …) ≠ 𝒞(𝜓�̃�𝜓�̃�𝜓�̃�…), αν (𝜓𝛼𝜓𝛽𝜓𝛾 …) ≠ (𝜓�̃�𝜓�̃�𝜓�̃� …)

Φ Σ={0,1} Κωδικας 𝓒1 Κωδικας 𝓒2 Κωδικας 𝓒3 Κωδικας 𝓒4

α 0= 𝒞1(𝛼) 0= 𝒞2(𝛼) 10= 𝒞3(𝛼) 0= 𝒞4(𝛼) β 1= 𝒞1(𝛽) 1= 𝒞2(𝛽) 00= 𝒞3(𝛽) 10= 𝒞4(𝛽) γ 0= 𝒞1(𝛾) 00= 𝒞2(𝛾) 11= 𝒞3(𝛾) 110= 𝒞4(𝛾) δ 1= 𝒞1(𝛿) 01= 𝒞2(𝛿) 110= 𝒞3(𝛿) 111= 𝒞4(𝛿) 𝓒1 (α)= 𝓒1 (γ)

𝓒1 (β)= 𝓒1 (δ) Διαφορετικα Συμβολα Κωδικοποιουνται στην αυτη ΚΛ

𝓒2 (𝑎𝜅)≠ 𝓒2 (𝑎𝜆)

Αν 𝑎𝜅≠ 𝑎𝜆 αλλα 0011= 𝓒2(αδβ)= 𝓒2(γββ) Μη Μονοσημαντη Αποκωδικοποιηση Μηνυματων

Μονοσημαντη Αποκωδικοποιηση Μηνυματων αλλα η ΚΛ 𝓒3(γ)=11 ειναι προθεμα της ΚΛ 𝓒3(δ)=110 Για να αναγνωριστουν οι ΚΛ απαιτειται αναγνωση του πρωτου συμβολου της επομενης ΚΛ

Οι ΚΛ αναγνωριζονται αμεσα

Ιδιαζων Κωδικας

Μη-Ιδιαζων Κωδικας

Μονοσημαντος Κωδικας

Αμεσος Κωδικας

Definition

Αμεσος Κωδικας Instantaneous Code = Prefix Code

καθε Κωδικη Λεξη 𝜎𝛼 , 𝜎𝛽,... , αναγνωριζεται / διαβαζεται (αμεσα)

χωρις να χρειαστει αναγνωση του πρωτου συμβολου της επομενης Κωδικης Λεξης ⟺ Ουδεμια Κωδικη Λεξη αποτελει προθεμα αλλης Κωδικης Λεξης

Οι Αμεσοι Κωδικες είναι Αξιοπιστοι (δεν χανεται Πληροφορια) καθοτι στα κωδικοποιημενα Μηνυματα (ακολουθιες συμβολων), εκαστη Κωδικη Λεξη Αποκωδικοποιειται μολις διαβαστει το τελευταιο συμβολο της.

3 Αμεσοι Κωδικες

ΕΡΩΤΗΜΑ Μπορω να ελεγξω αν ενας Κωδικας ειναι Αμεσος Χωρις να διατρεχω τις λεξεις?

1) Αν μια Κωδικοποιηση n Γεγονοτων {𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 } με d Συμβολα {𝝈𝟏, . . . 𝝈𝒅} εχει Μηκη Κωδικων Λεξεων 𝓵𝟏, 𝓵𝟐, … , 𝓵𝒏: 𝟏 ≤ 𝓵𝟏 ≤ 𝓵𝟐 ≤ ⋯ ≤ 𝓵𝒏 Είναι Αμεση Κωδικοποιηση? 2) Aντιστροφως,

Αν επιλεξω n Φυσικους Αριθμους 𝓵𝟏, 𝓵𝟐, … , 𝓵𝒏: 𝟏 ≤ 𝓵𝟏 ≤ 𝓵𝟐 ≤ ⋯ ≤ 𝓵𝒏 υπαρχει Aμεσος 𝐝-αδικος Κωδικας των {𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 } με τα επιλεγμενα Μηκη Κωδικων Λεξεων 𝓵𝟏, 𝓵𝟐, … , 𝓵𝒏? AΠANTHΣΗ: Θεωρημα Kraft

Θεωρημα Η Ανισοτητα Kraft είναι ικανη και αναγκαια συνθηκη Αμεσης Κωδικοποιησης 1. Καθε Αμεση Κωδικοποιηση των Γεγονοτων: {𝑎1, 𝑎2, … , 𝑎𝑛 } Με d Συμβολα {𝜎1, . . . 𝜎𝑑}, ωστε οι Κωδικες Λεξεις των 𝑎1, 𝑎2, … , 𝑎𝑛 να εχουν καθορισμενα Μηκη ℓ1, ℓ2, … , ℓ𝑛: 1 ≤ ℓ1 ≤ ℓ2 ≤ ⋯ ≤ ℓ𝑛 = ℓ𝑚𝑎𝑥

Ικανοποιει την Ανισοτητα Κraft: ∑ 𝑑−ℓν ≤ 1𝑛ν=1

2. Aντιστροφα, Για καθε επιλογη n Φυσικων Αριθμων ℓ1, ℓ2, … , ℓ𝑛 με διαταξη: 1 ≤ ℓ1 ≤ ℓ2 ≤ ⋯ ≤ ℓ𝑛= 𝓵max Που ικανοποιει την Ανισοτητα Kraft: ∑ 𝑑−ℓν ≤ 1𝑛

ν=1 υπαρχει Aμεση d-αδικη Κωδικοποιηση των {𝑎1, 𝑎2, … , 𝑎𝑛 } με Μηκη Κωδικων Λεξεων ℓ1, ℓ2, … , ℓ𝑛 Αποδειξη Cover T.,Thomas J. 2006, Elements of Information Theory, Wiley, New York Αποδειξη μεσω Χαοτικων Δυναμικων Συστηματων: Nagaraja N. 2009, A dynamical systems proof of Kraft–McMillan inequality and its converse for prefix-free codes, Chaos 19, 013136

ΣΧΟΛΙΟ Αν διατιθενται d Συμβολα 𝜮 = {𝝈𝟏, . . . 𝝈𝒅} Yπαρχουν 𝒅𝓵 διαφορετικες Κωδικες Λεξεις δεδομενου Μηκους 𝓵 Η Ανισοτης Kraft είναι ικανη και αναγκαια συνθηκη η οποιοα περιοριζει τα δυνατα μηκη των Κωδικων Λεξεων για Αμεση Κωδικοποιηση, αλλα δεν επαρκει για να προσδιορισει τους Αμεσους Κωδικες. Η κατασκευη ενός Αμεσου Κωδικα απαιτει επιπλεον συνθηκες περιορισμου των δυνατοτητων

ΕΡΩΤΗΜΑ Το Θεωρημα Kraft ισχυει για Αμεση Κωδικοποιηση με απειρα Συμβολα (d=∞) ?

Λημμα Η Ανισοτης Kraft γενικευεται για απειρα Mηκη Αποδειξη Cover T.,Thomas J. 2006, Elements of Information Theory, Wiley, New York

ΕΡΩΤΗΜΑ Υπαρχουν Κριτηρια αντιστοιχα του θεωρηματος Kraft για Μονοσημαντους Κωδικες?

Θεωρημα MacMillan Το θεωρημα Kraft ισχυει επισης για Μονοσημαντους Κωδικες Αποδειξη Cover T.,Thomas J. 2006, Elements of Information Theory, Wiley, New York

ΣΧΟΛΙΟ Απο το Θεωρημα του MacMillan συναγεται το εξης Συμπερασμα-Εκπληξη: Οι Μονοσημαντοι Κωδικες δεν προσφερουν περισσοτερα απο τους Aμεσους Κωδικες (ως προς τα Μηκη των Κωδικων Λεξεων) Oι εκτιμησεις ως προς τα μηκη των Κωδικων Λεξεων των Αμεσων Κωδικων ισχυουν και για τους Μονοσημαντους Κωδικες

Παραδειγμα: Κωδικας Μorse 3-αδικος

Κωδικας Morse Σε κάθε τελεια αντιστοιχεί ήχος διάρκειας 1/6 δευτερολέπτου Σε κάθε παυλα αντιστοιχεί ήχος διάρκειας 1/2 δευτερολέπτου

SOS = • • • — — — • • •

Google = — — • — — — — — — — — • • — • • •

Ο Μοrse (1791-1872) σπούδασε ζωγραφική (Chapel of the Virgin at Subiaco), ειχε ως hobby τη φυσική 1837 παρουσιασε τον Τηλεγραφο στο Πανεπιστήμιο της Νέας Υόρκης. 1843, το αμερικανικό Κογκρέσο ενέκρινε τη χρηματοδότηση της πρώτης τηλεγραφικής γραμμής, που συνέδεε την Ουάσινγκτον με τη Βαλτιμόρη. 1851 Δίπλωμα Ευρεσιτεχνίας για την τηλεγραφική συσκευή 1859 Ο τηλεγραφος φτανει στην Ελλάδα. Σήμερα, ο Κώδικας Μοrse δεν χρησιμοποιείται στις τηλεπικοινωνίες. Πολλοι ραδιοερασιτεχνες τον χρησιμοποιουν ακομα.

Letters Distribution in English Language Texts

Κωδικας Μorse σε σχεση με αλλους 2-αδικους Κωδικες Αγγλικης

SYMBOL PROBABILITY HUFFMAN ALPHABETIC MORSE BA8421

64

Κωδικες

Λεξεις

space 0.1859 000 00 2 000000

A 0.0642 0100 0100 10 11001

B 0.0127 0111111 010100 011 110010

C 0.0218 11111 010101 0101 110011

D 0.0317 01011 01011 011 110100

E 0.1031 101 0110 1 110101

F 0.0208 001100 011100 1101 110110

G 0.0152 011101 011101 001 110111

H 0,0467 1110 01111 1111 111000

I 0.0575 1000 1000 11 111001

J 0.0008 0111001110 1001000 1000 100001

K 0.0049 01110010 1001001 010 100010

L 0.0321 01010 100101 1011 100011

M 0.0198 001101 10011 00 100100

N 0.0574 1001 1010 01 100101

O 0.0632 0110 1011 0 00 100110

P 0.0152 011110 110000 1001 100111

Q 0.0008 0111001101 110001 0010 101000

R 0.0484 1101 11001 101 101001

S 0.0514 1100 1101 111 010010

T 0.0796 0010 1110 0 010011

U 0.0228 11110 111100 110 010100

V 0.0083 0111000 111101 1110 010101

W 0.0175 001110 111110 100 010110

X 0.0013 0111001100 1111110 0110 010111

Y 0.0164 001111 11111110 0100 011000

Z 0.0005 0111001111 11111111 0011 011001

4 Η Εντροπια Shannon ως Ελαχιστο Μηκος Αμεσης Κωδικoποιησης

Ποιο είναι το Ελαχιστο Μεσο Μηκος Αμεσης Κωδικοποιησης? Ορισμος Μηκος Κωδικοποιησης Μηκος Κωδικοποιησης: 𝛭 = ∑ 𝑀𝛼ℓ𝛼𝛼 , Μ=2,3,4,…

𝓵k= 𝓵[𝒞(𝛼𝑘)] = το Μηκος της Κωδικης Λεξης 𝒞(𝛼𝑘) του Γεγονοτος [𝛼𝑘] Κατά την Κωδικοποιηση: 𝓒: 𝛼𝑘 ⟼ 𝒞(𝛼𝑘) = 𝜎𝜄1𝜎𝜄2,..., σ𝜄ℓ𝑘

Του κωδικοποιημενου Μηνυματος Μ Λεξεων διαφορων μηκων ℓ1, ℓ2, … , ℓ𝑛 οπου υπαρχουν 𝛭1 λεξεις μηκους ℓ1

𝛭2 λεξεις μηκους ℓ2 …

𝛭𝑛 λεξεις μηκους ℓ𝑛

Μεσο Μηκος Κωδικοποιησης: ℓ̅ = ∑𝑀𝛼

𝑀ℓ𝛼𝛼 = ∑ pαℓα𝛼 ℓ̅

Οι Πιθανοτητες των Μηκων pα =𝑀𝛼

𝑀

εκτιμωνται από την Γραμματεια της Γλωσσας (Δειγματοληψια)

ΣΧΟΛΙΟ

Για να είναι το ελαχιστο μηκος ανεξαρτητο από το Μ

Πρεπει και αρκει να είναι ελαχιστο το μεσο μηκος κωδικοποιησης �̅�

Εστω Αμεση Κωδικοποιηση Ελαχιστου Μηκους n Γεγονοτων {𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 } με 𝐝 Συμβολα {𝝈𝟏, . . . 𝝈𝒅} 1) Αν οι Κωδικες Λεξεις των 𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 εχουν καθορισμενα Μηκη: 𝟏 ≤ 𝓵𝟏 ≤ 𝓵𝟐 ≤ ⋯ ≤ 𝓵𝒏 = 𝓵𝒎𝒂𝒙

• Ποιο το ελαχιστο μεσο μηκος κωδικοποιησης �̅�

• Ποια η κατανομη με Ελαχιστο μεσο μηκος κωδικοποιησης 2) Αν η Κατανομη Πιθανοτητος 𝒑𝟏, 𝒑𝟐, … , 𝒑𝒏𝛕𝛚𝛎 𝒂𝟏, 𝒂𝟐, … , 𝒂𝒏 Είναι καθορισμενη (από την Γλωσσα) Ποια επιλογη Μηκων 𝓵𝟏, 𝓵𝟐, … , 𝓵𝒏 των αντιστοιχων Κωδικων λεξεων εχει Ελαχιστο μεσο μηκος κωδικοποιησης Απαντηση: Θεωρηματα Κωδικοποιησης Shannon

Θεωρημα Source Coding (Shannon) Ε Εστω Αμεση Κωδικοποιηση Ελαχιστου Μηκους n Γεγονοτων {𝑎1, 𝑎2, … , 𝑎𝑛 } με d Συμβολα {𝜎1, . . . 𝜎𝑑} με καθορισμενα Μηκη ℓ1, ℓ2, … , ℓ𝑛 Κωδικων λεξεων. Τα μηκη διατασσονται: 1 ≤ ℓ1 ≤ ℓ2 ≤ ⋯ ≤ ℓ𝑛 = ℓ𝑚𝑎𝑥 1) Tο Ελαχιστο Μεσο Μηκος Κωδικοποιησης είναι η d-Eντροπια:

−∑ 𝑝𝑖

𝑛𝑖=1 𝑙𝑜𝑔2𝑝𝑖

𝑙𝑜𝑔2𝑑= −∑ 𝑝𝑖

𝑛𝑖=1 𝑙𝑜𝑔𝑑𝑝𝑖 = 𝓢𝒅 ≤ �̅� = ∑ 𝑝𝑖

𝑛𝑖=1 ℓ𝑖

2) Η κατανομη με Ελαχιστο Μεσο Μηκος Κωδικοποιησης είναι η d-αδικη Κατανομη:

𝒮𝑑 = ℓ̅ ⟺ 𝑝𝑖 = 𝑑−ℓ𝑖 , 𝑖 = 1,2, … , 𝑛

Αποδειξη του Θεωρηματος Κωδικοποιησης Shannon

1) 𝓢𝒅 ≤ �̅�

�̅� − 𝓢𝒅 =∑𝒑𝒊

𝒏

𝒊=𝟏

𝓵𝒊 − (−∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊) =∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊𝒅−𝓵𝒊

= ∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅

(

𝒑𝒊𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏 )

+ 𝒍𝒐𝒈𝒅 (𝟏

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) ∙ 𝟏

�̅� − 𝓢𝒅 ≥ 𝟎 ως Αθροισμα Θετικων ορων

𝒍𝒐𝒈𝒅 (𝟏

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) ≥ 𝟎, διοτι ∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏 ≤ 𝟏, για Αμεσους Κωδικες Ανισοτητα Kraft:

Αποδειξη Ανισοτητος Kraft: Διαυλοι, Θεωρια Κωδικων [Cover, Thomas 2006, Ch. 5]

∑ 𝒑𝒊𝒏𝒊=𝟏 𝒍𝒐𝒈𝒃 (

𝒑𝒊

𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) ≥ 𝟎 Από την Ανισοτητα Gibbs: ∑ 𝐩𝛎𝒍𝒐𝒈𝒃𝐩𝛎

𝐪𝛎

𝐧𝝂=𝟏 ≥ 𝟎

2) 𝓢𝒅 = �̅� ⟺ 𝓵𝒊 = −𝒍𝒐𝒈𝒅𝒑𝒊 , 𝒊 = 𝟏, 𝟐, … , 𝒏

𝓢𝒅 = �̅� ⟺∑𝒑𝒊

𝒏

𝒊=𝟏

𝓵𝒊 = −∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊

⟺∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊𝒅−𝓵𝒊

= 𝟎

⟺∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅

(

𝒑𝒊𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏 )

+ 𝒍𝒐𝒈𝒅 (𝟏

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) = 𝟎

⟺∑ 𝒑𝒊𝒏𝒊=𝟏 𝒍𝒐𝒈𝒅 (

𝒑𝒊𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) = 𝟎 και 𝒍𝒐𝒈𝒅 (𝟏

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) = 𝟎

Διοτι και οι 2 οροι είναι μη αρνητικοι

∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅

(

𝒑𝒊𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏 )

= 𝟎 ⟺ 𝒑𝒊 =𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

, 𝒊 = 𝟏, 𝟐, … , 𝒏

Από την Ανισοτητα Gibbs: ∑ 𝐩𝛎𝐥𝐧𝐩𝛎

𝐪𝛎

𝐧𝝂=𝟏 = 𝟎 ⟺ 𝒑𝒊 = 𝒒𝒊, 𝒊 = 𝟏, 𝟐, … , 𝒏

𝒍𝒐𝒈𝒅 (𝟏

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

) = 𝟎 ⟺∑𝒅−𝓵𝒌

𝒏

𝒌=𝟏

= 𝟏

Συνεπως: 𝓢𝒅 = �̅� ⟺ 𝒑𝒊 =𝒅−𝓵𝒊

∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏

, 𝒊 = 𝟏, 𝟐, … , 𝒏 και ∑ 𝒅−𝓵𝒌𝒏𝒌=𝟏 = 𝟏

⟺ 𝒑𝒊 = 𝒅−𝓵𝒊

⟺ 𝓵𝒊 = −𝒍𝒐𝒈𝒅𝒑𝒊 ΟΕΔ

ΛΗΜΜΑ Ανισοτητα Gibbs ∀ pν , qν ≥0, ∑ pν

n𝜈=1 = 1 , ∑ qν

n𝜈=1 = 1 :

∑ pνlnpν

𝑛𝜈=1 ≥ 0

∑ pνlnpν

nν=1 = 0 ⟺ pν = qν

Αποδειξη Ανισοτητας Gibbs από την Λογαριθμικη Ανισοτητα

1−𝟏

𝐱 ≤ lnx ≤ x−1

και lnx = x−1 ⟺ x=1 Ειναι: −lnx ≥ 1−x

−lnx = 1−x ⟺ x=1

Συνεπως: ∑ 𝐩𝛎𝐥𝐧𝐩𝛎

𝐪𝛎

𝒏𝝂=𝟏 = ∑ 𝐩𝛎 [−𝐥𝐧 (

𝐪𝛎𝐩𝛎)]𝐧

𝝂=𝟏 ≥ ∑ 𝐩𝛎 [𝟏−𝐪𝛎𝐩𝛎]𝐧

𝝂=𝟏 = ∑ 𝐩𝛎𝐧𝝂=𝟏 − ∑ 𝐪𝛎 =

𝐧𝝂=𝟏 𝟎

∑ 𝐩𝛎 [−𝐥𝐧 (𝐪𝛎

𝐩𝛎)]𝐧

𝝂=𝟏 = ∑ 𝐩𝛎 [𝟏 − (𝐪𝛎

𝐩𝛎)]𝐧

𝝂=𝟏 ⟺ 𝐪𝛎

𝐩𝛎= 𝟏

Αποδειξη Ανισοτητας Gibbs από την Ανισοτητα Jensen

Η Ανισοτητα Jensen για λν = qν , yν = 𝐩𝛎

𝒒𝛎 :

(∑ 𝐪𝛎𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ) 𝐥𝐧 (∑ 𝐪𝛎

𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ) ≤ ∑ 𝐪𝛎

𝐩𝛎𝐪𝛎𝐥𝐧𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏

(∑ 𝐪𝛎𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ) 𝐥𝐧 (∑ 𝐪𝛎

𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ) ≤ ∑ 𝐪𝛎

𝐩𝛎𝐪𝛎𝐥𝐧𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ⟺

𝐪𝟏

𝒑𝟏 = 𝐪𝟐

𝒑𝟐=…=

𝐪𝐧

𝒑𝐧

𝟎 ≤ ∑ 𝐩𝛎𝐥𝐧𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏

𝟎 = ∑ 𝐩𝛎𝐥𝐧𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏 ⟺

𝐪𝟏

𝒑𝟏 = 𝐪𝟐

𝒑𝟐=…=

𝐪𝐧

𝒑𝐧

Πρεπει 𝐩𝛎

𝐪𝛎= 𝟏, ν=1,2,…n, για να είναι: 𝟎 = ∑ 𝐩𝛎𝐥𝐧

𝐩𝛎𝐪𝛎

𝐧𝝂=𝟏

ΛΗΜΜΑ: Ανισοτητα Jensen

For any strictly Convex, Real function f , λν ≥0 , ∑ 𝜆𝜈𝑛𝜈=1 = 1 :

𝑓 (∑ λνyνn𝜈=1 ) ≤ ∑ λνf(yν)

n𝜈=1

𝑓 (∑ λνyνn𝜈=1 ) = ∑ λνf(yν)

n𝜈=1 ⟺ y1 = y2 =…= yn

Proof Rudin W. 1970, Real and Complex Analysis. McGraw-Hill, London

Ποιοι Αξιοπιστοι Κωδικες είναι Βελτιστοι (Οικονομικοι, Μεγιστη Συμπιεση Πληροφοριας)?

Οι Κωδικες Shannon

Definition

(Αμεση) Κωδικοποιηση Shannon The Shannon d-ary Code of the n-value RV with distribution 𝑝1, 𝑝2, … , 𝑝𝑛

ℓ𝑖𝑆ℎ𝑎𝑛𝑛𝑜𝑛 = ⌈−𝑙𝑜𝑔𝑑𝑝𝑖⌉, 𝑖 = 1,2, … , 𝑛

Theorem

Μεσο Μηκος Κωδικα Shannon

Το Μεσο Μηκος του Κωδικα Shannon λαμβανει τιμες στο διαστημα [𝒮𝑑 , 𝒮𝑑 + 1):

−∑𝑝𝑖

𝑛

𝑖=1

𝑙𝑜𝑔𝑑𝑝𝑖 ≤ ℓ̅𝑆ℎ𝑎𝑛𝑛𝑜𝑛 < −∑𝑝𝑖

𝑛

𝑖=1

𝑙𝑜𝑔𝑑𝑝𝑖 + 1

ℓ̅𝑆ℎ𝑎𝑛𝑛𝑜𝑛 =∑𝑝𝑖

𝑛

𝑖=1

ℓ𝑖𝑆ℎ𝑎𝑛𝑛𝑜𝑛 =∑ 𝑝

𝑖

𝑛

𝑖=1

⌈−𝑙𝑜𝑔𝑑𝑝𝑖⌉

Αποδειξη Εφαρμοζουμε την Ανισοτητα της Συναρτησης Ceiling: 𝒙 ≤ ⌈𝐱⌉ < 𝒙 + 𝟏

Για 𝒙 = −𝒍𝒐𝒈𝒅𝒑𝒊:

−𝒍𝒐𝒈𝒅𝒑𝒊 ≤ ⌈−𝒍𝒐𝒈𝒅𝒑𝒊⌉ < −𝒍𝒐𝒈𝒅𝒑𝒊 + 𝟏

Πολλαπλασιαζουμε με 𝒑𝒊:

− 𝒑𝒊𝒍𝒐𝒈𝒅𝒑𝒊 ≤ 𝒑𝒊⌈−𝒍𝒐𝒈𝒅𝒑𝒊⌉ < − 𝒑𝒊𝒍𝒐𝒈𝒅𝒑𝒊 + 𝒑𝒊 Αθροιζουμε από i=1,2,…,n:

−∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊 ≤∑𝒑𝒊

𝒏

𝒊=𝟏

⌈−𝒍𝒐𝒈𝒅𝒑𝒊⌉ < −∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊 +∑𝒑𝒊

𝒏

𝒊=𝟏

⟺−∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊 ≤ �̅�𝑺𝒉𝒂𝒏𝒏𝒐𝒏 < −∑𝒑𝒊

𝒏

𝒊=𝟏

𝒍𝒐𝒈𝒅𝒑𝒊 + 𝟏

ΟΕΔ

ΣΧΟΛΙO 1

d=2 Δυαδικη Κωδικοποιηση (dyadic coding)

Η Εντροπια Shannon είναι το Ελαχιστο Μεσο Μηκος Αμεσης 2-αδικης Κωδικοποιησης:

𝓢 ≤ �̅�, 𝓢 = −∑ 𝒑𝜿𝒏𝜿=𝟏 𝒍𝒐𝒈𝟐𝒑𝜿

ΣΧΟΛΙO 2

Στην Κωδικοποιηση Ελαχιστου Μεσου Μηκους Το Μηκος καθε Κωδικης Λεξης είναι η Πληροφορια του αντιστοιχου Γεγονοτος:

𝓵𝝂 = −𝒍𝒐𝒈𝒅𝒑𝝂 = 𝓲[𝒑𝝂] = 𝓲[𝜲 = 𝒙𝝂], 𝝂 = 𝟏, 𝟐, … , 𝒏

και αντιστροφως Η Πληροφορια 𝓲[𝜲 = 𝒙𝝂] του Γεγονοτος [𝜲 = 𝒙𝝂], 𝝂 = 𝟏, 𝟐, … , 𝒏 οριζει το Μηκος Shannon για την αμεση ψηφιακη παρασταση του Γεγονοτος (Μνημη) 𝒾[Ξ] = −log2 ρ[Ξ] , d=2

ΣΧΟΛΙO 3

Ο Κωδικας Shannon για την κατανομη 𝒑𝟏, 𝒑𝟐, … , 𝒑𝒏:

𝓵𝝂𝑺𝒉𝒂𝒏𝒏𝒐𝒏 = ⌈−𝒍𝒐𝒈𝟐𝒑𝝂⌉, 𝝂 = 𝟏, 𝟐, … , 𝒏

Η Κωδικοποιηση Shannon εκχωρει μικρα μηκη σε γεγονοτα με μεγαλη Πιθανοτητα και μεγαλα μηκη σε γεγονοτα με μικρη Πιθανοτητα, αλλα δεν είναι παντα η Βελτιστη Κωδικοποιηση. Παραδειγμα: Τα Γεγονοτα με Πιθανοτητα 𝒑𝟏 = 𝟎. 𝟗𝟗𝟗𝟗, 𝒑𝟐 = 𝟎. 𝟎𝟎𝟎𝟏 εχουν Κωδικες Λεξεις

με Μηκη:

𝓵𝟏𝑺𝒉𝒂𝒏𝒏𝒐𝒏 = ⌈−𝒍𝒐𝒈

𝟐𝟎. 𝟗𝟗𝟗𝟗⌉ = 𝟏

𝓵𝟐𝑺𝒉𝒂𝒏𝒏𝒐𝒏

= ⌈−𝒍𝒐𝒈𝟐𝟎. 𝟎𝟎𝟎𝟏⌉ = 𝟏𝟒

�̅�𝑺𝒉𝒂𝒏𝒏𝒐𝒏 = 𝟎. 𝟗𝟗𝟗𝟗 × 𝟏 + 𝟏𝟒 × 𝟎. 𝟎𝟎𝟎𝟏 = 𝟏. 𝟎𝟎𝟏𝟑

ΣΧΟΛΙO 4

⌈𝓲[𝚵]⌉ ο ελαχιστος αριθμος των ανεξαρτητων ισοπιθανων Δυαδικων (ΝΑΙ/ΟΧΙ) ερωτησεων-αποφασεων που απαιτουνται για να πληροφορηθει (πιστοποιησει) καποιος, οτι το γεγονος Ξ πραγματοποιηθηκε, χωρις αλλη εκ των προτερων (a priori) πληροφορια

𝒑[𝜩] = (𝟏

𝟐)𝓲[𝚵]

⟺ 𝟏

𝐩[𝚵]= 2𝒾[Ξ] ⟺

log2p = the minimal number of independent equiprobable (YES/NO) - Decisions necessary to verify the event with probability p

Μπορω παντα να αποφαινομαι με δυαδικες Eρωτησεις? ΝΑΙ!

Eαν p[Ξ] = (𝟏

𝐧𝟏)𝝂𝟏(𝟏

𝐧𝟐)𝛎𝟐…

Τοτε p[Ξ] = (𝟏

𝟐)𝛎𝟏𝐥𝐨𝐠𝟐𝐧𝟏

(𝟏

𝟐)𝛎𝟐𝐥𝐨𝐠𝟐𝐧𝟐

… = (𝟏

𝟐)𝛎𝟏𝐥𝐨𝐠𝟐𝐧𝟏+𝛎𝟐𝐥𝐨𝐠𝟐𝐧𝟐+⋯

Υπομνηση 𝒏 = 𝟐𝐥𝐨𝐠𝟐𝐧

ΛΗΜΜΑ: Computation of Dyadic logarithms

𝐥𝐨𝐠𝟐𝐱 = 𝐥𝐨𝐠𝟏𝟎𝐱

𝐥𝐨𝐠𝟏𝟎𝟐 = 𝒍𝝄𝒈𝒙

𝒍𝝄𝒈𝟐 =

𝒍𝝄𝒈𝒙

𝟎.𝟑𝟎𝟏𝟎𝟐𝟗𝟗𝟓 , x>0

𝐥𝐨𝐠𝟐𝐱 = 𝐥𝐨𝐠𝒆𝐱

𝐥𝐨𝐠𝒆𝟐 = 𝒍𝒏𝒙

𝒍𝒏𝟐 =

𝒍𝒏𝒙

𝟎.𝟔𝟗𝟑𝟏𝟒𝟕𝟏𝟖 , x>0

ΛΗΜΜΑ: Change logarithm basis Formula

𝐥𝐨𝐠𝒅𝐱 = 𝐥𝐨𝐠𝐚𝐱

𝐥𝐨𝐠𝐚𝐛 , x, a, d > 0 , a≠1, d ≠1

Μπορω να αποφαινομαι με d-αδικες Eρωτησεις? ΝΑΙ! 𝓲𝒅[𝚵] ο ελαχιστος αριθμος των ανεξαρτητων ισοπιθανων

d-αδικων απαντησεων που απαιτουνται για να πληροφορηθει (πιστοποιησει) καποιος, οτι το γεγονος Ξ πραγματοποιηθηκε, χωρις αλλη εκ των προτερων (a priori) πληροφορια

𝐩[𝚵] = (𝟏

𝒅)𝓲𝒅[𝚵]

⟺ 𝓲𝒅[𝚵] = −𝒍𝒐𝒈𝒅𝒑[𝜩]

⌈𝓲𝒅[𝚵]⌉ = ⌈−𝐥𝐨𝐠𝒅𝒑[𝜩]⌉ = ⌈𝓲[𝚵]

𝐥𝐨𝐠𝟐𝐝⌉ το ελαχιστο μηκος ακολουθιας d συμβολων

για την αναπαρασταση-προσδιορισμο του Μηνυματος Ξ με πιθανοτητα 𝒑[𝜩]

𝓲𝒅[𝚵] = −𝒍𝒐𝒈𝒅𝒑[𝜩] =−𝐥𝐨𝐠

𝟐𝒑[𝜩]

𝐥𝐨𝐠𝟐𝐝

=𝓲[𝚵]

𝐥𝐨𝐠𝟐𝐝

⌈𝒙⌉ = the smallest integer not less than x = the ceiling function: 𝐱 ≤ ⌈𝐱⌉ ≤ 𝐱 + 𝟏

ΠΑΡAΔΕΙΓΜΑ: Ξ = επιλεγω ενα απο 2 συμβολα (παιζω Κορωνα/Γραμματα n=2): Koρωνα-Γραμματα 1 δυαδικη ισοπιθανη αποφαση

p[K]= 𝟏

𝟐 =(

𝟏

𝟐)𝟏 ⟹ 𝒾[K]=1bit

𝓲[𝜥𝝄𝝆𝝎𝝂𝜶] = −𝒍𝒐𝒈𝟐 (𝟏

𝟐) = 1

Χρειαζομαι τουλαχιστον 1 δυαδικο συμβολο για να προσδιορισω το αποτελεσμα

ΠΑΡAΔΕΙΓΜΑ: Ριχνω Ζαρι. X=1,2,3,4,5,6

𝒾[X=6]= −𝒍𝒐𝒈𝟐𝒑[𝑿 = 𝟔] = −𝒍𝒐𝒈𝟐𝟏

𝟔= 𝒍𝒐𝒈𝟐𝟔 ≃

𝒍𝒏𝟔

𝟎.𝟔𝟗𝟑𝟏𝟒𝟕𝟏𝟖≃𝟏.𝟕𝟗𝟏𝟕𝟓𝟗𝟒𝟕

𝟎.𝟔𝟗𝟑𝟏𝟒𝟕𝟏𝟖≃ 𝟐. 𝟓𝟖

Χρειαζομαι τουλαχιστον ℓ=3 >𝟐. 𝟓𝟖 δυαδικα συμβολα για να προσδιορισω το αποτελεσμα Ριχνω 2 Ζαρια. Ζ=(κ,λ), κ,λ=1,2,3,4,5,6

𝒾[X=(6,6)]= −𝒍𝒐𝒈𝟐𝒑[𝑿 = (𝟔, 𝟔)] = −𝒍𝒐𝒈𝟐𝟏

𝟑𝟔= 𝒍𝒐𝒈𝟐𝟑𝟔 ≃ 𝟓. 𝟏𝟕

Χρειαζομαι τουλαχιστον ℓ = 6> 𝟓. 𝟏𝟕 δυαδικα συμβολα για να προσδιορισω το αποτελεσμα

ΠΑΡAΔΕΙΓΜΑ: Τραβαω ενα χαρτι απο την τραπουλα.

𝒾[Κουπα] = −log2 p[Κουπα] = −log2 𝟏

𝟒 = 2

Χρειαζομαι τουλαχιστον ℓ = 2 δυαδικα συμβολα για να προσδιορισω το αποτελεσμα

𝒾[Ασσος] = −log2 p[Ασσος] = −log2

𝟏

𝟏𝟑 = 3.70

Χρειαζομαι τουλαχιστον ℓ = 4 δυαδικα συμβολα για να προσδιορισω το αποτελεσμα

𝒾[Ασσος Κουπα] = −log2 p[Ασσος Κουπα] = −log2 𝟏

𝟒∙𝟏𝟑 = 5.70

𝒾[Ασσος Κουπα] = 𝒾[Κουπα] + 𝒾[Ασσος] = 5.70, διοτι ειναι ανεξαρτητα Χρειαζομαι τουλαχιστον ℓ = 6 δυαδικα συμβολα για να προσδιορισω το αποτελεσμα

ΠΑΡAΔΕΙΓΜΑ: Ποσα οντα μπορω να βρω με 20 Ισοπιθανες Ερωτησεις?

𝟐𝟐𝟎 = 𝟏𝟎𝟒𝟖𝟓𝟕𝟔 The 20 Questions Game Del Lungo A. Louchard G.ea 2005, The Guessing Secrets Ρroblem: a Ρrobabilistic Αpproach, Journal of Algorithms 55, 142–176 Ποσα οντα μπορω να βρω με 64 Ισοπιθανες Ερωτησεις?

𝟐𝟔𝟒 = 𝟏. 𝟖 × 𝟏𝟎𝟏𝟗 (σκακι)

Ποσες Ισοπιθανες Ερωτησεις πρεπει να κανω για να βρω ένα Ατομο στο Συμπαν?

Αρκουν 333: 2n=10100 ⟺ 𝐧 = 𝟏𝟎𝟎𝐥𝐨𝐠𝟐(𝟏𝟎) ≅ 𝟑𝟑𝟐

ΠΑΡAΔΕΙΓΜΑ: Ποσες Ερωτησεις χρειαζονται για να εντοπισω σε ποιο κελι ευρισκεται ένα σημειο ω

Τα κελια 𝜩𝟏 , 𝜩𝟐 , 𝜩𝟑 , 𝜩𝟒 , εχουν Πιθανοτητες 𝟏

𝟐 ,𝟏

𝟒 ,𝟏

𝟖 ,𝟏

𝟖 (Oμοιομορφη Κατανομη)

Η Εντροπια της Διαμερισης είναι: 𝓢[𝝃] = 𝟏

𝟐∙ 𝟏 +

𝟏

𝟒⋅ 𝟐 +

𝟏

𝟖 ⋅ 𝟑 +

𝟏

𝟖 ⋅ 𝟑 =

𝟕

𝟒

Συνεπως αρκουν 2 Ερωτησεις

Δοκιμη Α Q1 Είναι το ω στο 𝜩𝟐 ∪ 𝜩𝟑 ∪ 𝜩𝟒? NO To ω είναι στο 𝛯1

ΤΕΛΟΣ

YES το ω είναι στο 𝜩𝟐 ∪ 𝜩𝟑 ∪ 𝜩𝟒

Q2 Είναι το ω στο 𝜩𝟑 ? NO To ω είναι στο 𝛯2 ∪ 𝛯4

YES το ω είναι στο 𝛯3 ΤΕΛΟΣ

Q3 Είναι το ω στο 𝜩𝟐 ? NO To ω είναι στο 𝛯4

ΤΕΛΟΣ

YES το ω είναι στο 𝜩𝟐

ΤΕΛΟΣ 3 Ερωτησεις Δεν είναι βελτιστη Αναζητηση

Δοκιμη Β Q1 Είναι το ω στο 𝜩𝟏 ∪ 𝜩𝟐? NO To ω είναι στο 𝛯1 ∪ 𝛯2

YES το ω είναι στο 𝜩𝟑 ∪ 𝜩𝟒

Q2 Είναι το ω στο 𝜩𝟐 ? Q2 Είναι το ω στο 𝜩𝟑 ? NO To ω είναι στο 𝛯1

ΤΕΛΟΣ

YES το ω είναι στο 𝛯2 ΤΕΛΟΣ

NO To ω είναι στο 𝛯4

ΤΕΛΟΣ

YES το ω είναι στο 𝛯3 ΤΕΛΟΣ

2 Ερωτησεις βελτιστη Αναζητηση

ΣΧΟΛΙΟ Coding and YES/NO Questions Constructing effective sequences of YES/NO Questions to find an Object within a class of Objects is equivalent to Finding efficient Prefix Codes

ΠΑΡΑΔΕΙΓΜΑ: Genetic Alphabet Eors Szathmary 1992 What is the Optimum Size for the Genetic Alphabet? Proc. Natl. Acad. Sci. USA 89, 2614-2618

Ασκηση 1 Μοναδα

ΠΑΡΑΔΕΙΓΜΑ: DNA Digital Storage

Church G. Gao Y., Kosuri S. 2012, Next-Generation Digital Information Storage in DNA

Science DOI: 10.1126/science.1226355

“DNA is among the most dense and stable information media known. The development of new technologies in both DNA synthesis and sequencing make DNA an increasingly feasible digital storage medium. We develop a strategy to encode arbitrary digital information in DNA, write a 5.27-megabit book (HTML draft) using DNA microchips, and read the book using next-generation DNA sequencing.

A,C → 0 G,T → 1 DNA Advantages over traditional digital storage media. 1) DNA can be easily copied, and is often still readable after thousands of years in non-ideal conditions. 2) the Techniques required to read and write DNA information are as old as life on Earth, unlike ever-changing electronic storage formats such as magnetic tape and DVDs.

ΣΧΟΛΙΟ Η Προστιθεμενη Αξια της Εντροπιας Shannon

• Ψηφιακη Αναπαρασταση-Κωδικοποιηση Γεγονοτων Κατ’ αναλογια με τους Αριθμους

• Ποσοτικη Μετρηση της Πληροφοριας Νεες Δυνατοτητες Επεξεργασιας [Ψηφιακη Εποχη]

• Προσδιορισμος της βασης d του Λογαριθμου ως το πληθος των Συμβολων Κωδικοποιησης κατ αναλογια με την βαση d της Ψηφιακης Παραστασης των Αριθμων

ΣΧΟΛΙΟ

Δυαδικο Συστημα Προελευση

• I CHING binary representation of Hexagrams Redmond G., Hon T.- K. 2014, Teaching the I Ching. Oxford University Press.

• Bacon F. 1605, The Advancement of Learning,

London

• Leibnitz G. 1703, Explication de l'Arithmétique Binaire, Die Mathematische

Schriften, ed. C. Gerhardt, Berlin 1879, vol.7, p.223

Leibniz interpreted the Hexagrams of the I Ching as evidence of binary calculus

Smith J. 2008, Leibniz: What Kind of Rationalist?, Springer

• Boole G. 1854, An Investigation of the Laws of Thought on which are founded the

Mathematical Theories of Logic and Probabilities,

Macmillan, Dover, New York 1958

ΣΧΟΛΙO

Shannon’s statement of the Problem of Information: “Suppose we have a set of possible events 𝑎1, 𝑎2, . . . , 𝑎𝑛 whose probabilities of occurence are 𝑝1, 𝑝2, . . . , 𝑝𝑛. These probabilities are known but that is all we know concerning which event will occur. Can we find a measure of how much “choice” is involved in the selection of the event or How uncertain we are of the outcome?” Shannon C. 1948, A Mathematical Theory of Communication, Bell Systems Techn. J. 27,379-423; 623-656. Section 6.

ΣΧΟΛΙO When Shannon realized the importance of the formula 𝓢 = −∑ 𝝆𝒊 𝒍𝒐𝒈𝟐 𝝆𝒊𝒊 he consulted John von Neumann about a suitable name for it. Von Neumann's response (reported by Myron Tribus) was: “You should call it “Entropy” and for two reasons: first, the function is already in use in thermodynamics under that name; second, and more importantly, most people don't know what entropy really is, and if you use the word “entropy” in an argument, you will win every time!” Tribus M., Mc Irving E. 1971, Energy and Information, Scientific American 225, 179-88. Thermodynamics, Probability and Statistics Quality Management

ΣΧΟΛΙΟ How much the Information of the Internet Weighs? As 3 Strawberries! http://socialtimes.com/how-much-does-the-internet-weigh-video_b82851 Η Αποθηκευση υλοποιειται ως αλλαγη στις Ενεργειακες σταθμες των ηλεκτρονιων των Ατομων