ManolisTzagarakis Assistant Professor Department of...

49
Manolis Tzagarakis Assistant Professor Department of Economics University of Patras [email protected] blogs.upatras.gr/tzagara Facebook: tzagara Google: tzagarakis QuakeLive:DeusEx Steam: xmachina

Transcript of ManolisTzagarakis Assistant Professor Department of...

Page 1: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Manolis Tzagarakis

Assistant Professor

Department of Economics

University of Patras

[email protected]

blogs.upatras.gr/tzagara

Facebook: tzagara

Google: tzagarakis

QuakeLive:DeusEx

Steam: xmachina

Page 2: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 3: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

“Δεδομένα που είναι πολύ μεγάλα (σε όγκο)και πολύ πολύπλοκα (με όρους πλήθους μεταβλητών, αδόμητα κλπ) και δεν μπορούν να χειριστούν/επεξεργαστούν από παραδοσιακές υπολογιστικές μεθόδους και εργαλεία.”

Page 4: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Τεράστιος Όγκος (Volume)

▪ Ο όγκος των δεδομένων που δημιουργούνται και πρέπει να αποθηκευτούν είναι τεράστιος

Page 5: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Μεγάλη ετερογένεια δεδομένων (Variety)

▪ Ο τύπος των δεδομένων μπορεί να είναι οποιοσδήποτε: πίνακες, εικόνες, video, ήχος, αρχεία, κείμενο, αδόμητα δεδομένα

▪ Η ανάλυση μπορεί να απαιτεί τον συνδυασμό διαφορετικών τύπων δεδομένων π.χ. Πίνακες αριθμητικών τιμών, εικόνες και χάρτες

Page 6: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Μεγάλη ταχύτητα δεδομένων (Velocity)

▪ Μεγάλα δεδομένα δεν είναι στατικά. Μεγάλα δεδομένα παράγονται συνέχεια με ιλιγγιώδεις ρυθμούς και ο όγκος τους μεγαλώνει.

▪ Ταχύτητα αφορά όχι μόνο την παραγωγή τους αλλά και την επεξεργασία τους.

Page 7: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Ποιότητα/αξιοπιστία δεδομένων (Veracity)

▪ Η ποιότητα των δεδομένων ποικίλλει επηρεάζοντας την ανάλυση

▪ Ελλιπείς τιμές, μη-έγκυρες τιμές και άλλες «ανωμαλίες» εμφανίζονται με μεγαλύτερη συχνότητα στα μεγάλα δεδομένα

Page 8: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Web 2.0

▪ Χείμαρος δεδομένων UGC

Facebook30 billion pieces of information (links, posts, photos etc) every month

Twitter55 billion tweets every day

Youtube35 hours of video uploaded every minute(eqv. 176000 Hollywood movies per week)

Page 9: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Medicine (electronic patient records – US)▪ 1.6 billion επισκέψεις κάθε χρόνο σε ιατρεία

▪ 9 million εισαγωγές σε νοσοκομεία

▪ 2 billion αναφορές/συνταγογραφήσεις κάθε έτος

▪ Κάθε ημέρα▪ 420.000 επισκέψεις σε νοσοκομεία

▪ 2.4 million εραστηριακά αποτελέσματα

▪ 553000 συνταγές

▪ Μία δημοσίευση προστίθεται στη ΒΔ PubMed κάθε λεπτό (2010)

Page 10: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Ηλεκτρονικές αγορές - eBay▪ 30000 κατηγορίες προϊόντων

▪ ~250 million ενεργοί χρήστες παγκόσμια (Q3 2018)

▪ 10 million νέα προϊόντα προσφέροναι/ημέρα

▪ 1 billion ημερήσιες δοσοληψίες

▪ ~$2000 αξία εμπορεύματος που διακινείται ανά δευτερόλεπτο

▪ Οχήματα αλλάζουν ιδιοκτήτη κάθε 2 minutes

▪ Επεξεργασία 50TB δεδομένων κάθε ημέρα

▪ ++ σχόλια, αξιολογήσεις….

Page 11: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Δεδομένα δημόσιας διοίκησης στο Διαδίκτυο - διαύγεια▪ μο ~10000 δημοσιεύσεις την ημέρα

▪ 62372 εγγεγραμμένοι ενεργοί χρήστες

▪ 4251 δημόσιοι οργανισμοί

Page 12: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Τα προηγούμενα δεν λαμβάνουν υπόψη

▪ Cameras (e.g. traffic)

▪ Sensors (e.g. cars, airplanes etc)

▪ RFID (use of electromagnetic fields to transfer data, automatically identifying and tracking tags attached to objects) – Internet of Things - ΙοΤ

▪ Logs (e.g. bank transactions)

▪ Geolocation (identification of the real-world geographic location of an object)

▪ GPS (e.g. data related where you are – any time)

▪ …

Page 13: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Σε ευρεία/καθημερινή χρήση

▪ Λιανικό εμπόριο π.χ. Amazon, eBay...▪ Συστήματα Συστάσεων (recommender systems)

▪ Χρηματοπιστοτικά ιδρύματα▪ Ανακάλυψη απάτης χρήσης πιστωτικών καρτών

▪ Ανάλυση χρηματοπιστοτικών αγορών μέσω παρακολούθησης δεικτών και ανάλυση δημοσιευμένων άρθρων, Tweets για την αποτύπωση τάσης

▪ Συγκοινωνίες▪ City of Dublin, City of Stockholm, City of Da Nang: βελτίωση

διαχείρισης κυκλοφορίας και αποφυγής συμφόρησης

Δεδομένα από σένσορες, λεωφορεία, δημογραφικά, κλπ

Page 14: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

“There was five exabytes of information created between the dawn of civilization through 2003, but that much information is now created every two days – and the pace is increasing”

-Eric Schmidt, former CEO of Google, 2010

Page 15: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 16: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πως να αποθηκευτούν τα μεγάλα δεδομένα;

▪ Παραδοσιακοί τρόποι δεν επαρκούν▪ Π.χ. ΣΣΔΒΔ

▪ Έχουν προταθεί εξειδικευμένα συστήματα αποθήκευσης τέτοιων δεδομένων▪ Google’s BigTable

▪ HDFS

▪ Apache HBase

Page 17: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πως θα πρέπει να προεπεξεργαστούν τα μεγάλα δεδομένα;

▪ Προετοιμασία των δεδομένων ώστε να είναι κατάλληλα για την ανάλυσή τους...

▪ ...όμως τα δεδομένα που θα πρέπει να αναλυθούν στα πλαίσια ενός προβλήματος μπορεί να είναι διαφορετικού τύπου (πίνακες, κείμενο, εικόνες, csv)

▪ ...όμως οι «ανωμαλίες» στα δεδομένων μπορεί να καλύπτουν μεγάλο έυρος σφαλμάτων – ανωμαλίες που είναι απίθανες να συναντηθούν σε μικρά σύνολα δεδομένων.

Page 18: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Ανάλυση των δεδομένων σε πραγματικό χρόνο (real-time)

▪ …προκειμένου να εξαχθούν συμπεράσματα άμεσα, τη στιγμή που καταφτάνουν τα δεδομένα

Page 19: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πως να οπτικοποιηθούν τα μεγάλα δεδομένα; (visualization)

▪ Για την ξεκάθαρη επικοινωνία πολύπλοκων δεδομένων

Page 20: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πως να ανακαλυφθούν χρήσιμα πρότυπα και συσχετίσεις από τα μεγάλα δεδομένα;

▪ Με ποιες υπολογιστικές μεθόδους μπορούν να αναλυθούν τα δεδομένα γρήγορα και αξιόπιστα για να εξασχθούν χρήσιμα συμπεράσματα και πρότυπα που ελοχεύουν;▪ Κλασικές μέθοδοι είναι αργές αν χρησιμοποιηθούν σε μεγάλα

δεδομένα ή αδυνατούν να παράξουν αποτέλεσμα

Π.χ. Κανονική εξίσωση vs Gradient Descent στη γραμμική παλινδρόμηση

▪ Αφορά άμεσα τη σύγχρονη οικονομική επιστήμη

Page 21: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 22: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Έργα των πρωτοπόρων της Οικονομικής επιστήμης (e.g. David Ricardo, Adam Smith, Karl Marx, Thomas Robert Malthus, John Stuart Mill…)▪ Καθόλου έως ελάχιστα δεδομένα

▪ Δεδομένα χρησιμοποιούνται απλά ως επίδειξη (Malthus, Marx) ή ως εννοιολογικό μοντέλο κατανόησης (Εργοστάσιο πινέζας στον Adam Smith)

▪ Τα λίγα δεδομένα που εμφανίζονται με τη μορφή πινάκων δεν επεξεργάζονταν ποτέ στατιστικά (πέραν π.χ. μ.ο. στην παρίπτωση του Malthus ) και αναλύονται/συζητιούνται μόνο ποιοτικά

▪ Η έμφαση είναι στη θεωρία – τα δεδομένα είναι δευτερευούσης σημασίας: χρησιμοποιούνται για να συζητηθούν στα πλαίσια της θεωρίας που έχει ήδη διατυπωθεί.

Page 23: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Αλλαγή του ρόλου των δεδομένων στην Οικονομική Επιστήμη▪ Από τα μέσα-τέλη του 20ου αιώνα ο ρόλος των

δεδομένων αλλάζει▪ Γίνεται κυρίως εφικτό λόγω της αυξανόμενης χρήσης

μηχανογράφησης

▪ Τα δεδομένα αποκτούν ολοένα και μεγαλύτερο ρόλο στην Οικονομική Επιστήμη είτε για την επιβεβαίωση υπαρχόντων θεωριών είτε για την ενημέρωσή τους είτε για τη διατύπωση νέων.

▪ Εμφανίζεται η τάση μαθηματικοποίησης των ερευνητικών ερωτημάτων και γίνεται ολοένα μεγαλύτερη χρήση μαθηματικών μοντέλων και στατιστικών μεθόδων για την εξαγωγή χρήσιμων συμπερασμάτων από τα αυτά.

Page 24: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Αλλαγή του ρόλου των δεδομένων στην Οικονομική Επιστήμη ▪ Η αυξανόμενη αυτή τάση δίνει μια εμπειρική διάσταση

στα οικονομικά

▪ Η αυξητική αυτή τάση διαφαίνεται και στις δημοσιεύσεις σε σημαντικά ερευνητικά περιοδικά π.χ. [Hamermesh 2013] όπου αναλύθηκαν δημοσιεύσεις από το 1963-2011

Page 25: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Η αλλαγή αυτή ωστόσο έφερε και νέους προβληματισμούς

▪ Η πλειοψηφία των (συνόλων) δεδομένων που χρησιμοποιούνται στην έρευνα είναι διοικητικά δεδομένα που συλλέγονται μέσω surveys▪ Εγείρει ζητήματα αξιοπιστίας της πηγής

▪ Αυξητική τάση σε δημοσιεύσεις όπου τα δεδομένα στα οποία βασίστηκαν οι δημοσιεύσεις δεν είναι ανοικτά και διαθέσιμα στο κοινό

Έρευνα των [Einav and Levin 2014] που μελέτησε τις δημοσιεύσεις στο περιοδικό American Economic Review (AER)έδειξε ότι το 2006, στο 8% των δημοσιεύσεων του περιοδικού τα δεδομένα δεν ήταν δημόσια διαθέσιμα. Το 2016 το ποσοστό αυτών των δημοσιεύσεων ήταν 46% .

Page 26: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Η αλλαγή αυτή ωστόσο έφερε και νέους προβληματισμούς

▪ Αρκετά νωρίς τέθηκαν προβληματισμοί μεροληψίας ειδικά στα εμπειρικά οικονομικά [Learner, 1983]

▪ Έρευνα [Ioannidis et al, 2017] εξέτασε 159 μετα-αναλύσεις (64000 εκτιμήσεις παραμέτρων σε 6700 δημοσιευμένες εμπειρικές έρευνες) στα οικονομικά. Η μετανάλυση αυτή κατέδειξε ότι το 50% των δημοσιεύσεων κάνουν χρήση μικρών συνόλων δεδομένων που δεν μπορούν να εξηγήσουν το μέγεθος της επίδρασης (effect size) που αναφέρεται.▪ “Half of the research areas have nearly 90% of their results

under‐powered. The median statistical power is 18%, or less.” [Ioannidis et al 2017, Abstract]

Page 27: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 28: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Μεγάλα δεδομένα μπορούν να παίξουν σημαντικό ρόλο στην Οικονομική Πολιτική και Έρευνα στα Οικονομικά

Page 29: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Βελτίωση της παρακολούθησης, αξιολόγησης και πρόβλεψης οικονομικών δραστηριοτήτων

▪ Τόσο στη δημόσια όσο και ιδιωτική σφαίρα

Page 30: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Εμπλουτισμός υπαρχόντων μοντέλων με νέες μεταβλητές για την καλύτερη εξήγηση οικονομικών φαινομένων

Page 31: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πολύ μεγαλύτερο επίπεδο ανάλυσης/λεπτομέρειας από παραδοσιακά δεδομένα δημοσίων οργανισμών.

▪ Π.χ. MIT’s Billion Prices Project(http://www.thebillionpricesproject.com/ ) που συλλέγει σε πραγματικό χρόνο δεδομένα από το λιανικό εμπόριο (τιμές πώλησης προϊόντων) παγκόσμια και υποβάλλει τα δεδομένα αυτά σε ανάλυση π.χ. εκτίμηση πληθωρισμού.▪ Δεδομένα διαθέσιμα δημόσια.

▪ MasterCard SpendingPulse για την ανάλυση συμπεριφοράς (μεμονωμένων) καταναλωτών.

Page 32: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Νέοι τρόποι εκτίμησης proxy μεταβλητών – για τη βελτίωση υπαρχόντων μοντέλων.

▪ Π.χ. Η περίπτωση [Choi and Varian, 2012] όπου έγινε ανάλυση ερωτημάτων αναζήτησης (search queries), με τη χρήση Google Trends, προκειμένου να γίνει εκτίμηση μεταβλητών που σχετίζονται με επίδομα ανεργίας, πωλήσεις αυτοκινήτων κλπ

Page 33: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Βελτίωση των μεθόδων μέτρησης και εκτίμησης μεγεθών.

▪ Αποφεύγονται τα προβλήματα μικρού συνόλου δεδομένων και εκτιμούν με μεγαλύτερη ακρίβεια το μέγεθος επίδρασης (effect size).

Page 34: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Επιτρέπει την διεξαγωγή «πειραμάτων».

▪ Το γεγονός ότι τα δεδομένα προσέρχονται με μεγάλο ρυθμό κάθε δευτερόλεπτο ή ακόμη πιο σύντομα επιτρέπει την εκτίμησης της τάσης σε πραγματικό χρόνο, όχι σε ημέρες ή μήνες μετά – ειδικά σε online αγορές όπως eBay, Uber, AirBnb. ▪ Εμφανίζεται ο όρος “nowcasting” (η πρόβλεψη του παρόντος)

σε αντιδιαστολή με το “forecasting”

▪ Δίνει τη δυνατότητα άμεσης επέμβασης και “what-if” σενάρια.

▪ Π.χ. [Einav et al, 2016] όπου αναλύεται τέτοια δυνατότητα σε ηλεκτρονικές αγορές peer-to-peer.

Page 35: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Εισάγει αλγορίθμους εξόρυξης δεδομένων στη μεθοδολογία της Οικονομικής Έρευνας.▪ Η οικονομική επιστήμη είναι από τους λίγους χώρους

όπου οι αλγόριθμοι εξόρυξης δεδομένων δεν έχουν γίνει ευρέως αποδεκτοί.

▪ Π.χ. Αλγόριθμοι κατηγοριοποίησης όπως Naïve Bayes, Δέντρα Απόφασης που έχουν αποδειχθεί πολύτιμα εργαλεία σε άλλες περιοχές δεν έχουν βρει ακόμη τον ρόλο τους στα οικονομικά – προτιμάται π.χ. η λογιστική παλινδρόμηση.

▪ Αριθμητικές μέθοδοι εκτίμησης συντελεστών μοντέλων παλινδρόμησης με πολλές μεταβλητές (>100) δεν χρησιμοποιούνται

▪ Νευρωνικά δίκτυα

▪ Apriori για την ανάλυση συσχετίσεων

Page 36: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Εισάγει αλγορίθμους εξόρυξης δεδομένων στη μεθοδολογία της Οικονομικής Έρευνας.

▪ Η χρήση μεγάλων δεδομένων θα κάνει απαραίτητη τη χρήση τέτοιων αλγορίθμων και να συγκριθούν/αξιολογηθούν με υπάρχουσες τεχνικές.

Page 37: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Διαχωρισμός «σήματος» από «θόρυβο»

▪ Πολύ δύσκολος στα Μεγάλα Δεδομένα – δεν είναι πάντα εύκολο να βρεθούν συσχετίσεις μεταξύ των μεταβλητών – μπορεί να μην υπάρχουν.

Page 38: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ “Big Data Hubris”

▪ η υπόθεση οτι μεγάλα δεδομένα μπορούν να αντικαταστήσουν, όχι να επαυξήσουν, παραδοσιακές μεθόδους συλλογής και ανάλυσης δεδομένων.

▪ Π.χ. (παταγώδης) Αποτυχία Google Flu 2013▪ Επιχειρήθηκε η πρόβλεψη του ποσοστού πληθυσμού που θα

νοσήσουν από τη γρίπη βασισμένοι μόνο στο τί αναζητούν οι χρήστες στο Google (Google Flu Trends) – πριν από τις επίσημες προβλέψεις του CDC. Βασική ιδέα δημοσιεύτηκε στο Nature [Ginsberg et. Al 2009]. Το 2013 GFT υπερεκτίμησε το ποσοστό που θα νοσήσουν από γρίπη κατά 140%.

Page 39: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ ...και άλλα όπως ζητήματα ιδιωτικότητας και ασφάλειας

Page 40: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 41: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Πως θα συλλεχθούν τα κατάλληλα δεδομένα;

▪ Πολλά μεγάλα δεδομένα δεν είναι (ακόμη) δημόσια.

▪ Ζητήματα προσπέλασης σε αυτά.

Page 42: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Αδόμητη φύση των δεδομένων

▪ Εγείρει πολλά οικονομετρικά ζητήματα για την αξιολόγηση των πολλών μεταβλητών και τη μελέτη των εξαρτήσεών τους.

Page 43: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Νέες δεξιότητες για οικονομολόγους

▪ Τα Μεγάλα Δεδομένα είναι άρρηκτα συνδεδεμένα με τις τεχνολογίες για τη διαχείρισή τους.

▪ Οι οικονομολογόι θα πρέπει να αποκτήσουν δεξιότητες ώστε να μπορούν να επεξεργάζονται τέτοια δεδομένα με μηχανές (aka υπολογιστές).▪ Είναι πιο εύκολο να μάθεις σε οικονομολόγο λίγο

προγραμματισμό παρά σε προγραμματιστή λίγα οικονομικά.

Τα νέα διαθέσιμα εργαλεία ενθαρρύνουν τέτοια προσέγγιση π.χ. Python, R.

Page 44: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

▪ Μεγάλα Δεδομένα κεντρική πτυχή του μεταπτυχιακού του ΤΟΕ

▪ Η έμφαση είναι στη χρήση εργαλείων, στην αξιολόγηση και χρήση των κατάλληληλων μεθόδων για την ανάλυση μεγάλων δεδομένων.

▪ http://postgrad.econ.upatras.gr

Page 45: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Manolis Tzagarakis

Assistant Professor

Department of Economics

University of Patras

[email protected]

blogs.upatras.gr/tzagara

Facebook: tzagara

Google: tzagarakis

QuakeLive:DeusEx

Steam: xmachina

Page 46: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι

Hamermesh, D. S.: Six decades of top economics publishing: Who and how? J. Econ. Lit. 51, 162–172 (2013). 10.1257/jel.51.1.162doi:10.1257/jel.51.1.162

Einav, L. and Levin, J.: Economics in the age of big data, Science, 346, 2014, DOI 10.1126/science.1243089

Ioannidis, J. P., Stanley, T. D., Doucouliagos, H.: The Power of Bias in Economic Research, The Economic Journal, Volume 127, Issue 605, October 2017, Pages F236–F265, https://doi.org/10.1111/ecoj.12461

Leamer, E.E. (1983). ‘Let's take the con out of econometrics’, The American Economic Review, vol. 73(1), pp. 31–43.

Choi, H and Varian, H.: Predicting the Present with Google Trends, Economic Record, Vol 88, issue s1, 2012

Einav, L., Farronato, C. and Levin, J.: Peer-to-Peer Markets, Annual Review of Economics, 2016

Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., Brilliant, L.: Detecting influenza epidemics using search engine query data, Nature volume 457, pages 1012–1014 (19 February 2009)

Page 47: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 48: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι
Page 49: ManolisTzagarakis Assistant Professor Department of ...postgrad.econ.upatras.gr/sites/default/files/... · Apache HBase Πς θα ... αγορς όπς eBay, Uber, AirBnb. μανζεαι