Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data...

43
Διασυνδεδεμένα Ανοικτά Δεδομένα (Linked Open Data –LOD) Μ.Στεφανιδάκης 26-3-2013 .

Transcript of Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data...

Page 1: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Διασυνδεδεμένα Ανοικτά Δεδομένα(Linked Open Data –LOD)

Μ.Στεφανιδάκης

26-3-2013

..

Page 2: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Εισαγωγή στα Σημασιολογικά Δεδομένα

Το βασικό μοντέλο οργάνωσης των ΣημασιολογικώνΔεδομένων

Από τον Σημασιολογικό Ιστό στα ΔιασυνδεδεμέναΔεδομένα

Χρησιμοποιώντας Διασυνδεδεμένα Ανοικτά Δεδομένα

Ανοικτά Θέματα και Έρευνα

Page 3: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Η αρχή: Το όραμα του Σημασιολογικού Ιστού

Tim Berners-Lee, James Hendler and Ora Lassila, “TheSemantic Web”, Scientific American, May 2001, p.29-37.

...The Semantic Web will bring structure to the meaningfulcontent of Web pages, creating an environment wheresoftware agents roaming from page to page can readilycarry out sophisticated tasks for users...

...the effectiveness of such software agents will increaseexponentially as more machine-readable Web contentand automated services become available...

...this structure will open up the knowledge and workingsof humankind to meaningful analysis by software agents,providing a new class of tools by which we can live, workand learn together.

Page 4: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Σημασιολογία –“semantics”

I Τι σημαίνουν τα δεδομένα;I Ποια η έννοιά τους;

I Μετάδοση έννοιας και ενσωμάτωση στη γνώση..I ..έχοντας ως αποτέλεσμα την κατάλληλη δράση!

I Πώς θα γίνει αντιληπτή από τις “μηχανές”;I Ώς άνθρωποι, χρησιμοποιούμε εύκολα την έμμεσησημασιολογία

Page 5: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Έμμεση Σημασιολογία

Παράδειγμα: ονόματα συναρτήσεων ή μεταβλητώνquicksort :: (Ord a) => [a] -> [a]quicksort [] = []quicksort (x:xs) =let smallerOrEqual = [t|t<-xs,t<=x]

greater = [t|t<-xs,t>x]in quicksort smallerOrEqual ++ [x] ++ quicksort greater

I Τι καταλαβαίνετε;I Ανεξάρτητα από το αν γνωρίζετε τη γλώσσα!I Τα σχόλια θα βοηθούσαν περαιτέρω στη μεταφοράσημασιολογίας..

I Τι μπορεί όμως να καταλάβει η “μηχανή”;

Page 6: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Ιστοσελίδα και μηχανήTι “αντιλαμβάνεται” η μηχανή:<!doctype html><html><head>

<meta charset="utf-8"><title>????????????????</title>

</head>

<body><h1>??????????????????</h1>????????????????????????????????????????????

</body></html>

I Προσοχή όμως: αν και δεν “αντιλαμβάνεται” τονόημα του περιεχομένου του τίτλου, η μηχανήξέρει την έννοια “τίτλος”!

I π.χ. έχει ιδιαίτερο βάρος στις μηχανές αναζήτησης

Page 7: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Κλασσικά Web Δεδομένα

I Στο κλασσικό Web, τα δεδομένα είναι “εσωτερικήυπόθεση” του παραγωγού τους

I Αποθηκευμένα σε βάσεις δεδομένωναπροσπέλαστες από τρίτους (“data silos”)

I Μετασχηματίζονται από τον ίδιο τον παραγωγό σειστοσελίδες

I Ή χρησιμοποιούνται από web εφαρμογές που έχειγράψει ο ίδιος ο παραγωγός

I Δεν χρειάζεται μετάδοση της σημασιολογίας τωνδεδομένων (είναι γνωστή εκ των προτέρων!)

Page 8: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Κλασσικά Web Δεδομένα (2)

I Μπορούν όμως τα κλασσικά Web δεδομένα ναχρησιμοποιηθούν από τρίτους;

I Σε εφαρμογές που δεν γνωρίζει ο παραγωγός τωνδεδομένων;

I Από εφαρμογές που δεν σχεδιάστηκαν ειδικά για ταδεδομένα αυτά;

I Αυτός είναι ο στόχος των ΣημασιολογικώνΔεδομένων

Page 9: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Σημασιολογικά Δεδομένα στο Web

I Πριν από κάθε άλλο, θα πρέπει φυσικάI τα δεδομένα να είναι απευθείας προσπελάσιμα στοWeb

I σε μια μορφή εύκολα επεξεργάσιμη από τις μηχανέςI Το κυριότερο όμως είναι να είναι ρητά δηλωμένηκαι προσπελάσιμη και η σημασιολογία τωνδεδομένων

I Μόνο τότε θα μπορούν να χρησιμοποιηθούν απόεφαρμογές που προσαρμόζουν τη συμπεριφορά τουςανάλογα με το τι σημαίνουν τα δεδομένα

I εκτελώντας ενέργειες πάνω σε σετ δεδομένων γιατα οποία δεν σχεδιάστηκαν εξ'αρχής

Page 10: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Σημασιολογία και Μεταδεδομένα

I Μεταδεδομένα:I “δεδομένα για/σχετικά με/που αφορούν ταδεδομένα”

I Είναι ακριβώς εκείνα που μεταδίδουν τησημασιολογία των κανονικών δεδομένων

I Στις εφαρμογές του Σημασιολογικού ΙστούI Τα μεταδεδομένα μεταδίδονται ρητά μαζί με ταδεδομένα

I Έχουν την ίδια αξία και είναι το ίδιο απαραίτητα μετα δεδομένα

Page 11: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Εισαγωγή στα Σημασιολογικά Δεδομένα

Το βασικό μοντέλο οργάνωσης των ΣημασιολογικώνΔεδομένων

Από τον Σημασιολογικό Ιστό στα ΔιασυνδεδεμέναΔεδομένα

Χρησιμοποιώντας Διασυνδεδεμένα Ανοικτά Δεδομένα

Ανοικτά Θέματα και Έρευνα

Page 12: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Ποιο το κατάλληλο μοντέλο δεδομένων;

I Τα σημασιολογικά δεδομένα εκτίθενται ώς έχουν(raw)

I Ποιο είναι το κατάλληλο μοντέλο οργάνωσης;I Και πώς θα εμπεριέχονται και τα μεταδεδομένα;

I Ας ξεκινήσουμε με ένα απλό μοντέλο: δεδομένα σεμορφή πίνακα

I Η σημασιολογία των δεδομένων προκύπτει έμμεσααπό τη θέση τους (γραμμή-στήλη)

Τύπος ΑριθμόςΛεωφορεία 58.519ΙΧ 2.062.880Οδοποιητικά 7.642Εκχιονιστικά 6Ποδήλατα 8.540.192

Page 13: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Η έμμεση σημασιολογία του πίνακα

I Κάθε γραμμή αντιστοιχεί σε μία βασική οντότητα(entity) δεδομένων

I Έμμεση πληροφορίαI Κάθε στήλη αντιστοιχεί σε μια ιδιότητα (attribute)

I Ρητή πληροφορία, αν υπάρχει περιγραφή στηλών

Τύπος ..ΑριθμόςΛεωφορεία 58.519ΙΧ 2.062.880Οδοποιητικά 7.642

..Εκχιονιστικά 6Ποδήλατα 8.540.192

..

Οντότηταi

..

Ιδιότηταj

Page 14: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Προσθήκη ρητού αναγνωριστικού (id)

I Οικείο σχήμα από τις σχεσιακές βάσεις...I Κάθε βασική οντότητα διαθέτει μοναδικόαναγνωριστικό

id Τύπος Αριθμός1 Λεωφορεία 58.5192 ΙΧ 2.062.8803 Οδοποιητικά 7.6424 Εκχιονιστικά 65 Ποδήλατα 8.540.192

Page 15: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Έμμεσος Διαχωρισμός Αναγνωριστικών

Γιατί δεν συμπεραίνουμε ότι ο Σμόλικας έχει μέτριατοξικότητα;

Πίνακας 1: http://ex.com/mountainsid Peak Height(m) Mountain range1 Olympus 2917 Olympus2 Smolikas 2637 Pindus3 Kaimaktsalan 2524 Voras

Πίνακας 2: http://ex.com/plantsid Duration Flower Color Toxicity... ... ... ...2 Perennial Green Moderate... ... ... ...

Page 16: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Έμμεσος Διαχωρισμός Αναγνωριστικών

Έμμεσα αναγνωρίζουμε ότι:Πίνακας 1: http://ex.com/mountains

id Peak Height(m) Mountain rangehttp://ex.com/mountains#1 Olympus 2917 Olympushttp://ex.com/mountains#2 Smolikas 2637 Pindushttp://ex.com/mountains#3 Kaimaktsalan 2524 Voras

Πίνακας 2: http://ex.com/plantsid Duration Flower Color Toxicity... ... ... ...

http://ex.com/plants#2 Perennial Green Moderate... ... ... ...

Page 17: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Ρητά Αναγνωριστικά

I Απαραίτητα για τη διασύνδεση οντοτήτων!

id Label Model... ... ...

http://my.com/33 My Crane ..http://ex.com/38rb... ... ...

id Engine Weight(kg) Tracks(mm) Boom(m)... ... ... ... .....http://ex.com/38rb V8 60000 850 18... ... ... ... ....

Page 18: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Το μετα-μοντέλο EAV

I Η τελευταία μεταμόρφωση: το μοντέλοEntity-Attribute-Value

I Μορφή τριάδας (triple): (Οντότητα, Ιδιότητα, Τιμή)I Όλα τα μεταδεδομένα δηλώνονται ρητάI Ο “εφιάλτης” του σχεσιακού μοντέλου!!!

Entity Attribute Valuehttp://ex.com/38rb Engine V8http://ex.com/38rb Weight(kg) 60000http://ex.com/38rb Tracks(mm) 850http://ex.com/38rb Boom(m) 18

Page 19: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Εισαγωγή στα Σημασιολογικά Δεδομένα

Το βασικό μοντέλο οργάνωσης των ΣημασιολογικώνΔεδομένων

Από τον Σημασιολογικό Ιστό στα ΔιασυνδεδεμέναΔεδομένα

Χρησιμοποιώντας Διασυνδεδεμένα Ανοικτά Δεδομένα

Ανοικτά Θέματα και Έρευνα

Page 20: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Τα επίπεδα του Σημασιολογικού Ιστού

I Η αρχική ιδέα για τη δομή του ΣημασιολογικούΙστού

I Ανάπτυξη πρακτικών προτύπων (κατώτεραεπίπεδα)

I Για την υλοποίηση των μηχανισμών του “Web ofData”

I Ακαδημαϊκή έρευνα (ανώτερα επίπεδα)I Συνδυασμός ιδεών Μαθηματικής Λογικής καιΒάσεων Γνώσης

Page 21: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Μια (εκ των υστέρων) κριτική ματιάI Η πορεία υλοποίησης του Σημασιολογικού Ιστούχωρίστηκε σε δύο κατευθύνσεις:

I Πρακτικές δράσεις ανάπτυξης τεχνικώνοργάνωσης, αποθήκευσης και αναζήτησης τωνσημασιολογικών δεδομένων

I Το αποτέλεσμα ήταν οι πρότυπες τεχνολογίες καιένα σύνολο καλών πρακτικών για την οργάνωσητων σημασιολογικών δεδομένων, με τη μορφή τωνΔιασυνδεδεμένων Δεδομένων (Linked Data)

I Ακαδημαϊκή έρευνα στους τομείς της ΜαθηματικήςΛογικής και των Βάσεων Γνώσης

I Βασικές έννοιες οι οντολογίες και ο αυτόματοςσυμπερασμός (reasoning)

I Μικρό βάρος στη δυνατότητα πρακτικήςυλοποίησης

I Σήμερα, μικρό μέρος των εννοιών αυτώνχρησιμοποιείται και μάλλον με ad-hoc τρόπο

Page 22: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Διασυνδεδεμένα Δεδομένα (Linked Data)Οι αρχικές “4 Εντολές” (Tim Berners-Lee, 2006):1. Χρησιμοποιήστε URIs για να αναγνωρίσετε

οντότητεςI Εξασφαλίζοντας τη μοναδικότητα τωναναγνωριστικών

2. Χρησιμοποιήστε HTTP URIs (δηλαδή URLs)I Για να μπορούν οι άλλοι να προσπελάσουν τηνπληροφορία σας

3. Στην προσπέλαση, απαντήστε με χρήσιμηπληροφορία σε πρότυπη μορφή (RDF*,SPARQL)

I Δώστε δυνατότητα στις μηχανές να ρωτήσουν καινα καταλάβουν την απάντηση

4. Διασυνδέστε τα αναγνωριστικά σας URI με άλλα,τρίτων

I Έτσι ώστε αυτός που ρωτάει να βρεί και άλλεςσυμπληρωματικές πηγές πληροφόρησης

Page 23: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Uniform Resource Identifiers (URIs)I Υπερσύνολο των διευθύνσεων στο Web (URLs)

I Υπάρχουν URIs που δεν αρχίζουν με http://..!I urn:uuid:f81d4fae-7dec-11d0-a765-00a0c91e6bf6I urn:nbn:de:eki/ZDB2071735

I Αλλά μόνο τα HTTP URIs προσφέρουν μια διεύθυνσηαναζήτησης πληροφορίας!

I Τα HTTP URIs λύνουν επίσης το πρόβλημα τηςμοναδικότητας:

I Το domain name μέρος της διεύθυνσης έχει ήδηανατεθεί μονοσήμαντα

I στον οργανισμό ή επιχείρηση όπου εργαζόμαστεI στους servers του οποίου θα αναρτήσουμε τησημασιολογική πληροφορία

I Προσοχή: το URI δεν είναι η οντότητα αλλάαναφέρεται στην οντότητα

I Η οντότητα μπορεί να είναι οτιδήποτε: άνθρωπος,πράγμα, έννοια, συναίσθημα, κλπ

Page 24: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Αποσαφήνιση: Αναφορές URI (URIrefs)

...

ο Όλυμπος (η φυσική

οντότητα, όχι η φωτό!)

.

http://dbpedia.org/resource/Mount_Olympus

.

(URIref)

. data

document.

(σε μορφή

αναγνώσιμη από

τον άνθρωπο και

τη μηχανή)

.

αναφέρεται σε

.

προσπέλαση

.πληροφορία για

Page 25: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Resource Description Framework (RDF)

I Ένα πρότυπο για την περιγραφή της οργάνωσηςτων δεδομένων (data model)

I Χρήση τριάδων για την περιγραφή γράφωνδεδομένων

I Subject – Predicate – Object ή απλά (s,p,o)I πολύ κοντά στην απλή φυσική μορφή “υποκείμενο –ρήμα – αντικείμενο”

..s.URIref

blank node

. o.URIref

blank nodeliteral

. p

Page 26: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Resource Description Framework (RDF) (2)

I Subject: Κόμβος του γράφου, είναιI Είτε ένα URII Είτε blank node: κόμβος “χωρίς όνομα”,συμβολίζεται με _: και ακολουθεί μια εσωτερικήαρίθμηση της βάσης αποθήκευσης

I Predicate: η ετικέτα της ακμής μεταξύ κόμβων,πάντα ένα URI

I Object: Κόμβος του γράφου, είναιI Είτε ένα URII Είτε blank nodeI Είτε μια ρητή τιμή (literal) με προαιρετικό τύποδεδομένων ή γλώσσα, π.χ. "137554788", "LodovicoGiustini"@it ή "1685"ˆˆxsd:gYear

I Οι κόμβοι διασυνδέονται μεταξύ τους μέσω τωνpredicates, σχηματίζοντας έναν γράφο δεδομένων

Page 27: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Λεξιλόγια Κατηγορημάτων (Vocabularies)

I Η θεωρητική αντίληψη για την τριάδα (s,p,o):I “οτιδήποτε” – “οτιδήποτε” – “οτιδήποτε”

I H πρακτική αντίληψη των ΔιασυνδεδεμένωνΔεδομένων:

I “οτιδήποτε” – “μια σταλιά συναίνεση” –“οτιδήποτε”

I Η συναίνεση εξασφαλίζεται με τη χρήσηκαθιερωμένων λεξιλογίων στη θέση τουκατηγορήματος

I Δείτε π.χ. στοhttp://lov.okfn.org/dataset/lov/index.html

I Κανείς δεν σας εμποδίζει όμως να εφεύρετε το δικόσας λεξιλόγιο!

Page 28: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Διάσημα Κατηγορήματα από διάσημα Λεξιλόγια

I rdf:type, τύπος ενός κόμβου RDF (RDF)<http://dbpedia.org/resource/Lodovico_Giustini>

<http://www.w3.org/1999/02/22-rdf-syntax-ns#type><http://dbpedia.org/class/yago/ItalianComposers> .

I rdfs:label, περιγραφή ενός κόμβου RDF (RDFSchema)<http://dbpedia.org/resource/Lodovico_Giustini>

<http://www.w3.org/2000/01/rdf-schema#label>"Lodovico Giustini"@de .

I owl:sameAs, ταυτοσημία κόμβων (OWL),“ακρογωνιαίος λίθος” των ΔιασυνδεδεμένωνΔεδομένων<http://dbpedia.org/resource/Lodovico_Giustini>

<http://www.w3.org/2002/07/owl#sameAs><http://rdf.freebase.com/ns/m.08v_23> .

Page 29: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Διασυνδεδεμένα Ανοικτά Δεδομένα (LinkedOpen Data)

Οι νέες “5 Εντολές” (Tim Berners-Lee, 2010):I...... Διαθέστε τα δεδομένα σας στο Web, σεοποιαδήποτε μορφή, με ανοικτή άδεια

I...... Διαθέστε τα δεδομένα σας σε δομημένημορφή, έστω και με κλειστό πρότυπο

I...... Χρησιμοποιήστε ανοικτά πρότυπαI...... Χρησιμοποιήστε HTTP URIs, για ναμπορούν οι άλλοι να αναφερθούν στα δεδομένα σας

I...... Διασυνδέστε τα δεδομένα σας με άλλα,τρίτων

Page 30: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Σχετικά με τα Ανοικτά Δεδομένα

I Χρησιμοποιούνται πρωταρχικά από τον δημόσιοτομέα και τις κυβερνητικές οργανώσεις

I Για να προάγουν τη διαφάνεια, την ηλεκτρονικήδιακυβέρνηση, τη συμμετοχή των πολιτών

I Προσοχή: τα Ανοικτά Δεδομένα δεν είναι πάντοτεΔιασυνδεδεμένα...

I Τι συμβαίνει με τις επιχειρήσεις;I Προς το παρόν υποστηρίζουν τα Ανοικτά ΔεδομέναI Κυρίως για τη βελτίωση των αποτελεσμάτων τουςστις μηχανές αναζήτησης (SEO)

I Αλλά επίσης για την καθιέρωση στον τομέα τους(brand name)

Page 31: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Εισαγωγή στα Σημασιολογικά Δεδομένα

Το βασικό μοντέλο οργάνωσης των ΣημασιολογικώνΔεδομένων

Από τον Σημασιολογικό Ιστό στα ΔιασυνδεδεμέναΔεδομένα

Χρησιμοποιώντας Διασυνδεδεμένα Ανοικτά Δεδομένα

Ανοικτά Θέματα και Έρευνα

Page 32: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Κατανάλωση Διασυνδεδεμένων ΑνοικτώνΔεδομένων

I Πώς θα ενημερωθούμε για τα σετ δεδομένων πουυπάρχουν;

I Υπάρχουν ειδικά sites για τον σκοπό αυτόνI Όπως και πασίγνωστα σετ δεδομένων, όπως π.χ. ηDBpedia (το περιεχόμενο της Wikipediaεπεξεργασμένο σε μορφή RDF)

I Πώς θα εξάγουμε την επιθυμητή πληροφορία;I Διαδοχική Προσπέλαση URIrefs (crawling)I Ερωτήσεις σε SPARQL endpointsI Κατέβασμα και επεξεργασία data dumps (offlineεπεξεργασία μόνο!)

Page 33: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

LOD cloudLinking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

As of September 2011

MusicBrainz

(zitgist)

P20

Turismo de

Zaragoza

yovisto

Yahoo! Geo

Planet

YAGO

World Fact-book

El ViajeroTourism

WordNet (W3C)

WordNet (VUA)

VIVO UF

VIVO Indiana

VIVO Cornell

VIAF

URIBurner

Sussex Reading

Lists

Plymouth Reading

Lists

UniRef

UniProt

UMBEL

UK Post-codes

legislationdata.gov.uk

Uberblic

UB Mann-heim

TWC LOGD

Twarql

transportdata.gov.

uk

Traffic Scotland

theses.fr

Thesau-rus W

totl.net

Tele-graphis

TCMGeneDIT

TaxonConcept

Open Library (Talis)

tags2con delicious

t4gminfo

Swedish Open

Cultural Heritage

Surge Radio

Sudoc

STW

RAMEAU SH

statisticsdata.gov.

uk

St. Andrews Resource

Lists

ECS South-ampton EPrints

SSW Thesaur

us

SmartLink

Slideshare2RDF

semanticweb.org

SemanticTweet

Semantic XBRL

SWDog Food

Source Code Ecosystem Linked Data

US SEC (rdfabout)

Sears

Scotland Geo-

graphy

ScotlandPupils &Exams

Scholaro-meter

WordNet (RKB

Explorer)

Wiki

UN/LOCODE

Ulm

ECS (RKB

Explorer)

Roma

RISKS

RESEX

RAE2001

Pisa

OS

OAI

NSF

New-castle

LAASKISTI

JISC

IRIT

IEEE

IBM

Eurécom

ERA

ePrints dotAC

DEPLOY

DBLP (RKB

Explorer)

Crime Reports

UK

Course-ware

CORDIS (RKB

Explorer)CiteSeer

Budapest

ACM

riese

Revyu

researchdata.gov.

ukRen. Energy Genera-

tors

referencedata.gov.

uk

Recht-spraak.

nl

RDFohloh

Last.FM (rdfize)

RDF Book

Mashup

Rådata nå!

PSH

Product Types

Ontology

ProductDB

PBAC

Poké-pédia

patentsdata.go

v.uk

OxPoints

Ord-nance Survey

Openly Local

Open Library

OpenCyc

Open Corpo-rates

OpenCalais

OpenEI

Open Election

Data Project

OpenData

Thesau-rus

Ontos News Portal

OGOLOD

JanusAMP

Ocean Drilling Codices

New York

Times

NVD

ntnusc

NTU Resource

Lists

Norwe-gian

MeSH

NDL subjects

ndlna

myExperi-ment

Italian Museums

medu-cator

MARC Codes List

Man-chester Reading

Lists

Lotico

Weather Stations

London Gazette

LOIUS

Linked Open Colors

lobidResources

lobidOrgani-sations

LEM

LinkedMDB

LinkedLCCN

LinkedGeoData

LinkedCT

LinkedUser

FeedbackLOV

Linked Open

Numbers

LODE

Eurostat (OntologyCentral)

Linked EDGAR

(OntologyCentral)

Linked Crunch-

base

lingvoj

Lichfield Spen-ding

LIBRIS

Lexvo

LCSH

DBLP (L3S)

Linked Sensor Data (Kno.e.sis)

Klapp-stuhl-club

Good-win

Family

National Radio-activity

JP

Jamendo (DBtune)

Italian public

schools

ISTAT Immi-gration

iServe

IdRef Sudoc

NSZL Catalog

Hellenic PD

Hellenic FBD

PiedmontAccomo-dations

GovTrack

GovWILD

GoogleArt

wrapper

gnoss

GESIS

GeoWordNet

GeoSpecies

GeoNames

GeoLinkedData

GEMET

GTAA

STITCH

SIDER

Project Guten-berg

MediCare

Euro-stat

(FUB)

EURES

DrugBank

Disea-some

DBLP (FU

Berlin)

DailyMed

CORDIS(FUB)

Freebase

flickr wrappr

Fishes of Texas

Finnish Munici-palities

ChEMBL

FanHubz

EventMedia

EUTC Produc-

tions

Eurostat

Europeana

EUNIS

EU Insti-

tutions

ESD stan-dards

EARTh

Enipedia

Popula-tion (En-AKTing)

NHS(En-

AKTing) Mortality(En-

AKTing)

Energy (En-

AKTing)

Crime(En-

AKTing)

CO2 Emission

(En-AKTing)

EEA

SISVU

education.data.g

ov.uk

ECS South-ampton

ECCO-TCP

GND

Didactalia

DDC Deutsche Bio-

graphie

datadcs

MusicBrainz

(DBTune)

Magna-tune

John Peel

(DBTune)

Classical (DB

Tune)

AudioScrobbler (DBTune)

Last.FM artists

(DBTune)

DBTropes

Portu-guese

DBpedia

dbpedia lite

Greek DBpedia

DBpedia

data-open-ac-uk

SMCJournals

Pokedex

Airports

NASA (Data Incu-bator)

MusicBrainz(Data

Incubator)

Moseley Folk

Metoffice Weather Forecasts

Discogs (Data

Incubator)

Climbing

data.gov.uk intervals

Data Gov.ie

databnf.fr

Cornetto

reegle

Chronic-ling

America

Chem2Bio2RDF

Calames

businessdata.gov.

uk

Bricklink

Brazilian Poli-

ticians

BNB

UniSTS

UniPathway

UniParc

Taxonomy

UniProt(Bio2RDF)

SGD

Reactome

PubMedPub

Chem

PRO-SITE

ProDom

Pfam

PDB

OMIMMGI

KEGG Reaction

KEGG Pathway

KEGG Glycan

KEGG Enzyme

KEGG Drug

KEGG Com-pound

InterPro

HomoloGene

HGNC

Gene Ontology

GeneID

Affy-metrix

bible ontology

BibBase

FTS

BBC Wildlife Finder

BBC Program

mes BBC Music

Alpine Ski

Austria

LOCAH

Amster-dam

Museum

AGROVOC

AEMET

US Census (rdfabout)

Media

Geographic

Publications

Government

Cross-domain

Life sciences

User-generated content

Page 34: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

The Data Hubhttp://datahub.io/

Page 35: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

SPARQL

I Πρότυπη γλώσσα για ερωτήσεις σε σετ δεδομένωνσε μορφή RDF

I Οι ερωτήσεις έχουν τη μορφή τριάδων πουσυγκροτούν ένα βασικό σχέδιο γράφου

I Στις τριάδες αυτές κάποια μέρη (s,p ή o) έχουνσυγκεκριμένες τιμές

I Ενώ άλλα μέρη αποτελούνται από αδέσμευτεςμεταβλητές

I Ο γράφος της ερώτησης ταιριάζει πάνω στον RDFγράφο των δεδομένων

I Προκαλώντας την ανάθεση (πιθανώς πολλαπλών)τιμών στις μεταβλητές

I Οι τιμές αυτές επιστρέφονται ως απαντήσειςI Η SPARQL απαντάται στην έκδοση 1.0 και στηνεώτερη 1.1, με πολλά πρόσθετα χαρακτηριστικά

Page 36: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Παράδειγμα SPARQL (1)

http://dbtune.org/classical/snorql

I Ταυτόσημοι με τον συνθέτη Lodovico GiustiniSELECT ?o WHERE<http://dbtune.org/classical/resource/composer/giustini_lodovico>

owl:sameAs ?o .

(δες)I Πότε γεννήθηκε ο Lodovico Giustini;

SELECT ?x WHERE<http://dbtune.org/classical/resource/composer/giustini_lodovico>

<http://dbtune.org/classical/resource/vocab/birth> ?b .?b <http://purl.org/dc/elements/1.1/date> ?x .

(δες)

Page 37: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Παράδειγμα SPARQL (2)http://dbtune.org/classical/snorql

I Ποιοι γεννήθηκαν το 1685;SELECT ?x WHERE?x <http://dbtune.org/classical/resource/vocab/birth> ?b .?b <http://purl.org/dc/elements/1.1/date> "1685"^^xsd:gYear .

(δες)I Ποιος συνθέτης δεν επηρεάστηκε από άλλους;

SELECT ?o WHERE?o a classical:Composer.OPTIONAL

?s sim:method simmethods:cmn-influence ;sim:object ?o;sim:subject ?i .

FILTER (!bound(?i))LIMIT 10

(δες)

Page 38: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Παράδειγμα SPARQL 1.1http://publicspending.medialab.ntua.gr/endpoint

select ?name (?amount) as ?totalDebt(sum(xsd:decimal(?am)) as ?totalPayments)from <http://publicspending.medialab.ntua.gr/Decisions>

where?payment psgr:payee ?agent ; psgr:paymentAmount ?am .?agent psgr:publicDebt ?debt ; psgr:validName ?name .?debt psgr:debtAmount ?amount .ORDER BY DESC(?totalPayments)

..?payment. ?agent

.

.

?am

.

?debt.

.

?amount

.. ?name. psgr:payee.

psgr:paymentAmount

.

psgr:publicDebt

.

psgr:debtAmount

. psgr:validName

Page 39: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Εισαγωγή στα Σημασιολογικά Δεδομένα

Το βασικό μοντέλο οργάνωσης των ΣημασιολογικώνΔεδομένων

Από τον Σημασιολογικό Ιστό στα ΔιασυνδεδεμέναΔεδομένα

Χρησιμοποιώντας Διασυνδεδεμένα Ανοικτά Δεδομένα

Ανοικτά Θέματα και Έρευνα

Page 40: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Δεδομένα από πολλαπλές πηγές

I Όταν συνδυάζονται Διασυνδεδεμένα ΑνοικτάΔεδομένα από πολλές πηγές

I Πόσο εμπιστευόμαστε την συνολική απάντηση;I Πώς εκφράζεται η αβεβαιότητα της απάντησης;I Πώς συνυπολογίζεται η ποιότητα των δεδομένων;I Τι πρέπει να γίνει σε περίπτωση αντικρουόμενωνδεδομένων;

I Τι αξία έχουν τα δεδομένα που παλαιώνουν;I Και ποιός θα τα κρίνει όλα αυτά; Ο τελικόςχρήστης;

I Απαιτούνται μηχανισμοί για τη μεταφορά τωνσυμφραζομένων των ερωτήσεων και τηβαθμονόμηση των διαφορετικών απαντήσεων πουπροκύπτουν!

Page 41: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Το χάσμα μεταξύ χρήστη και LOD

I Τα Διασυνδεδεμένα Ανοικτά Δεδομένα είναι έναςσυνεκτικός χώρος

I Αρκεί να ξέρουμε τι να ρωτήσουμε, για να λάβουμετις σωστές απαντήσεις

I (κάτι που ονομάζεται και “crisp reasoning”)I Όμως...

I Πώς θα ανακαλύψουμε τα URIs (s,p ή o) για ταοποία ενδιαφερόμαστε;

I Ξεκινώντας από περιγραφές π.χ. σε φυσική γλώσσα;I Και πώς θα χειριστούμε το ranking πουαναπόφευκτα προκύπτει;

I Είναι πλέον επιτακτική η ανάγκη της εφαρμογήςμεθόδων μηχανικής μάθησης σε συνδυασμό με τιςυπάρχουσες τεχνικές των ΔιασυνδεδεμένωνΑνοικτών Δεδομένων!

Page 42: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Αύξηση του βαθμού διασύνδεσηςI Ο βαθμός διασύνδεσης προσδίδει πρόσθετη αξίαστα Διασυνδεδεμένα Ανοικτά Δεδομένα

I Η διασύνδεση σήμερα είναι μονόδρομη: δεν υπάρχειτρόπος να μάθετε ότι κάποιος αναφέρεται σε έναURI σας!

I Η ειδοποίηση αναφοράς από τρίτους ισοδυναμεί μετην εγκαθίδρυση ανάστροφης διασύνδεσης(backlink)

I Η διασύνδεση γίνεται πλέον αμφίδρομη!I Για την ενημέρωση των backlinks απαιτείται έναπλαίσιο εφαρμογής που επιτρέπει τηναυτοματοποιημένη αποστολή και λήψηειδοποιήσεων κατά τη δημιουργία αναφορών σεξένα URIs

I μια λύση παρουσιάζεται στοhttp://swrg.ionio.gr

Page 43: Διασυνδεδεμένα Ανοικτά Δεδομένα - (Linked Open Data –LOD)mixstef.github.io/courses/semweb/lod-presentation.pdfiServe IdRef Sudoc NSZL Catalog Hellenic

Νέες Εφαρμογές

I Τα Διασυνδεδεμένα Ανοικτά Δεδομένα επιτρέπουντην ανάπτυξη έξυπνων εφαρμογών

I Δυναμικά προσαρμοζόμενες στα δεδομέναI Σε μορφή mashups, ιδίως σε σχέση με ταγεωγραφικά ανοικτά δεδομένα

I Με ενδιαφέρουσα οπτικοποίηση (visualization)I Όμως: το “killer LOD application” δεν έχει ακόμακατασκευαστεί...

I Τα Διασυνδεδεμένα Ανοικτά Δεδομένα είναιδιαθέσιμα

I Τα εργαλεία ανάπτυξης είναι διαθέσιμαI Μπορείτε να είστε εσείς οι κατασκευαστές!

I Το μόνο που χρειάζεται είναι φαντασία καιδημιουργικότητα