Βά 1η Δ /ομένων Αθληικών Δρά 1 0ων Μ 0 …Βά 1η Δ /ομένων...

109
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΕΙΚΟΝΑΣ ΒΙΝΤΕΟ ΚΑΙ ΠΟΛΥΜΕΣΩΝ Βάση Δεδομένων Αθλητικών Δράσεων Με Πληροφορία Εικόνας και Βάθους ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Σοφίας Ν. Γούργαρη Επιβλέπων: Αθήνα, Μάρτιος 2013

Transcript of Βά 1η Δ /ομένων Αθληικών Δρά 1 0ων Μ 0 …Βά 1η Δ /ομένων...

  • ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

    ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ

    ΥΠΟΛΟΓΙΣΤΩΝ

    ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

    ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΕΙΚΟΝΑΣ ΒΙΝΤΕΟ ΚΑΙ

    ΠΟΛΥΜΕΣΩΝ

    Βάση Δεδομένων Αθλητικών Δράσεων

    Με Πληροφορία Εικόνας και Βάθους

    ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

    της

    Σοφίας Ν. Γούργαρη

    Επιβλέπων:

    Αθήνα, Μάρτιος 2013

  • ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

    ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ

    ΥΠΟΛΟΓΙΣΤΩΝ

    ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ

    ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΕΙΚΟΝΑΣ ΒΙΝΤΕΟ ΚΑΙ

    ΠΟΛΥΜΕΣΩΝ

    Βάση Δεδομένων Αθλητικών Δράσεων

    Με Πληροφορία Εικόνας και Βάθους

    ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

    της

    Σοφίας Ν. Γούργαρη

    Επιβλέπων:

    Εγκρίθηκε από την τριμελή εξεταστική επιτροπή την ../ Μαρτίου 2013.

    (Υπογραφή) (Υπογραφή) (Υπογραφή)

    ............................ ............................ ............................

    Αθήνα, Μάρτιος 2013

  • ..................................

    Σοφία Ν. Γούργαρη

    Διπλωματούχος Ηλεκτρολόγος Μηχανικός και Μηχανικός Υπολογιστών Ε.Μ.Π.

    Copyright © Σοφία Ν. Γούργαρη (2013) Εθνικό Μετσόβιο Πολυτεχνείο.

    Με επιφύλαξη παντός δικαιώματος. All rights reserved.

    Απαγορεύεται η αντιγραφή, αποθήκευση και διανομή της παρούσας εργασίας, εξ

    ολοκλήρου ή τμήματος αυτής, για εμπορικό σκοπό. Επιτρέπεται η ανατύπωση,

    αποθήκευση και διανομή για σκοπό μη κερδοσκοπικό, εκπαιδευτικής ή ερευνητικής

    φύσης, υπό την προϋπόθεση να αναφέρεται η πηγή προέλευσης και να διατηρείται το

    παρόν μήνυμα. Ερωτήματα που αφορούν τη χρήση της εργασίας για κερδοσκοπικό

    σκοπό πρέπει να απευθύνονται προς τον συγγραφέα.Οι απόψεις και τα

    συμπεράσματα που περιέχονται σε αυτό το έγγραφο εκφράζουν τον συγγραφέα και

    δεν πρέπει να ερμηνευθεί ότι αντιπροσωπεύουν τις επίσημες θέσεις του Εθνικού

    Μετσόβιου Πολυτεχνείου.

  • 5

    Ευχαριστίες

    Κατ’αρχήν, θα ήθελα να ευχαριστήσω τον Δρ Κωσταντίνο Καρπούζη για την εμπιστοσύνη

    που μου έδειξε με την ανάθεση της παρούσας διπλωματικής εργασίας και για την καθοδήγηση του καθ’όλη τη διάρκεια της εκπόνησής της. Εν συνεχεία, θα ήθελα να εκφράσω

    την ευγνωμοσύνη μου απέναντι στον υποψήφιο Δρ Γεώργιο Γουδέλη για την αμέριστη

    συμπαράστασή του και τις πολύτιμες συμβουλές και ιδέες του ως προς την υλοποίηση της διπλωματικής. Επίσης, οφείλω να πω πως είμαι υπόχρεη στην Δρ Αναστασία Τσουρουφλή

    καθηγήτρια φυσικής αγωγής ΕΜΠ για την πολύτιμη συνδρομή της στη δημιουργία της

    βάσης, καθώς και στον Αναστάσιο Βενέτη και σε όλους όσους συμμετείχαν στις

    βιντεοσκοπήσεις για τη συλλογή του απαραίτητου υλικού για την δημιουργία της βάσης. Ακόμη, θα ήθελα να ευχαριστήσω τον Σταύρο Αποστόλου για την πολύτιμη βοήθεια που μου

    προσέφερε, καθώς επίσης και όλα τα μέλη του εργαστηρίου Ψηφιακής Επεξεργασίας

    Εικόνας, Βίντεο και Πολυμέσων που με βοήθησαν σε κάθε δυσκολία που αντιμετώπισα. Τέλος, θα ήθελα να ευχαριστήσω τους γονείς μου για την αμέριστη συμπαράστασή τους κάθε

    στιγμή, όλα αυτά τα χρόνια.

  • 6

  • 7

    Σύνοψη

    Η Ανίχνευση και Κατηγοριοποίηση Ανθρωπίνων Κινήσεων, ως τομέας σύμπραξης της

    Όρασης Υπολογιστών και της Αναγνώρισης Προτύπων, χρησιμοποιείται σε ολοένα και

    περισσότερες εφαρμογές για την περιγραφή της ανθρώπινης δραστηριότητας, όπως η

    ανάλυση video με βάση το περιεχόμενο και η διαμόρφωση ευφυούς περιβάλλοντος με διαδραστικές εφαρμογές. Οι εφαρμογές αυτές απαιτούν αποδοτικές μεθόδους για την

    αυτόματη ανάλυση και ταξινόμηση των δεδομένων κίνησης, και αποτελούν ένα πολύ

    δραστήριο ερευνητικό πεδίο. Για την αντικειμενική αξιολόγηση και σύγκριση των διαφόρων μεθόδων ανάλυσης και κατηγοριοποίησης της ανθρώπινης δραστηριότητας, τα τελευταία

    χρόνια έχουν δημιουργηθεί συλλογές από video με καταγεγραμμένες κινήσεις.

    Στόχος αυτής της Διπλωματικής εργασίας είναι να προσφέρει στην ερευνητική κοινότητα μια νέα βάση δεδομένων κίνησης που μπορεί να χρησιμοποιηθεί στην αξιολόγηση

    και σύγκριση των διαφόρων μεθόδων ανάλυσης και κατηγοριοποίησης της ανθρώπινης

    δραστηριότητας. Η βάση μας περιλαμβάνει 8374 video, που περιέχουν 12 κινήσεις του αθλήματος της αντισφαίρισης εκτελεσμένων από 55 διαφορετικά άτομα καταγεγραμμένα με

    την κάμερα τρισδιάσταστης λήψης Kinect. Πιο συγκεκριμένα, περιλαμβάνει video που

    καταγράφουν την κάθε κίνηση στις τρεις διαστάσεις του χώρου, καθώς και την κίνηση του σκελετού του ανθρώπινου σώματος. Η συσκευή καταγραφής Kinect διαθέτει κάμερα

    υπερύθρων, επιτρέποντας έτσι, την εξαγωγή πληροφορίας σχετικά με το βάθος και τη θέση

    των αρθρώσεων του ανθρώπινου σώματος. Mε αυτό τον τρόπο επιτυγχάνεται μια

    μοντελοποίηση του ανθρώπινου σκελετού σε τρεις διαστάσεις.

    Στο πλαίσιο της εργασίας, εφαρμόζουμε δυο μεθόδους ανίχνευσης και ταξινόμησης των

    κινήσεων στα δεδομένα της βάσης μας. Ειδικότερα, εφαρμόζουμε τη μέθοδο «εντοπισμού σημείων ενδιαφέροντος στο χωροχρόνο» (Space-Time Interest Points) και τη μέθοδο

    «εντοπισμού πυκνών τροχιών κίνησης» (Dense Trajectories). Οι δύο μέθοδοι χρησιμοποιούν

    ως τοπικούς χωροχρονικούς περιγραφείς τα Ιστογράμματα Προσανατολισμένης Κλίσης (Histograms of Oriented Gradient-HOG), Ιστογράμματα Οπτικής Ροής (Histograms of

    Optical Flow - HOF) και Ιστογράμματα Ορίων Κίνησης (Μοtion Boundary Histograms). Η

    ταξινόμηση των video πραγματοποιείται με μια μηχανή διανυσμάτων υποστήριξης (Support

    Vector Machine- SVM) ως ταξινομητή πολλών κλάσεων. Τα αποτελέσματα της πειραματικής διαδικασίας δείχνουν ότι η βάση έχει δυναμική για τη χρησιμοποίηση της σε μελέτες για την

    ανάπτυξη εφαρμογών αναγνώρισης ανθρώπινων κινήσεων που παρουσιάζουν ιδιαίτερες

    προκλήσεις.

    Λέξεις Κλειδιά

    αναγνώριση ανθρωπίνων κινήσεων, kinect, ταξινόμηση video, αντισφαίριση, ιστόγραμμα

    προσανατολισμένης κλίσης, ιστόγραμμα οπτικής ροής, ιστόγραμμα ορίων κίνησης, μηχανή

    διανυσμάτων υποστήριξης, αλγόριθμος Κ- μέσων

  • 8

    Αbstract

    The detection and classification of human movements, as a joint field of Computer

    Vision and Pattern Recognition, is used with an increasing rate in applications designed to describe human activity, such content based video analysis interactive environments and

    applications such as smart rooms. Such applications require efficient methods and tools for

    the automatic analysis and classification of motion capture data, which constitute an active field of research. To facilitate the development and the benchmarking of methods for action

    recognition, several video collections have previously been proposed.

    With this Diploma thesis we provide the research community with a new video database that can be used for an objective comparison and evaluation of different motion analysis and

    classification methods. Our database consists of 8374 video clips, which contain 12 different

    types of tennis actions performed by 55 individuals captured by the 3D motion capture device Kinect. To be more specific, the database contains video clips that capture the 3D motion of

    individuals. Kinect which is our motion capture device, is used as an infrared camera and

    provides us with the depth map of motion data and helps to extract the 3D skeletal joint connections from these depth maps. As a result, we achieve a 3D model of individuals’

    skeletal motion.

    In the framework of this Diploma thesis, we apply two different methods of detection and action recognition, conducting experiments on our database. Particularly, we use the

    method of Space-Time Interest Points and the method Dense Trajectories for action

    recognition. These methods are based on the use of local spatio-temporal descriptors, such as Histograms of Oriented Gradient (HOG), Histograms of Optical Flow (HOF) and Μοtion

    Boundary Histograms (MBH). Moreover, we perform action classification on the video data,

    and the classification is carried out with a multiclass support vector machine (SVM) classifier. The accuracy rates attained with our experimental procedure show that this new

    action database could be used in research on human action recognition applications that

    introduce special challenges.

    Keywords

    Human action recognition, kinect, video classification, tennis, Histogram of Oriented

    Gradient, Histogram of Optical Flow, Μοtion Boundary Histograms, support vector machine,

    k-means algorithm.

  • 9

  • 10

    ΠΕΡΙΕΧΟΜΕΝΑ

    ΠΕΡΙΕΧΟΜΕΝΑ .............................................................................................................. 10

    ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ ........................................................................................... 13

    ΚΕΦΑΛΑΙΟ 1 ................................................................................................................... 15

    1.1 Συνεισφορά Διπλωματικής ................................................................................ 15

    1.2 Δομή Διπλωματικής ................................................................................................. 18

    ΚΕΦΑΛΑΙΟ 2 ................................................................................................................... 19

    2.1 Έννοια της ΑΑΔ και εφαρμογές ............................................................................. 19

    2.1.1 Εισαγωγή........................................................................................................... 19

    2.1.2 Τύποι ανθρώπινης δραστηριότητας ................................................................. 19

    2.1.3 Εφαρμογές ......................................................................................................... 20

    2.2 Μέθοδοι αναγνώρισης ανθρώπινων δραστηριοτήτων ............................................ 21

    2.2.1 Μέθοδοι Single-layered ή μονής στιβάδας ....................................................... 22

    2.2.1.1 Space-time .................................................................................................. 23

    2.2.1.1.1 Space-time volume ............................................................................... 24

    2.2.1.1.2 Space-time trajectories ....................................................................... 26

    2.2.1.1.3 Space-time features .............................................................................. 27

    2.2.1.1.4 Σύγκριση .............................................................................................. 30

    2.2.1.2 Sequential ................................................................................................... 30

    2.2.1.2.1 Exemplar-based ................................................................................... 30

    2.2.1.2.2 State model-based ................................................................................ 32

    2.2.1.2.3 Σύγκριση .............................................................................................. 34

    2.2.2 Ιεραρχικές μέθοδοι ............................................................................................ 34

    2.2.2.1 Statistical .................................................................................................... 35

    2.2.2.2 Syntactic ..................................................................................................... 37

    2.2.2.3 Description-based ....................................................................................... 38

    2.2.2.4 Σύγκριση .................................................................................................... 39

    2.3 Datasets .................................................................................................................... 40

    2.3.1 Εισαγωγή........................................................................................................... 40

    2.3.2 Σημαντικά Datasets .......................................................................................... 40

    2.4 Προκλήσεις .............................................................................................................. 43

    ΚΕΦΑΛΑΙΟ 3 ................................................................................................................... 46

  • 11

    3.1 Γενικά....................................................................................................................... 46

    3.2 Καταγραφή των δεδομένων κίνησης....................................................................... 47

    3.2.1 Συσκευή Καταγραφής....................................................................................... 47

    3.2.1.1 Τεχνολογία Light Coding ......................................................................... 48

    3.2.2 ΟpenNI framework ........................................................................................... 49

    3.2.3 NITE Middleware ............................................................................................. 52

    3.2.4 Συνθήκες Καταγραφής ..................................................................................... 53

    3.3 Δομή της Βάσης THETIS ........................................................................................ 55

    3.3.1 Εισαγωγή........................................................................................................... 55

    3.3.2 RGB videos ........................................................................................................ 57

    3.3.3 Depth videos ...................................................................................................... 59

    3.3.4 Mask videos ....................................................................................................... 59

    3.3.5 Skelet2D videos ................................................................................................. 60

    3.3.6 Skelet3D videos ................................................................................................. 62

    3.4 Εργαλεία .................................................................................................................. 64

    3.4.1 Μετατροπή αρχείων ΟΝΙ σε αρχεία ΑVI ......................................................... 64

    3.4.2 Περικοπή των AVI αρχείων.............................................................................. 64

    ΚΕΦΑΛΑΙΟ 4 ................................................................................................................... 66

    4.1 Εισαγωγή ................................................................................................................. 66

    4.2 Mέθοδοι Εξαγωγής Περιγραφέων ........................................................................... 66

    4.2.1 Μέθοδος Space-Time Interest Points-STIP...................................................... 66

    4.2.1.1 Ανιχνευτής Harris 3D ................................................................................. 67

    4.2.1.2 Ιστογράμματα Προσανατολισμένης Κλίσης και Ιστογράμματα Οπτικής

    Ροής ........................................................................................................................ 68

    4.2.1.3 Παράμετροι Μεθόδου STIP ....................................................................... 70

    4.2.2 Μέθοδος Dense Trajectories ............................................................................. 71

    4.2.2.1 Εξαγωγή Τροχιών....................................................................................... 71

    4.2.2.2 Περιγραφείς Κίνησης ................................................................................. 72

    4.2.2.3 Παράμετροι Μεθόδου Dense Trajectories ................................................. 73

    4.3 Κβαντοποίηση των περιγραφέων ............................................................................ 74

    4.3.1 Δημιουργία Οπτικού Λεξικού ........................................................................... 74

    4.3.2 Ο αλγόριθμος Κ- μέσων (K-means) .................................................................. 75

    4.3.3 Ιστογράμματα Συχνότητας ............................................................................... 77

    4.3.4 Παράμετροι k-means ........................................................................................ 77

    4.4 Tαξινόμηση .............................................................................................................. 78

  • 12

    4.4.1 Μηχανές Διανυσμάτων Υποστήριξης ............................................................... 78

    4.4.1.1 Εισαγωγή .................................................................................................... 78

    4.4.1.2 Βέλτιστο υπερεπίπεδο για γραμμικά διαχωρίσιμα πρότυπα. .................... 79

    4.4.1.3 Βέλτιστο υπερεπίπεδο για μη-γραμμικά διαχωρίσιμα πρότυπα ............... 82

    4.4.1.4 ΜΔΥ-πολλών κλάσεων ............................................................................... 84

    4.4.2 Παράμετροι SVM .............................................................................................. 85

    4.6 Παρουσίαση Αποτελεσμάτων .................................................................................. 86

    4.6.1 Δείκτες Αξιολόγησης ......................................................................................... 86

    4.6.2 Αποτελέσματα Μεθόδου STIP .......................................................................... 87

    4.6.3 Αποτελέσματα Δεύτερης Μεθόδου ................................................................... 91

    4.6.4 Συγκριτικά Αποτελέσματα ............................................................................... 98

    ΚΕΦΑΛΑΙΟ 5 ................................................................................................................. 101

    5.1 Συμπεράσματα ....................................................................................................... 101

  • 13

    ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ

    2.1 Σύστημα παρακολούθησης σε τράπεζα ……………………………………………….....21

    2.2 Διεπαφή χρήστη ενός συστήματος sport play analysis…………………………….......22

    2.3 Tαξινόμηση των μεθοδολογιών αναγνώρισης κινήσεων……………………………….22

    2.4 Παραδείγματα τρισδιάστατων όγκων ΧΥΤ κατακευασμένων από εικονοσειρές .........23

    2.5 Δαδραστικό περιβάλλον για παιδιά που ονομάζεται Κids Room .………………........24

    2.6 Αναπαράσταση κινήσεων στο χωροχρόνο με MBH ιστογράμματα……………………25

    2.7 Σημεία ενδιαφέροντος που εντοπίστηκαν με τη μέθοδο interest points……………….28

    2.8 Kυβοειδή χαρακτηριστικά που εξήχθησαν από την κίνηση του ποντικιού……………..29

    2.9 Παράδειγμα κρυφού Μαρκοβιανού μοντέλου για τo τέντωμα του χεριού……………32

    2.10 Παράδειγμα ιεραρχικού ΗΜΜ για την αναγνώριση της κίνησης γρονθοκοπώ …..36

    2.11 Περιγραφικές μέθοδοι αναπαράστασης της αλληλεπίδρασης σπρώχνω…………….39

    2.12 Εικόνες από δημοφιλή action datasets……………………………………………….40

    2.13 Περιγραφή δημοφιλών action datatsets………………………………………………42

    3.1 Eικόνα της συσκευής Kinect……………………………………………………………48

    3.2 Τρόπος υπολογισμού του βάθους από το kinect……………………………………...49

    3.3 Σχέση τιμών του αισθητήρα βάθους και πραγματικής απόστασης……………………50

    3.4 Λογική τριών επιπέδων του ΟpenNI…………………………………………………..51

    3.5 Aπεικόνιση του depth map και του image map από το ΝiViewer……………………52

    3.6 H εφαρμογή Full body-based control του kinect……………………………………..53

    3.7 Επίδειξη της κίνησης backhand από την εκπαιδεύτρια αντισφαίρισης…………………54

    3.8 Παραδείγματα καταγραφών με διαφορετικά background…………………………….54

    3.9 Δομή της βάσης δεδομένων THETIS ………………………………………………….56

    3.10 Στιγμιότυπα του ίδιου ατόμου από όλες τις κατηγορίες video της βάσης……………57

    3.11 Επεξήγηση των ονομάτων των video της βάσης…………………………………….58

    3.12 Περιγραφή των περιεχομένων του φακέλου Video_RGB…………………………..58

    3.13 Περιγραφή των περιεχομένων του φακέλου Video_Depth…………………………59

    3.14 Περιγραφή των περιεχομένων του φακέλου Video_Mask………………………….60

    3.15 Περιγραφή των περιεχομένων του φακέλου Video_Skelet2D………………………60

    3.16 Περιγραφή των περιεχομένων του φακέλου Video_Skelet3D………………………62

    4.1 Εφαρμογή του κώδικα STIP σε βίντεο της βάσης THETIS…………………………….67

    4.2 Εικόνες που δείχνουν την εξαγωγή των περιγραφέων HOG…………………………69

    4.3 Ιστογράμματα Οπτικής Ροής-HOF……………………………………………………....70

    4.4 Eφαρμογή της μεθόδου Dense Trajectories σε βίντεο της βάσης THETIS…………….71

    4.5 Παρουσίαση της περιγραφής Dense Trajectories……………………………………..73

    4.6 Oμαδοποίηση Χαρακτηριστικών με αλγόριθμο k-means……………………………..75

  • 14

    4.7 Εφαρμογή του αλγορίθμου k-means σε ένα πρόβλημα δύο διαστάσεων……………..76

    4.8 Απεικόνιση μιας βέλτιστης υπερεπιφάνειας για γραμμικά διαχωρίσιμα πρότυπα…….80

    4.9 Γεωμετρική αναπαράσταση των αλγεβρικών αποστάσεων μεταξύ των σημείων και της

    βέλτιστης υπερεπιφάνειας για δισδιάστατο χώρο………………………………………….81

    4.10 Μη -γραμμικά διαχωρίσιμα πρότυπα………………………………………………….83

    4.11 Διαχωρισμός τριών κλάσεων με τη μέθοδο SVM one-against-all……………………85

    4.12 Διαχωρισμός τριών κλάσεων με τη μέθοδο SVM one-against-one…………………85

    4.13 Mέσος όρος ακρίβειας ταξινόμησης για τη μέθοδο STIP…………………………….87

    4.14 Ποσοστά precision και accuracy/κλάση STIP για το σύνολο THETIS_Depth……….87

    4.15 Πίνακας σύγχυσης STIP σε απόλυτες τιμές για το σύνολο THETIS_Depth………….88

    4.16 Πίνακας σύγχυσης STIP σε ποσοστά % για το σύνολο THETIS_Depth……………..88

    4.17 Ποσοστά precision και accuracy κάθε κλάσης STIP για το σύνολο THETIS_Skelet3D.88

    4.18 Πίνακας σύγχυσης STIP σε απόλυτες τιμές για το σύνολο THETIS_Skelet3D……….89

    4.19 Πίνακας σύγχυσης STIP σε ποσοστά % για το σύνολο THETIS_Skelet3D…………..89

    4.20 Ποσοστά precision και accuracy κάθε κλάσης STIP για το σύνολο KTH………….90

    4.21 Πίνακας σύγχυσης STIP σε απόλυτες τιμές για το σύνολο KTH……………………..90

    4.22 Πίνακας σύγχυσης STIP σε ποσοστά % για το σύνολο KTH………………………….90

    4.23 M.o ακρίβειας με τη μέθοδο Dense Trajectorieς και διάφορους περιγραφείς…………91

    4.24 Ποσοστά precision και accuracy/κλάση D.T. για το σύνολο THETIS_Depth………..91

    4.25 Πίνακας σύγχυσης για το σύνολο THETIS_Depth, με περιγραφέα Τrajectory……….92

    4.26 Πίνακας σύγχυσης για το σύνολο THETIS_Depth, με περιγραφέα MBH…………….93

    4.27 Πίνακας σύγχυσης για το σύνολο THETIS_Depth, με όλους τους περιγραφείς………93

    4.28 Ποσοστά precision και accuracy/κλάση D.T για το σύνολο THETIS_ Skelet3D…….94

    4.29 Πίνακας σύγχυσης για το σύνολο THETIS_Skelet3D, με περιγραφέα Τrajectory…....94

    4.30 Πίνακας σύγχυσης για το σύνολο THETIS_Skelet3D, με περιγραφέα MBH…………95

    4.31 Πίνακας σύγχυσης για το σύνολο THETIS_Skelet3D, με όλους τους περιγραφείς......96

    4.32 Ποσοστά precision και accuracy κάθε κλάσης D.T για το σύνολο KTH……………....96

    4.33 Πίνακας σύγχυσης για το σύνολο KTH, με περιγραφέα Τrajectory…………………....97

    4.34 Πίνακας σύγχυσης για το σύνολο KTH, με περιγραφέα MBH………………………...97

    4.35 Πίνακας σύγχυσης για το σύνολο KTH, με όλους τους περιγραφείς…………………...97

    4.36 Σύγκριση των αποτελεσμάτων των μεθόδων Dense Trajectories και STIP…………...98

  • 15

    ΚΕΦΑΛΑΙΟ 1

    ΕΙΣΑΓΩΓΗ

    1.1 Συνεισφορά Διπλωματικής

    Η αναγνώριση της ανθρώπινης δραστηριότητας από εικονοσειρές (video) αποτελεί ένα

    σημαντικό πρόβλημα του επιστημονικού πεδίου της όρασης υπολογιστών με εφαρμογές σε πολλούς τομείς, όπως η ανάκτηση video, η επιτήρηση δημοσίων χώρων και η αλληλεπίδραση

    ανθρώπου-υπολογιστή. Με την ευρεία εξάπλωση των μέσων επικοινωνίας υψηλής

    ταχύτητας, την εύκολη προσβασιμότητα σε μέσα αποθήκευσης μεγάλης χωρητικότητας και

    στον τεχνικό εξοπλισμό, πλέον το ψηφιακό video βρίσκεται στη διάθεση του καθενός. Κατά συνέπεια, η ζήτηση για αποτελεσματικές τεχνικές επεξεργασίας video και αναγνώρισης της

    δραστηριότητας αυξάνεται ραγδαία.

    Τα χαρακτηριστικά που ορίζουν τι είναι η «δραστηριότητα», αρκετές φορές δεν είναι

    δυνατό να διατυπωθούν με σαφήνεια. Οι δραστηριότητες ή κινήσεις είναι σύνθετες οντότητες

    που διαφοροποιούνται ως προς τη διάρκεια· κάποιες είναι στιγμιαίες, ενώ άλλες έχουν παρατεταμένη διάρκεια. Επιπλέον, μπορεί να περιλαμβάνουν αλληλεπιδράσεις με άλλα

    άτομα ή αντικείμενα και να πραγματοποιούνται με τη συμμετοχή είτε όλου του σώματος, είτε

    κάποιων μελών του.

    Αξίζει να σημειωθεί ότι υπάρχει σπουδαία βιβλιογραφία που αφορά στην αναγνώριση

    της ανθρώπινης δραστηριότητας από τον ηλεκτρονικό υπολογιστή, σε ποικίλα ερευνητικά

    πεδία, όπως η όραση υπολογιστών, η αναγνώριση προτύπων, η μηχανική μάθηση, ανάλυση σημάτων κ.α. Ανάμεσα στις διάφορες τεχνικές αναπαράστασης της πληροφορίας της

    κίνησης, οι πιο δημοφιλείς είναι τα σημεία ενδιαφέροντος χωροχρόνου (Space-Time Interest

    Points) και η χρήση πυκνών τροχιών κίνησης (Dense Trajectories). Σε αυτό το σημείο είναι αναγκαίο να αναφέρουμε τρεις πολύ σημαντικές προκλήσεις

    στην αναγνώριση της ανθρώπινης δραστηριότητας. Κατ’αρχάς, σημαντικό πρόβλημα

    αποτελούν οι διαφοροποίησεις στην ίδια κλάση κινήσεων (intra – class) και η μεγάλη

    ομοιότητα διαφορετικών κλάσεων ανθρώπινης δραστηριότητας (inter –class). Aπο τη μια πλευρά, τα άτομα μπορούν να εκτελέσουν την ίδια κίνηση με διαφορετικές κατευθύνσεις και

    διαφοροποιήσεις στην μετατόπιση των ανθρώπινων μελών, ενώ από την άλλη μπορεί να

    συμβεί, δυο κινήσεις που ανήκουν σε ξεχωριστές κλάσεις να διαχωρίζονται μόνο από δυσδιάκριτες λεπτομέρειες του χωροχρόνου. Δεύτερον, ο αριθμός των διαφορετικών

    κατηγοριών κίνησης είναι εξαιρετικά μεγάλος και τρίτον, οι διαφοροποιήσεις στις συνθήκες

    φωτισμού, στο παρασκήνιο (φόντο) , στην οπτική γωνία λήψης, καθώς και η ύπαρξη σκιών

    μπορούν να αλλάξουν τον τρόπο με τον οποίο γίνεται αντιληπτή μια κίνηση.

    Προκειμένου να διευκολυνθεί η ανάπτυξη μεθόδων για την αναγνώριση των κινήσεων,

    έχουν συγκεντρωθεί αρκετά σύνολα από video που περιέχουν διάφορα είδη κίνησης. Στην ενότητα 2.3 γίνεται εκτενής αναφορά στα πιο δημοφιλή σύνολα δεδομένων. Μέχρι τώρα η

    έρευνα έχει επικεντρωθεί στην αναγνώριση δραστηριότητας από video που έχουν καταγραφεί

    με κάμερες ορατού φωτός. Όμως, η χρήση συσκευών που καταγράφουν και το βάθος (range camera), αντιμετωπίζουν σε μεγάλο βαθμό τις προκλήσεις της τρίτης κατηγορίας που

    μειώνουν την αποδοτικότητα στην αναγνώριση της δραστηριότητας από απεικονίσεις 2D.

  • 16

    Φυσικά, μια κάμερα τέτοιου τύπου μπορεί να καταγράψει σημαντική πληροφορία για

    κινήσεις που περιέχουν αλλαγές στο βάθος. Παραδείγματος χάριν, ο διαχωρισμός της κίνησης «δείχνω» από την κίνηση «πιάνω» σε μια μπροστινή λήψη, θα ήταν πολύ πιο

    ακριβής από τις εικονοσειρές βάθους (depth map), παρά από εικονοσειρές RGB.

    Παρ’όλα αυτά, οι παλαιότεροι αισθητήρες βάθους χαρακτηρίζονταν είτε από υψηλό κόστος είτε από χαμηλή ακρίβεια. Αντίθετα, η πρόσφατη κυκλοφορία της συσκευής Κinect

    της Microsoft αντιμετωπίζει αυτά τα ζητήματα και διαθέτει δυο κανάλια καταγραφής , κανάλι

    που καταγράφει βάθος και κανάλι που καταγράφει RGB εικόνα. Παρ’ότι πρωταρχικός στόχος της κυκλοφορίας του υπήρξε η αγορά της ψυχαγωγίας, το Kinect προκάλεσε το

    ενδιαφέρον της ερευνητικής κοινότητας της όρασης υπολογιστών, λόγω του εύρους των

    εφαρμογών που υποστηρίζει.

    Για τους παραπάνω λόγους, αποφασίσαμε να προσφέρουμε στην ερευνητική κοινότητα

    ένα επιπλέον σύνολο δεδομένων από κινήσεις καταγεγραμμένες από τη συσκευή Kinect.

    Στόχος της νέας βάσης δεδομένων η οποία ονομάζεται THETIS (Three dimensional Tennis Shots) είναι να αποτελέσει ένα χρήσιμο εργαλείο αξιολόγησης για τους διάφορους αλγορίθμους αναγνώρισης κινήσεων, αλλά και γενικότερα να αποτελέσει εργαλείο για την

    ανάπτυξη εφαρμογών που σχετίζονται με την αναγνώριση της ανθρώπινης δραστηριότητας. Τα πλεονεκτήματα και οι δυνατότητες που προσφέρει η χρήση της συσκευής Kinect είναι

    πολλά και θα γίνει ιδιαίτερος λόγος για αυτά στην ενότητα 3.2. Ενδεικτικά, αναφέρουμε ότι η

    πληροφορία του βάθους που καταγράφεται από τη συσκευή Κinect, μας παρέχει όχι μόνο την αναπαράσταση της κίνησης στον τρισδιάστατο χώρο, αλλά και τη δυνατότητα εντοπισμού

    της θέσης των αρθρώσεων του ανθρώπινου σώματος και την αναπαράσταση της κίνησης του

    σκελετού στον χρόνο και στο χώρο 3D (ΧΥΖΤ). Mε αυτή την αναπαράσταση προσεγγίζουμε

    το πρόβλημα της αναγνώρισης της ανθρώπινης δραστηριότητας με τρόπο λιγότερο σύνθετο σε σύγκριση με τη χρήση εικονοσειρών RGB. Επιπλέον, παρέχει ανεξαρτησία από τη γωνία

    λήψης και υψηλότερη ταχύτητα.

    Στην παρούσα Διπλωματική εργασία πραγματοποιείται η παρουσίαση της βάσης

    δεδομένων THETIS, η οποία περιλαμβάνει 8374 video, που περιέχουν 12 κινήσεις του

    αθλήματος της αντισφαίρισης, εκτελεσμένες αρκετές φορές από 55 διαφορετικά άτομα.

    Επιπλέον, πραγματοποιείται η εφαρμογή δυο διαφορετικών μεθόδων, που αποτελούν τελευταία λέξη της τεχνολογίας για την εξαγωγή περιγραφέων των χαρακτηριστικών της

    κίνησης, στα video της βάσης THETIS και επιχειρείται η κατηγοριοποίηση των video με

    βάση το περιεχόμενο από μια μηχανή υποστήριξης ως ταξινομητή πολλών κλάσεων.

    Συνοψίζονται τα κύρια θέματα που αποτελούν συνεισφορά αυτής της διπλωματικής

    εργασίας :

    Δημιουργία μεγάλης βάσης από video που καταγράφουν 12 κινήσεις της αντισφαίρισης, από 55 άτομα, εκτελεσμένες όλες αρκετές φορές από το κάθε

    άτομο. Για κάθε εκτέλεση παρέχονται 5 τύποι video:

    1. Video εικόνας RGB 2. Video εικόνας βάθους (depth map) 3. Video περιγράμματος/ σιλουέτας 4. Video σκελετού 2D 5. Video σκελετού 3D

    Eφαρμογή της μεθόδου σημείων ενδιαφέροντος στο χωροχρόνο [19] (Space-Time Interest Points) για την εξαγωγή των εξής τοπικών περιγραφέων : Ιστογράμματα Προσανατολισμένης Κλίσης (Histograms of Oriented Gradient-

    HOG) και Ιστογράμματα Οπτικής Ροής (Histograms of Optical Flow - HOF) στα

    video βάθους και σκελετού 3D, καθώς επίσης και στα δεδομένα του συνόλου

    KTH[53].

  • 17

    Eφαρμογή της μεθόδου Dense Trajectories [73] για την εξαγωγή των εξής τοπικών περιγραφέων : Ιστογράμματα Προσανατολισμένης Κλίσης (Histograms of Oriented Gradient-HOG), Ιστογράμματα Οπτικής Ροής (Histograms of

    Optical Flow – HOF), Ιστογράμματα Ορίων Κίνησης (Μοtion Boundary

    Histograms-ΜΒΗ) και εξαγωγή της τροχιάς της κίνησης στα video βάθους και

    σκελετού 3D, καθώς επίσης και στα δεδομένα του συνόλου KTH.

    Κβαντοποίηση των χαρακτηριστικών διανυσμάτων των video που προέκυψαν από τους περιγραφείς χρησιμοποιώντας τον αλγόριθμο συσταδοποίησης k-

    means και η δημιουργία ενός οπτικού λεξιλογίου (bag of features).

    Κατηγοριοποίηση των video βάθους και σκελετού 3D της βάσης THETIS και των video του συνόλου KTH. Για την ταξινόμηση χρησιμοποιήθηκε μια μηχανή μηχανή διανυσμάτων υποστήριξης (Support Vector Machine- SVM) ως

    ταξινομητή πολλών κλάσεων.

    Δημιουργία και χρήση συνοδευτικών προγραμμάτων για τη διεξαγωγή της πειραματικής διαδικασίας.

    Όσον αφορά στην υλοποίηση, στο πλαίσιο της διπλωματικής εργασίας και για την

    κάλυψη των απαιτήσεων της πειραματικής διαδικασίας ασχολήθηκα με πληθώρα εφαρμογών

    και την ανάπτυξη κώδικα.

    Αρχικά, πραγματοποιήθηκε η εξαγωγή του σκελετού 3D, του σκελετού 2D και της

    σιλουέτας από τα video βάθους και εικόνας RGB που καταγράφηκαν από το Kinect με χρήση έτοιμης υλοποίησης στο ΟpenNI Framework. Στη συνέχεια, τα video περικόπηκαν και

    προέκυψαν μικρότερα και περισσότερα στον αριθμό video, που το καθένα περιέχει ακριβώς

    μια πλήρη εκτέλεση της εκάστοτε κίνησης.

    Έπειτα, διεξήχθησαν αρκετά πειράματα στο προγραμματιστικό περιβάλλον Matlab για

    την εξοικείωση με τα SVM και τις διάφορες υλοποιήσεις σε σύνολα δεδομένων, όπως KTH

    και Weizmann, με διάφορους πυρήνες, όπως ο γραμμικός και ο Gaussian. Σε αυτό το στάδιο, πραγματοποιήθηκε μιας μορφής αξιολόγηση των δεδομένων εργαλείων εκπαίδευσης, καθώς

    και μια προσπάθεια βελτιστοποίησης των διαφόρων παραμέτρων, με σκοπό την εξαγωγή των

    βέλτιστων τιμών ακρίβειας ταξινόμησης των δειγμάτων ελέγχου.

    Τέλος, ασχολήθηκα με την υλοποίηση, σε προγραμματιστικό περιβάλλον Matlab,

    κώδικα για την κβαντοποίηση των περιγραφέων των video και για την υλοποίηση του

    πρωτοκόλλου ταξινόμησης των video, με χρήση SVM.

    Πρέπει να αναφερθεί, ότι η διαδικασία εκπαίδευσης στο περιβάλλον Matlab,

    πραγματοποιήθηκε βάσει της βιβλιοθήκης Spider1. Eπίσης, χρησιμοποιήθηκαν έτοιμα

    εκτελέσιμα αρχεία υλοποίησης των αλγορίθμων STIP και Dense Trajectories, όπως αυτά

    είχαν χρησιμοποιηθεί για τη διεξαγωγή πειραμάτων στα [19] και [73] αντίστοιχα.

    1 http://people.kyb.tuebingen.mpg.de/spider/main.html

  • 18

    1.2 Δομή Διπλωματικής

    Η παρούσα διπλωματική δομείται στο πλαίσιο δυο βασικών θεμάτων, της παρουσίασης

    της νέας βάσης video THETIS και της διεξαγωγής πειραμάτων αναγνώρισης κινήσεων, με χρήση των μεθόδων STIP και Dense Trajectories και της μηχανής διανυσμάτων υποστήριξης SVM.

    Στο κεφάλαιο 2, περιγράφεται το πρόβλημα της αναγνώρισης της ανθρώπινης

    δραστηριότητας από τον υπολογιστή. Γίνεται εκτενής αναφορά στις μεθόδους που έχουν

    προταθεί από την ερευνητική κοινότητα για την επίλυση του προβλήματος και στα σύνολα δεδομένων από video που έχουν χρησιμοποιηθεί για την αξιολόγηση και τη σύγκριση των

    μεθόδων.

    Στο κεφάλαιο 3, πραγματοποιείται διεξοδική παρουσίαση της βάσης δεδομένων κίνησης THETIS. Πιο συγκεκριμένα, περιγράφονται με λεπτομέρεια τα μέσα και οι συνθήκες

    καταγραφής και δίνεται λεπτομερής αναφορά για το περιεχόμενο των video που αποτελούν

    τη βάση THETIS.

    Στο κεφάλαιο 4, παρουσιάζεται λεπτομερώς η πειραματική διαδικασία. Παρουσιάζεται

    το θεωρητικό υπόβαθρο των μεθόδων STIP και Dense Trajectories για την εξαγωγή των

    περιγραφέων της κίνησης των video. Επίσης, περιγράφεται η διαδικασία κβαντοποίησης και ταξινόμησης των video με SVM. Ακόμη, παρουσιαζονται τα αποτελέσματα της πειραματικής

    διαδικασίας.

    Τέλος, στο κεφάλαιο 5 συνοψίζουμε τα συμπεράσματα για το σύνολο δεδομένων

    THETIS και παρουσιάζονται νέες ιδέες στην προσπάθεια που αυτό τροφοδοτεί για νέα

    έρευνα.

  • 19

    ΚΕΦΑΛΑΙΟ 2

    Αναγνώριση της ανθρώπινης

    δραστηριότητας(ΑΑΔ) από τον υπολογιστή

    2.1 Έννοια της ΑΑΔ και εφαρμογές

    2.1.1 Εισαγωγή

    Η αναγνώριση της ανθρώπινης δραστηριότητας (human action recognition) καταλαμβάνει σημαντικό χώρο στην επιστημονική έρευνα που διεξάγεται στο πεδίο της

    όρασης υπολογιστών (computer vision). Σκοπός αυτής της ερευνητικής προσπάθειας

    αποτελεί η αυτόματη ανάλυση και κατ’επέκταση, η αναγνώριση των ανθρώπινων δραστηριοτήτων οι οποίες είναι καταγεγραμμένες σε εικονοσειρές (video).

    Η επεξεργασία εικονοσειρών έχει προοδεύσει από το επίπεδο του εντοπισμού κάποιας

    κίνησης στο να αναγνωρίζει τις πράξεις και αλληλεπιδράσεις ως ξεχωριστά γεγονότα. Η αναγνώριση της ανθρώπινης δραστηριότητας από τον υπολογιστή περιλαμβάνει την

    κατανόηση της ανθρώπινης κίνησης, γεγονός που καθιστά την αναναγνώριση ένα ιδιαιτέρως

    πολύπλοκο αντικείμενο. Η δομή και το σχήμα του ανθρωπίνου σώματος δεν μπορεί να είναι σαφώς καθορισμένο, λόγω της ύπαρξης πολλών αρθρώσεων και λόγω της ύπαρξης των

    ενδυμάτων. Επίσης, οι αλλαγές στην φωτεινότητα της εικόνας καθώς και ο θόρυβος που

    προέρχεται από τις σκιές, δυσκολεύουν ακόμα περισσότερο τις προσπάθειες για αναγνώριση των ανθρωπίνων κινήσεων. Για παράδειγμα, η αναγνώριση δραστηριοτήτων σε εξωτερικούς

    χώρους επηρεάζεται σημαντικά από τις αλλαγές του καιρού και του φωτισμού.

    2.1.2 Τύποι ανθρώπινης δραστηριότητας

    Η κατανόηση της ανθρώπινης κίνησης, μπορεί να προσεγγιστεί με διάφορα επίπεδα

    λεπτομερειών, ανάλογα με την πολυπλοκότητα της εκάστοτε κίνησης. Η μοντελοποίηση και

    η αναγνώριση της ανθρώπινης συμπεριφοράς προϋποθέτει τον χαρακτηρισμό και την ταξινόμηση των διαφόρων ειδών δραστηριότητας. Μπορούμε να διακρίνουμε τέσσερις

    κατηγορίες ανθρώπινης δραστηριότητας με βάση το επίπεδο της πολυπλοκότητάς της. Στην

    πρώτη κατηγορία ανήκουν οι χειρονομίες (gestures), δηλαδή η μετακίνηση κάποιου μέρους

    του σώματος ενός ατόμου, παραδείγματος χάριν το σήκωμα του χεριού. Η δεύτερη κατηγορία απαρτίζεται από τις κινήσεις ενός μόνο ατόμου (actions) , που περιλαμβάνουν έναν αριθμό

    χειρονομιών. Κινήσεις θεωρούνται, για παράδειγμα, το τρέξιμο ,το περπάτημα κ.α. Με τον

    όρο δραστηριότητα, αναφερόμαστε στη σύνθετη ακολουθία κινήσεων που εκτελούν διάφορα άτομα όταν αλληλεπιδρούν (interaction) μεταξύ τους και είτε περιλαμβάνει κάποιο

    αντικείμενο είτε όχι. Από αυτά τα είδη ανθρώπινης δραστηριότητας αποτελείται η τρίτη

    κατηγορία, ενώ τέλος, υπάρχουν και οι ομαδικές δραστηριότητες (group activity) που πραγματοποιούνται από ομάδες ατόμων. Χαρακτηριστικό παράδειγμα ομαδικής

    δραστηριότητας αποτελεί μια ομάδα ατόμων που σχηματίζουν μια ουρά αναμονής.

    Οι όροι κίνηση και δραστηριότητα συχνά συγχέονται. Συνήθως, οι δραστηριότητες χαρακτηρίζονται από μεγαλύτερη χρονική διάρκεια, όμως αυτό δεν είναι απόλυτο. Επίσης,

    δεν υπάρχει αυστηρή διαχωριστική γραμμή ανάμεσα στις δυο έννοιες. Για παράδειγμα, οι

  • 20

    χειρονομίες του μαέστρου μιας ορχήστρας θα μπορούσαν να χαρακτηριστούν ως κίνηση και

    δραστηριότητα ταυτόχρονα.

    2.1.3 Εφαρμογές

    Πολυάριθμες και πολύ σημαντικές είναι οι εφαρμογές που βασίζονται στην ικανότητα του υπολογιστή να αναγνωρίζει σύνθετες ανθρώπινες ενέργειες, οι οποίες συνήθως

    αποτελούνται από πιο απλές κινήσεις (primative actions) μέσω της επεξεργασίας και

    ανάλυσης των δεδομένων εισόδου μιας κάμερας. Σε αυτό το σημείο, θα παρουσιάσουμε κάποιες βάσικες εφαρμογές των συστημάτων αναγνώρισης της ανθρώπινης δραστηριότητας

    που τονίζουν τη σημασία αυτού του ερευνητικού πεδίου.

    Βιομετρικά δεδομένα που βασίζονται στη συμπεριφορά. Η συλλογή βιομετρικών δεδομένων συμπεριφοράς (behavioural biometrics) ασχολείται με την μελέτη μεθόδων για την αναγνώριση των ανθρώπων με βάση τα φυσικά τους

    χαρακτηριστικά ή/και την συμπεριφορά τους. Οι παραδοσιακές μέθοδοι συλλογής

    βιομετρικών δεδομένων, όπως το δακτυλικό αποτύπωμα και η ίριδα του ματιού στηρίζονται στα φυσικά χαρακτηριστικά του ατόμου (physiological biometrics) και

    απαιτούν την συνεργασία του ίδιου του ατόμου. Τελευταία όμως, το ενδιαφέρον για

    την συλλογή βιομετρικών δεδομένων από την συμπεριφορά του ατόμου έχει αυξηθεί καθώς δεν απαιτούν την συνεργασία του, ούτε παρεμβαίνουν στη δραστηριότητά

    του. Εφόσον, η παρατήρηση της ανθρώπινης συμπεριφοράς προϋποθέτει

    μεγαλύτερης διάρκειας παρακολούθηση του υποκειμένου, η αναγνώριση κινήσεων

    βοηθά στην επίλυση του προβλήματος.

    Ασφάλεια και επιτήρηση. Συστήματα ασφάλειας (security) και επιτήρησης (surveillance), τα οποία παραδοσιακά βασίζονται στην παρακολούθηση ενός δικτύου

    καμερών που καταγράφουν την δραστηριότητα των ανθρώπων, εξελίσσονται με την πρόοδο στην αναγνώριση ανθρώπινων κινήσεων. Σκοπός των εξελιγμένων

    συστημάτων επιτήρησης σε δημόσιους χώρους, όπως τα αεροδρόμια και οι

    σιδηροδρομικοί σταθμοί, οι τράπεζες (Σχήμα 2.1), είναι ο εντοπισμός σε πραγματικό χρόνο ασυνήθιστης ή ύποπτης ανθρώπινης δραστηριότητας, όπως κλοπή ή επίθεση,

    ώστε να παρέχεται δυνατότητα άμεσης αντίδρασης. Μια σχετική εφαρμογή

    περιλαμβάνει το ψάξιμο μιας συγκεκριμένης δραστηριότητας σε μεγάλες βάσεις

    δεδομένων μέσω της εκμάθησης προτύπων από μακράς διάρκειας video [28], [29].

    Διαδραστικά περιβάλλοντα και εφαρμογές. Η κατανόηση της αλληλεπίδρασης μεταξύ ανθρώπου και υπολογιστή παραμένει μια διαρκής πρόκληση στο πρόβλημα

    του σχεδιασμού διαπροσωπειών ανθρώπου-υπολογιστή. Τα οπτικά ερεθίσματα συνιστούν την πιο σημαντική μορφή επικοινωνίας χωρίς ήχο. Επομένως, η

    αποτελεσματική χρήση αυτής της μορφής επικοινωνίας, όπως οι χειρονομίες και οι

    κινήσεις, και η επιτυχής αναγνώριση της ανθρώπινης δραστηριότητας υπόσχονται

    την δημιουργία συστημάτων και υπολογιστών που αλληλεπιδρούν καλύτερα με τους χρήστες. Επιπροσθέτως, παρόμοια διαδραστικά συστήματα που βασίζονται στην

    αναγνώριση δραστηριότητας συμβάλλουν στη διαμόρφωση ενός ευφυούς

    περιβάλλοντος (intelligent environment), κατάλληλου για ηλικιωμένους ή παιδιά, βελτιώνοντας την ποιότητα ζωής τους.

  • 21

    Σχήμα 2.1: Παράδειγμα στιγμιοτύπων από το video της προσομοίωσης ληστείας σε τράπεζα

    [68] (a) Ένα άτομο εισέρχεται στην τράπεζα, (b) Ο ληστής εισέρχεται στην τράπεζα.

    Άγνωστος εισέρχεται στο χρηματοκιβώτιο, (c) Ένας πελάτης φεύγει από την τράπεζα, (d) Ο

    ληστής εξέρχεται.

    Ανάλυση video με βάση το περιεχόμενο. Τα video αποτελούν μέρος της καθημερινότητας των ανθρώπων και με την συνεχή εξάπλωση των ηλεκτρονικών

    κοινωνικών δικτύων που διαμοιράζουν πάσης φύσεως video κρίνεται αναγκαία η

    αποτελεσματική δημιουργία ευρετηρίου και αποθήκευση τους για την διευκόλυνση

    του χρήστη. Αυτή η διαδικασία απαιτεί την εκμάθηση προτύπων από video και την σύνοψη του περιεχομένου τους. Σε συνδυασμό με τις προόδους στην ανάκτηση

    εικόνας με βάση το περιεχόμενο (content-based image retrieval), το ενδιαφέρον για

    έρευνα στο πρόβλημα της σύνοψης του περιεχομένου των video αυξήθηκε σημαντικά [27]. H εμπορική εφαρμογή αυτής της τεχνολογίας είναι τα συστήματα

    που χρησιμοποιούνται στην ανάλυση αθλητικών αγώνων (sports play analysis). Η

    αναγνώριση των ενεργειών των μελών μιας αθλητικής ομάδας μπορεί να έχει πολλαπλές εφαρμογές, όπως η ανάλυση της τακτικής της, η εξαγωγή στατιστικών

    στοιχείων, ο αυτόματος σχολιασμός ενός αγώνα και ο αυτόματος έλεγχος μιας

    κάμερας αναμετάδοσης ενός αγώνα ( Σχήμα 2.2).

    Στην συνέχεια, θα δώσουμε έμφαση στις μεθόδους που έχουν χρησιμοποιηθεί στην

    αναγνώριση της ανθρώπινης δραστηριότητας σε υψηλό επίπεδο (high-level).

    2.2 Μέθοδοι αναγνώρισης ανθρώπινων δραστηριοτήτων

    Η πρόοδος στον τομέα της έρευνας που αφορά στην αναγνώριση της ανθρώπινης

    δραστηριότητας είναι αξιοσημείωτη και οι μεθοδολογίες που έχουν προταθεί από τους

    ερευνητές για την επίλυση του προβλήματος είναι πολλές και αξίζει να σημειωθεί ότι δε

    βασίζονται όλες στην ίδια προσέγγιση του προβλήματος. Σε αυτήν την ενότητα, θα περιγραφούν οι διάφορες μεθοδολογίες υψηλού επιπέδου αναγνώρισης κινήσεων,

    αλληλεπιδράσεων και ομαδικών δραστηριοτήτων. Επίσης, θα παρουσιαστεί μια ταξινόμησή

    τους που προτάθηκε από τους J.K Aggrarwal και M.S. Ryoo [1]. Η ταξινόμηση αυτή απεικονίζεται στο σχήμα 2.3 και όπως φαίνεται διακρίνονται δυο βασικές κατηγορίες

    μεθοδολογιών, οι single-layered ή μονής στιβάδας και οι ιεραρχικές και οι υποκατηγορίες

    τους που περιγράφονται λεπτομερώς στη συνέχεια.

  • 22

    Σχήμα 2.2: Διεπαφή χρήστη ενός συστήματος sport play analysis [1]. Τρεις παίκτες έχουν

    εντοπιστεί, και το σύστημα εστιάζει στον παίκτη της δεξιάς πλευράς.

    Σχήμα 2.3: Tαξινόμηση των μεθοδολογιών με βάση τον τρόπο προσέγγισης του

    προβλήματος.

    2.2.1 Μέθοδοι Single-layered ή μονής στιβάδας

    Ως single-layered χαρακτηρίζονται οι μέθοδοι που αναγνωρίζουν τις ανθρώπινες

    δραστηριότητες κατευθείαν από τα δεδομένα της ακολουθίας εικόνων. Κάθε δραστηριότητα

    αντιπροσωπεύει μια συγκεκριμένη κλάση από ακολουθίες εικόνων και στόχος των μεθόδων αυτού του είδους είναι να αναγνωρίσουν τη δραστηριότητα που περιλαμβάνεται σε μια

    άγνωστη ακολουθία εικόνων, κατατάσσοντάς την στη σωστή κλάση, με τη χρήση

    αλγορίθμων κατηγοριοποίησης. Αξίζει να σημειώσουμε, ότι όταν στη διαδικασία της εκπαίδευσης του αλγορίθμου εισαχθούν πρότυπα ακολουθιών από εικόνες που

    αντιπροσωπεύουν συγκεκριμένες κινήσεις ή δραστηριότητες, η επίδοση των μεθόδων single-

  • 23

    layered βελτιώνεται. Tέλος, κύριο αντικείμενο των μεθόδων αυτής της προσέγγισης αποτελεί

    η αναγνώριση σχετικά απλών διαδοχικών κινήσεων, όπως το χειροκρότημα και το τρέξιμο.

    Υπάρχουν δυο κύριες υποκατηγορίες των single-layered προσεγγίσεων : οι προσεγγίσεις

    χώρου-χρόνου (space-time) και οι ακολουθιακές (sequential).

    2.2.1.1 Space-time

    Όπως είναι γνωστό, ένα video δεν είναι τίποτε άλλο παρά μια ακολουθία εικόνων

    τοποθετημένων σε χρονική σειρά. Οι εικόνες αποτελούν την προβολή της τρισδιάστασης

    πραγματικότητας σε δυο διαστάσεις και περιέχουν σχηματισμούς ανθρώπων και αντκειμένων. Επομένως, είναι δυνατή η αναπαράσταση ενός video με τον συνδυασμό της

    εικόνας στον χώρο και το χρόνο, ως όγκο στο χωροχρόνο (3D XYT space-time volume).

    Μια τυπική μεθοδολογία αναγνώρισης ανθρώπινης δραστηριότητας που βασίζεται στον τρισδιάστατο όγκο χωροχρόνου ενός video και σε έναν αλγόριθμο ταιριάσματος προτύπων

    είναι η ακόλουθη. Αρχικά, κατασκευάζεται ένα μοντέλο 3D XYT space-time για κάθε

    δραστηριότητα που ανήκει στο σύνολο εκπαίδευσης. Στη συνέχεια, για κάθε άγνωστη ακολουθία εικόνων που δίνεται ως είσοδος στο σύστημα αναγνώρισης, κατασκευάζεται ο

    όγκος χωροχρόνου που την αντιπροσωπεύει. Τέλος, χρησιμοποιώντας έναν αλγόριθμο

    ταιριάσματων προτύπων, ο νέος όγκος χωροχρόνου συγκρίνεται με τα υπάρχοντα πρότυπα

    και επιλέγεται η δραστηριότητα εκείνη που το πρότυπό της ταιριάζει περισσότερο (Σχήμα 2.4).

    Εκτός από την τυπική αναπαράσταση των video στο χωροχρόνο που μόλις παρουσιάστηκε, έχουν προταθεί και άλλες προσεγγίσεις του προβλήματος. Πρώτον, η

    δραστηριότητα ενός ατόμου ή μιας ομάδας ατόμων μπορεί να αναπαρασταθεί ως ένα σύνολο

    από τροχιές, δεδομένου ότι υπάρχει η δυνατότητα να εντοπιστούν σημεία ενδιαφέροντος, όπως παραδείγματος χάριν, η θέση των αρθρώσεων του ανθρώπινου σώματος. Δεύτερον, μια

    δραστηριότητα μπορεί να αποδοθεί ως ένα σύνολο από χαρακτηριστικά (features), τα οποία

    έχουν εξαχθεί από τα δεδομένα που αναπαριστούν τον όγκο ή την τροχιά της κίνησης.

    Ως προς τους αλγορίθμους αναγνώρισης που χρησιμοποιούνται για το ταίριασμα των

    όγκων, των τροχιών ή των χαρακτηριστικών τους, υπάρχουν επίσης αρκετές διαφορετικές

    προσεγγίσεις. Στη συνέχεια, γίνεται εκτενέστερη αναφορά στις βασικές μεθόδους αναπαράστασης της ακολουθίας εικόνων, καθώς και στους διάφορους αλγορίθμους που

    χρησιμοποιούνται στην αναγνώριση της ανθρώπινης δραστηριότητας.

    Σχήμα 2.4: Παραδείγματα τρισδιάστατων όγκων ΧΥΤ κατακευασμένα από : (a) ολόκληρες

    εικόνες και (b) blob εικόνων από εικονοσειρά που αναπαριστά την κίνηση «γρονθοκοπώ».

  • 24

    2.2.1.1.1 Space-time volume

    Η αναγνώριση κινήσεων μέσω της αναπαράστασης του όγκου στο χωροχρόνο βασίζεται πρωτίστως στον υπολογισμό της ομοιότητας μεταξύ των όγκων που έχουν προκύψει από

    διαφορετικές ακολουθίες εικόνων. Επομένως, ένα τέτοιο σύστημα αναγνώρισης πρέπει να

    είναι σε θέση να υπολογίσει πόσο όμοιες είναι δυο ανθρώπινες κινήσεις που περιλαμβάνονται

    σε αυτές τις ακολουθίες εικόνων. Για την εξαγωγή συμπερασμάτων περί ομοιότητας έχουν προταθεί διαφορετικοί τύποι αναπαράστασης του όγκου στο χωροχρόνο, αλλά και

    διαφορετικοί τρόποι ταιριάσματος των όγκων για την αναγνώριση των κινήσεων.

    Οι Βobick και Davis [2] πρότειναν ένα σύστημα αναγνώρισης κινήσεων πραγματικού

    χρόνου το οποίο χρησιμοποιεί ταίριασμα προτύπων. Σε αντίθεση με άλλα συστήματα που

    διατηρούν τον τρισδιάστατο όγκο του χωροχρόνου για κάθε κίνηση, το σύστημα αυτό

    αναπαριστά κάθε κίνηση με ένα πρότυπο που αποτελείται από δύο δισδιάστατες εικόνες : μια δυαδική εικόνα ενέργειας της κίνησης (motion-energy image, MEI) και μια εικόνα ιστορικού

    της κίνησης (motion-history image, MHI) (Σχήμα 2.6). Οι δύο εικόνες κατασκευάζονται από

    μια ακολουθία εικόνων στο μπροστινό πλάνο, οι οποίες αποτελούν ουσιαστικά δισδιάστατες προβολές (ΧΥ) του αρχικού τρισδιάστατου όγκου ΧΥΤ στον χωροχρόνο. Στη συνέχεια, με τη

    χρήση μιας παραδοσιακής τεχνική ταιριάσματος προτύπων το σύστημα αυτό

    πραγματοποίησε επιτυχημένα αναγνώριση απλών κινήσεων, (π.χ. κάθομαι, σκύβω) με εφαρμογή σε διαδραστικό περιβάλλον για παιδιά με το όνομα Κids Room (Σχήμα 2.5).

    Οι Shechtman και Irani [3] για την επίτευξη της αναγνώρισης της ανθρώπινης

    δραστηριότητας χρησιμοποιούν την οπτική ροή (optical flow) του τρισδιάστατου όγκου χωροχρόνου. Επιπλέον, μετρώντας την ομοιότητα που υπάρχει μεταξύ του εξαγώμενου

    όγκου ενός νέου video και των πρότυπων όγκου που έχουν στη διαθεσή τους, κατασκευάζουν

    μια συσχέτιση με τα πρότυπα video. Ο υπολογισμός της ομοιότητας γίνεται ως ακολούθως: σε κάθε σημείο του όγκου, ας πούμε (x,y,t), εξάγεται ένα μικρό κομμάτι γύρω από το σημείο

    αυτό. Κάθε μικρό τεμάχιο όγκου περιέχει τη ροή της κίνησης στη συγκεκριμένη περιοχή και

    επομένως, η συσχέτιση ενός τμήματος από ένα πρότυπο με το τμήμα ενός video που βρίσκεται στην ίδια ακριβώς περιοχή, δίνει ένα τελικό τοπικό αποτέλεσμα ως προς την

    ομοιότητα. Αθροίζοντας όλα αυτά τα επιμέρους αποτελέσματα, τελικά υπολογίζεται η

    συνολική συσχέτιση ανάμεσα στα πρότυπα όγκου και τον όγκο του video που εξετάζει το

    σύστημα κάθε φορά. Έτσι, όταν δοθεί ένα άγνωστο video, το σύστημα υπολογίζει όλα τα πιθανά τρισδιάστατα τεμάχια όγκου με κέντρο κάθε (x,y,t) που ταιριάζουν περισσότερο με το

    πρότυπο. Η εφαρμογή του συστήματος πραγματοποιήθηκε επιτυχώς σε διάφορα είδη

    ανθρώπινης κίνησης όπως, καταδύσεις, κινήσεις μπαλέτου κ.α.

    Σχήμα 2.5: Kids Room.

  • 25

    Σχήμα 2.6: Παραδείγματα αναπαράστασης της κίνησης στο χωροχρόνο, εικόνες ΜΗΙ από

    τους Bobick, Davis [2].

    Oι Κe et al. [4] αξιοποίησαν την κατάτμηση του όγκου στο χωροχρόνο για να μοντελοποιήσουν ανθρώπινες δραστηριότητες. Το σύστημά τους εφαρμόζει έναν ιεραρχικό

    αλγόριθμο meanshift για να κατηγοριοποιήσει τα voxels ανάλογα με το χρώμα τους,

    αποκτώντας έτσι κατατετμημένους όγκους. Η αναγνώριση της κίνησης επιτυγχάνεται

    ψάχνοντας για ένα υποσύνολο κατατετμημένων όγκων που ταιριάζουν περισσότερο με το πρότυπο της κίνησης. Το σύστημα εφαρμόστηκε στην αναγνώριση απλών κινήσεων της

    βάσης KTH [5], καθώς επίσης και σε αγώνες αντισφαίρισης σε video με πιο πολύπλοκο

    background.

    Μια διαφορετική τεχνική χρησιμοποίησαν οι Rodriguez et al. [6] για την αναγνώριση

    κινήσεων, καθώς ανέλυσαν τους τρισδιάστατους όγκους στο χωροχρόνο με τη σύνθεση φίλτρων και συγκεκριμένα, των ΜΑCH (maximum average correlation height) φίλτρων. Για

    κάθε κίνηση, δημιουργείται ένας συνδυασμός φίλτρων που ταιριάζει με τον παρατηρούμενο

    όγκο και η ταξινόμηση των κινήσεων γίνεται εφαρμόζοντας το σύνθετο MACH φίλτρο κάθε

    κίνησης στο άγνωστο video και αναλύοντας την απόκρισή του. Πειράματα με χρήση της μεθόδου αυτής πραγματοποιήθηκαν πάνω στις βάσεις KTH και Weizmann [7].

    Γενικά, το μεγαλύτερο μειονέκτημα των προσεγγίσεων που βασίζονται στον τρισδιάστατο όγκο του χωροχρόνου αποτελεί η δυσκολία αναγνώρισης κινήσεων όταν στη

    σκηνή είναι παρόντα πολλά άτομα. Το πρόβλημα αυτό συνήθως αντιμετωπίζεται με

    αλγορίθμους συρόμενου παραθύρου (sliding-window), όμως το υπολογιστικό κόστος είναι

  • 26

    μεγάλο. Επιπλέον, η δυσκολία των προσεγγίσεων αυτών να αναγνωρίσουν κινήσεις που δεν

    μπορούν να τεμαχιστούν χωρικά αποτελεί ένα ακόμη μειονέκτημα.

    2.2.1.1.2 Space-time trajectories

    Για την αναγνώριση της ανθρώπινης δραστηριότητας υπάρχουν προσεγγίσεις που

    αντιλαμβάνονται την δραστηριότητα ως ένα σύνολο από τροχιές στο χωροχρόνο. Ένα άτομο αναπαρίσταται, συνήθως, ως σύνολο δισδιάστατων (ΧΥ) ή τρισδιάστατων (ΧΥΖ) σημείων

    που ανταποκρίνονται στις θέσεις των αρθρώσεων του. Επομένως, όταν το άτομο

    πραγματοποιεί μια κίνηση, οι αλλαγές στις θέσεις των αρθρώσεών του καταγράφονται ως τροχιές στο χωροχρόνο και τελικά, κατασκευάζεται μια αναπαράσταση σε τρεις (ΧΥΤ) ή

    τέσσερις (ΧΥΖΤ) διαστάσεις.

    Μερικές προσεγγίσεις για την αναπαράσταση και αναγνώριση των κινήσεων χρησιμοποιούν απ’ευθείας τις τροχιές. Παραδείγματος χάριν, οι Sheick et al. [8]

    αναπαριστούν μια κίνηση ως ένα σύνολο από 13 τροχιές σε έναν τετραδιάστατο ΧΥΖΤ χώρο,

    με σκοπό τον υπολογισμό της ομοιότητας μεταξύ δύο συνόλων από τροχιές ανεξάρτητα από την οπτική γωνία. Ομοίως, οι Yilmaz και Shah [9] κάνουν χρήση όμοιας αναπαράστασης για

    τη σύγκριση video από κάμερες που κινούνται.

    Μια διαφορετική προσέγγιση εισήγαγαν οι Campbell και Bobick [10], οι οποίοι επιχειρούν την αναπαράσταση των ανθρώπινων κινήσεων ως καμπύλες σε χώρους φάσης

    χαμηλών διαστάσεων. Ο πυρήνας της μεθόδου τους είναι ότι όρισαν τη φάση χώρου ενός

    σώματος ως ένα χώρο όπου κάθε άξονας αποτελεί είτε μια ανεξάρτητη παράμετρο του σώματος(π.χ. γωνία αστραγάλου, γωνία γονάτου), είτε την πρώτη της παράγωγο. Στη φάση

    χώρου η στάσιμη κατάσταση του ατόμου σε κάθε κίνηση θεωρείται ένα σημείο και μια

    κίνηση αποτελείται από ένα σύνολο σημείων, όπως μια καμπύλη. Σύμφωνα με την προσέγγιση αυτή, η καμπύλη προβάλλεται σε πολλαπλούς δισδιάστατους υποχώρους και

    αποθηκεύεται για να αντιπροσωπεύσει την κίνηση. Τελικά, από όλες τις δυνατές καμπύλες

    των δισδιάστατων υποχώρων το σύστημα επιλέγει τις πιο αξιόπιστες που θα

    χρησιμοποιηθούν στη διαδικασία αναγνώρισης. Η αναγνώριση μιας κίνησης επιτυγχάνεται μετατρέποντας ένα άγνωστο video σε ένα σύνολο σημείων μέσα στο χώρο φάσης και έπειτα,

    το σύστημα είναι σε θέση να επιβεβαιώσει αν τα σημεία βρίσκονται πάνω στις προβολές των

    αποθηκευμένων καμπυλών. Η μέθοδος των Campbell και Bobick εφαρμόστηκε με επιτυχία σε βασικές κινήσεις μπαλέτου.

    Σε αντίθεση με τις προηγούμενες μεθοδολογίες, όπου είναι απαραίτητη η διατήρηση της

    τροχιάς στο χωροχρόνο, οι Rao και Shah [11] εξήγαγαν χρήσιμα σχέδια καμπυλότητας από τις τροχιές. Το σύστημά τους εντοπίζει τις θέσεις των κορυφών των καμπυλωτών τροχιών,

    και αναπαριστά μια κίνηση με ένα σύνολο από κορυφές και ολοκληρώματα μεταξύ των, τα

    οποία είναι δε ανεξάρτητα από την οπτική γωνία. Έτσι, καθίσταται δυνατή η κατασκευή προτύπων κινήσεων και η αναγνώριση επιτυγχάνεται με αλγορίθμους ταιριάσματος

    προτύπων.

    Το βασικό πλεονέκτημα των παραπάνω προσεγγίσεων είναι η ικανότητα να αναλύουν

    τις λεπτομέρειες των ανθρώπινων κινήσεων, με αποτέλεσμα να συμβάλλουν στην

    αναγνώριση κινήσεων διαφορετικών κλάσεων που παρουσιάζουν πολλές ομοιότητες μεταξύ

    τους. Επιπροσθέτως, οι περισσότερες μέθοδοι πους βασίζονται στην ανάλυση τροχιών είναι ανεξάρτητες από την οπτική γωνία. Παρ’όλα αυτά, για τον υπολογισμό των αρθρώσεων των

    ατόμων που εμφανίζονται στη σκηνή σε τρεις διαστάσεις ΧΥΖ, απαιτείται ένα ισχυρό low-

    level υπόβαθρο. Δηλαδή, οι παραπάνω προσεγγίσεις απαιτούν τη χρήση αποτελεσματικών αλγορίθμων τρισδιάσταστης ανίχνευσης και εντοπισμού των μελών του ανθρώπινου

    σώματος.

  • 27

    2.2.1.1.3 Space-time features

    Οι μέθοδοι που ανήκουν σε αυτήν την κατηγορία χρησιμοποιούν τοπικά χαρακτηριστικά που εξάγονται από τους τρισδιάστατους όγκους στο χωροχρόνο για να αναπαραστήσουν και

    να αναγνωρίσουν την ανθρώπινη δρστηριότητα. Για να περιγραφεί επαρκώς μια μέθοδος

    τύπου space-time features, είναι απαραίτητο να απαντηθούν τρια ερωτήματα που την

    αφορούν. Πρώτον, ποιά τοπικά χαρακτηριστικά εξάγει , δεύτερον, με ποόν τρόπο τα αξιοποιεί για να αναπαραστήσει μια κίνηση και τέλος, ποια μεθοδολογία χρησιμοποιεί για

    την ταξινόμηση των κινήσεων.

    Οι Chomat και Crowley [12] χρησιμοποίησαν τοπικούς περιγραφείς εμφάνισης

    (appearance descriptors). Στο σύστημα