Abstract | U ovoj doktorskoj disertaciji razmotren je problem identifikacije osoba upotrebom
RGB-dubinske (engl. Red, Green, Blue - Depth, RGB-D) kamere. RGB (engl.
Red, Green, Blue) kamera je uređaj koji omogućava stjecanje slika u boji (RGB
slike), a RGB-D kamera je uređaj koji pored slika u boji pruža i dubinske slike.
Dubinska slika (još se naziva i dubinska mapa) je slika čiji elementi, pikseli, imaju
kodiranu vrijednost koja predstavlja udaljenost objekta od kamere.
Osnovna motivacija istraživanja je bila realizirati pristup za identifikaciju osoba
koji se može primijeniti u uslužnoj robotici, ali i u drugim područjima kao što su,
primjerice, sigurnosni sustavi. Uslužni robot predstavlja vrstu robota koji djeluje
djelomično ili potpuno autonomno s ciljem obavljanja postavljenih zadataka za
ljude ili opremu. Napretkom tehnologije otvorene su mogućnosti zajedničkog djelovanja uslužnih robota i ljudi u istom okruženju. Uslužni roboti će biti u stanju pomagati osobi u njenom domu, bolnici, uredu ili nekom drugom mjestu. Uslužni
robot često mora biti u stanju, ne samo detektirati prisustvo osobe, nego i utvrditi
identitet osobe s kojom je u interakciji da bi na učinkovit način izvršio zadatak koji
se pred njega postavlja. Za tu svrhu uslužni roboti mogu upotrebljavati razne vrste
osjetila i kamera kojima su opremljeni. Većina uslužnih robota novije generacije
opremljena je RGB-D kamerama.
Pod pretpostavkom da je analizom opažanja svoje kamere (ili više kamera)
uslužni robot detektirao prisustvo osobe, identifikacija osoba podrazumijeva proces u kojemu robot upotrebom odgovarajućeg algoritma obavlja podudaranje
značajki izlučenih iz slika jedne ili više kamera, koje se odnose na detektiranu
osobu, sa značajkama predložaka (engl. Template) spremljenih u bazi osoba
(engl. Gallery), a s ciljem određivanja specifične osobe. Jedan predložak u bazi
osoba sadržava skup značajki (primjerice, značajke lica ili značajke hoda) koji se
odnosi na određenu osobu. Pored skupa značajki svakoj osobi se mogu pridružiti
i dodatne informacije poput imena i prezimena, uloge, titule i slično. Navedene
dodatne informacije mogu biti relevantne u nekim primjenama jer se robot osobi
može obratiti, primjerice, imenom ili prezimenom. Predlošci se spremaju u bazu
osoba u postupku upisa osoba u bazu (engl. Enrollment) i predstavljaju identitet osobe u kontekstu navedene primjene.
Tradicionalni pristup za identifikaciju osoba bio je zasnovan na primjeni RGB
kamera, no danas su RGB-D kamere široko dostupne, pružaju RGB slike kao i
RGB kamere, a dodatno pružaju i dubinske slike pa se danas sve više upotrebljavaju u ovom području umjesto RGB kamera. Prednost upotrebe dubinskih slika
jest mogućnost izlučivanja određenih značajki koje se mogu dobiti isključivo analizom dubinskih slika. Takva značajka je, primjerice, visina osobe. U disertaciji su
istražene postojeće metode za identifikaciju osoba RGB kamerama, kao i metode
temeljene na RGB-D kamerama.
Znanstveni doprinos disertacije predstavlja prijedlog novih metoda za identifikaciju osoba RGB-D kamerom na temelju njihova hoda. Općenito, prednost
metoda identifikacije osoba na temelju hoda jest u tome što takav način identifikacije ne zahtijeva interakciju s osobom kao što je to slučaj s većinom drugih
metoda identifikacije poput identifikacije otiskom prsta, identifikacije na temelju
elemenata oka (šarenica ili mrežnica oka) i drugih. Predložene metode za identifikaciju osoba na temelju hoda kombiniraju značajke koje se mogu dobiti iz RGB
ili dubinskih slika (siluete osobe) i značajku dobivenu iz dubinskih slika (visina
osobe).
U eksperimentalnom istraživanju vrednovane su predložene metode te su prezentirani rezultati. Tijekom istraživanja upotrebljavana su tri skupa podataka koji sadržavaju slike ili videozapise s osobama u hodu, od kojih dva javno dostupna
skupa podataka koje često upotrebljavaju i drugi autori te novi, vlastiti skup podataka. Vlastiti skup podataka sadržava videozapise visoke razlučivosti za 14
osoba u hodu, a specifičan je po tome što je kreiran s RGB-D kamerom, koja ima
domet do 20 m, u vanjskom okruženju.
Iz dobivenih rezultata vidljivo je da predložene metode postižu veću točnost
identifikacije osoba u odnosu na metode identifikacije osoba na temelju hoda koje
su upotrebljavane za usporedbu kao sto su slika energije hoda (engl. Gait Energy
Image, GEI) i popunjena slika energije hoda (engl. Backfilled Gait Energy Image,
BGEI). |
Abstract (english) | In this dissertation, the problem of person identification with an RGB-Depth (Red,
Green, Blue - Depth, RGB-D) camera was considered. An RGB camera is a
device that can capture color images (RGB images). An RGB-D camera, on the
other hand, is a device that provides depth images in addition to color images. A
depth image (also called a depth map) is an image in which a value is encoded
in each pixel that represents the distance of an object from the camera.
The main motivation was to implement a person identification approach that
can be used in service robotics, but also in other areas such as security systems.
A service robot is a type of robot that operates semi- or fully autonomously to
perform specific tasks. Technological advancements offer many opportunities for
service robots to work alongside humans in an environment. In the future, service
robots will be able to help people in their homes, hospitals, offices, or other locations. A service robot often needs to not only detect the presence of a person, but
also be able to determine the identity of the person it is interacting with in order
to efficiently perform a specific task assigned to it. For this purpose, service robots can be equipped with and use different types of sensors and cameras. New
generation service robots are usually equipped with RGB-D cameras.
In this dissertation, the term person identification refers to the process of matching the features extracted from the robot’s camera input data related to the
detected person with the features stored in the database (Templates). The database is referred to as the gallery. A template in the gallery contains a set of
features (e.g., facial features or gait features) related to a particular person. In
addition to a set of features, each person may be accompanied by additional information such as first name, last name, function, title, etc. The above additional
information may be important in some applications, as the robot may address the
person by first or last name, for example. The templates are stored in the gallery in a process called enrollment, and in this context represent the identity of a
person.
In the past, RGB cameras were typically used in this area, but today RGB-D
cameras are widely used and also provide depth images, so they are increasingly used in this area instead of RGB cameras. The advantage of using depth images
is the ability to obtain certain features that can only be obtained by using depth
images. For example, one such feature is the height of a person. In this dissertation, existing methods for person identification using RGB cameras as well as
newer methods based on RGB-D cameras have been investigated.
The scientific contribution of this dissertation is a proposal for two new methods using RGB-D camera for person identification based on gait. The advantage
of the methods for gait identification is that they do not require any interaction with
the person to be identified. This distinguishes them from many other methods,
e.g. fingerprint, identification based on eye features (iris or retina), etc. The newly
proposed methods for person identification combine features that can be obtained
from RGB or depth images (silhouettes of a person) and a feature that can only
be obtained from depth images (height of a person).
In the experimental study, the proposed methods were validated and the results are presented. For the study, three datasets of images and videos of people
were used for gait recognition. These are two publicly available datasets that are
commonly used by other authors and are well-known in the research community,
and a new user-defined dataset. The new dataset contains high-resolution videos
of 14 people walking and was created using an RGB-D camera that has a range
of up to 20 m and is suitable for outdoor environments.
The results show that the proposed methods achieve better results than classical appearance-based gait recognition methods such as Gait Energy Image
(GEI) and Backfilled Gait Energy Image (BGEI). |