Założenia i cele Aktualności Komitet Sterujący Kontakt

Założenia i cele projektu Simpoz:


autorzy: Z. Bubliński, W. Chmiel, M. Jabłoński, P. Kadłuczka, T. Kryjak, Z. Mikrut, P. Pawlik, R. Tadeusiewicz
AGH Akademia Górniczo-Hutnicza w Krakowie, Wydział EAIiE, Katedra Automatyki

Streszczenie

Celem projektu realizowanego w Katedrze Automatyki jest stworzenie wydajnego narzędzia wspomagającego proces nadzoru przestrzeni i obiektów publicznych, w oparciu o automatyczną analizę obrazów cyfrowych. Przy założeniu szeroko pojętej ogólności zagrożeń, które mają być wykrywane, konstrukcja programu do automatycznego wspomagania nadzoru nie jest zagadnieniem trywialnym, ze względu na nieprzewidywalną wielowariantowość obserwowanych sytuacji. Opracowanie efektywnego systemu wymaga rozwiązania szeregu zagadnień, skomplikowanych od strony koncepcyjnej i trudnych w realizacji algorytmicznej. Zadaniem inteligentnego systemu wspomagania monitoringu jest wskazanie obsłudze systemu sytuacji potencjalnie podejrzanych z punktu widzenia przyjętych kryteriów bezpieczeństwa. W celu przezwyciężenia pojawiających się tu trudności tworzone są algorytmy, których działanie opiera się nie tylko na przetwarzaniu i analizie obrazów, ale także na próbach automatycznego rozumienia znaczenia obserwowanych scen, czyli imitowanych komputerowo elementach ludzkiego postrzegania i toku myślenia, związanego z ocenianym obrazem.

słowa kluczowe: przetwarzanie obrazu, sztuczna inteligencja, zarządzanie procesem monitoringu

Wprowadzenie

W związku z dynamicznym rozwojem systemów monitoringu pozyskanie danych o chronionym obiekcie nie przedstawia obecnie żadnej trudności. W szczególności tanie i łatwo dostępne kamery obserwacyjne połączone z szybkimi sieciami przesyłu danych obrazowych powodują, że można gromadzić dowolną liczbę danych obrazowych i wideo, pozwalających (pozornie) wiedzieć w każdej chwili wszystko o monitorowanej przestrzeni lub o obiekcie szczególnego znaczenia. Jest to jednak możliwość potencjalna, bowiem przy dużej liczbie punktów obserwacyjnych znika wprawdzie kwestia niedostępności informacji o tym, co się dzieje w takim lub innym fragmencie monitorowanego obszaru, istotnym problemem staje się jednak równoczesna obserwacja obrazów z wielu kamer. Jeden obserwator nie może ogarnąć wzrokiem więcej niż kilka do kilkunastu obrazów, a dzielenie strumienia informacji wizyjnej na fragmenty przypisane do różnych obserwatorów obniża skuteczność wykrywania zagrożeń wynikającą z możliwości obserwowania podejrzanego zachowania intruza przemieszczającego się pomiędzy sektorami obserwacji.

Realne zagrożenie terroryzmem wymusza poprawę zabezpieczenia ważnych obiektów. Może być to realizowane przez wzrost liczby zatrudnionych pracowników ochrony lub poprawę efektywności ich pracy. Praca ta jest odpowiedzialna, trudna i niewdzięczna. Istota problemu polega na tym, że z jednej strony świadomość konsekwencji przeoczenia ważnej informacji o zagrożeniu zmusza do skupienia uwagi i natężonego wysiłku przy obserwacji obrazów z kamer (co wywołuje stres), a z drugiej strony brak jakichkolwiek zagrożeń (przez całe godziny, dni i miesiące!) jest normą we wszystkich systemach kontroli bezpieczeństwa. W sytuacji długotrwałego obserwowania scen, które nie zawierają żadnych podejrzanych treści u osób pełniących funkcje obserwatorów dochodzi do zjawiska psychologicznego zwanego deprywacją (długotrwały brak istotnych bodźców aferentnych) – co radykalnie obniża ich czujność i stwarza wielkie prawdopodobieństwo braku właściwej reakcji w momencie, kiedy pojawi się realne zagrożenie. Tę trudną, odpowiedzialną i stresującą pracę osób odpowiedzialnych za bezpieczeństwo obiektów szczególnie chronionych trzeba więc wspomagać odpowiednią techniką.

Celem projektu jest stworzenie zaawansowanego systemu analizy obrazu wspomagającego proces nadzoru. Wymaga to opracowania koncepcji i realizacji złożonych algorytmów, których podstawowymi zadaniami są: detekcja i śledzenie ruchomych obiektów, wykrywanie naruszenia stref zabronionych oraz lokalizacja porzuconych przedmiotów.

Powstający system musi być elastyczny pod względem możliwości dostosowywania się do zmiennego otoczenia oraz związanych z tym zmian metod analizy. Będzie to możliwe dzięki integracji algorytmów z modułem wspierającym elastyczne zarządzanie informacją uzyskaną z nadzorowanych stref. Dzięki klasyfikacji i automatyzacji obsługi, możliwa będzie szybsza reakcja w sytuacjach kryzysowych oraz oddzielenie informacji o dużym znaczeniu dla bezpieczeństwa - od informacji mniej istotnych.

Konieczność obserwacji coraz większej liczby obiektów, znacznie różniących się swoją specyfiką, wymusza rozwój i wzrost znaczenia komputerowej analizy obrazów cyfrowych jako narzędzia wstępnie oceniającego rejestrowane informacje wizyjne w celu oddzielenia nielicznych informcji ważnych od ogormnej liczby informacji nieistotnych (pokazujących, że w polu widzenia odpowiednich kamer nic istotnego się nie dzieje). Obecnie tworzone oprogramowanie przetwarza i klasyfikuje nie tylko pojedyncze obrazy (pochodzące z badań medycznych, eksperymentów biologicznych, oceny śladów kryminalistycznych, obróbki obrazów fotografii cyfrowej itp.), ale także w coraz szerszym zakresie analizuje sekwencje takich obrazów (w postaci zarejestrowanych filmów lub strumieni wideo, otrzymywanych na bieżąco z kamer). Spośród wielu zastosowań techniki cyfrowej analizy obrazów, coraz powszechniej wymieniany jest monitoring, czyli zdalna obserwacja interesujących nas miejsc.

Założenia i cele projektu

Skonstruowanie programu do automatycznego wspomagania nadzoru w ogólnym przypadku jest zagadnieniem bardzo złożonym. Podczas tworzenia oprogramowania trzeba rozwiązać szereg zagadnień, skomplikowanych od strony koncepcyjnej i trudnych w realizacji algorytmicznej. Najprostsza do automatycznej oceny jest sytuacja, w której obserwowany obraz przez dłuższy czas pozostaje bez zmian. Taki obraz z pewnością nie wywołuje alarmu, nie niesie interesujących informacji i poza stałym nadzorem nie wymaga żadnych specjalnych działań. Sytuacja przeciwna, znacznie trudniejsza do automatycznej oceny, nie zawsze prowadzi przeciwnego wniosku. Jest bowiem mnóstwo zmian wykrywanych na obrazach, które jednak nie oznaczają niebezpieczeństwa. Klasycznym przykładem są zmiany oświetlenia obserwowanej sceny, czy - związane z tymi zmianami – efekty powstawania na obrazach obiektów, nieistotnych z punktu widzenia analizy, takich jak odblaski i cienie. Innym przykładem jest monitoring np. dworca lub lotniska. Na scenie występuje zazwyczaj bardzo dużo ruchu (przemieszczających się osób), który nie jest związany z sytuacją alarmową.

Dla przezwyciężenia pojawiających się tu trudności konstruowane są algorytmy, których działanie opiera się nie tylko na przetwarzaniu i analizie obrazów, ale także na elementach ludzkiego postrzegania i toku myślenia związanego z ocenianym obrazem. Przykładem takiego podejścia jest zastosowanie rozwijanej od kilku lat w Katedrze Automatyki AGH dziedziny „rozumienia obrazów” (Image Understanding) - przedstawionej m.in. w pracach [], [6], [], []. Stanowi ona naturalną kontynuacją i uzupełnienie procesów „detekcji” i „rozpoznawania”.


Rys.1 Schemat projektowanego systemu nadzoru wraz z poszczególnymi zadaniami realizowanymi na poszczególnych poziomach.

Na rysunku 1 przedstawiono schemat ideowy tworzonego systemu. W objaśnieniach po prawej stronie rysunku wymieniono podstawowe zadania, realizowane na kolejnych poziomach. Na uwagę zasługuje rozbudowany moduł konfiguracyjny, który umożliwia zdefiniowanie obszarów podlegających i nie podlegających analizie, stref chronionych, itp. oraz identyfikowanie (nazwanie) istotnych elementów obserwowanej sceny. Z wyników tej identyfikacji będzie korzystał eksperymentalny moduł Elementy rozumienia. Moduł konfiguracyjny pozwala ponadto określić (doświadczalnie) tzw. strukturę 2,5D sceny, rozumianą jako uwzględnienie zmian wielkości obiektów w zależności od ich położenia (perspektywa). Drugim interesującym blokiem jest Korekta - sprzężenie zwrotne pomiędzy modułami: Elementy rozumienia a Poziom analizy, którego działanie jest analogiczne do obserwowanego u ludzi mechanizmu przenoszenia (zwracania) baczniejszej uwagi na interakcje pomiędzy szczególnie istotnymi, wykrytymi obiektami.

Ważnym elementem badań jest implementacja takich rozwiązań, które pozwolą stworzyć system skutecznie działający w różnych konfiguracjach, dostosowanych do zmiennych celów zastosowania. Obecnie niewystarczające jest stworzenie odrębnych algorytmów częściowo przetwarzających wyodrębnioną informację. Dostosowanie do współczesnych wymagań wymusza powstanie platformy, umożliwiającej pełne zarządzanie przetwarzaną informacją. Obejmuje ono zarówno przepływ informacji pomiędzy modułami systemu, jak również dostarczanie jej odbiorcom końcowym. Otwartość oraz możliwość łatwej rekonfiguracji systemu jest podstawowym paradygmatem, do jakiego obecnie muszą się stosować wszystkie systemy zarządzania informacją, szczególnie w tak ważnych dziedzinach jak bezpieczeństwo publiczne.

Dzięki modularnej budowie systemu będzie możliwe przeniesienie pewnych elementów logiki działania systemu na wyższy poziom. Pozwoli to na łatwe dodawanie oraz usuwanie poszczególnych modułów, łączenie uzyskiwanych informacji w formuły logiczne, decydujące o wykonaniu zadanych akcji w systemie. Zastosowane rozwiązanie wprowadza nową jakość w dziedzinie monitoringu przestrzeni szczególnego znaczenia.

Automatyzacja obsługi zdarzeń w systemie w oparciu o całościowe zarządzanie procesem nadzoru, z punku widzenia odbiorcy końcowego, przyspieszy reakcję na wykryte sytuacje kryzysowe. Umożliwi także kompleksowe zarządzanie bezpieczeństwem w rozbudowanych systemach, w których występują dziesiątki lub setki kamer oraz innych detektorów (promieniowania, dźwięku, substancji chemicznych).

Metodyka analizy obrazu w ramach projektu SIMPOZ

Algorytmy zdalnego nadzoru, realizowanego przy użyciu kamer wideo, są obecnie jednym z najważniejszych zastosowań w dziedzinie komputerowych systemów wizyjnych oraz rozpoznawania obrazów. Do najszybciej rozwijanych należą systemy dedykowane, np. przeznaczone do analizy ruchu drogowego, wykrywania intruzów, rozpoznawania twarzy, czy też gestów i ruchów ludzi niosących lub pozostawiających paczki w miejscach publicznych. Prace prowadzone są głównie w Anglii, Francji oraz USA.

W typowej strukturze systemu zdalnego nadzoru można wyróżnić trzy poziomy hierarchii:

  • poziom analizy pikseli obrazu (pixel processing level)
  • poziom analizy ramki (frame processing level)
  • poziom śledzenia obiektów (tracking level)

Na pierwszym poziomie dokonuje się odróżnienie obiektów od tła metodą analizy pojedynczych pikseli obrazu. Na poziomie analizy ramki następuje scalanie pikseli w obiekty oraz łączenie małych obiektów w większe, na przykład na podstawie ich wzajemnego podobieństwa lub prędkości przemieszczania. Równocześnie usuwane są zbyt małe obiekty. Na poziomie śledzenia następuje identyfikacja obiektów, które zajmowały inne położenia na poprzednich ramkach i obliczanie trajektorii ich ruchu. Realizowane są operacje łączenia i podziału obiektów, wykrywane sytuacje przesłaniania jednych obiektów przez inne oraz zapamiętywane jest położenie obiektów, które przestały się poruszać. Wyznaczane są kierunki przemieszczania obiektów, prędkości oraz ich wzajemne relacje. Identyfikowane są też gesty lub postawy, jeśli obiekty są ludźmi. W przypadku systemu, przeznaczonego do nadzoru na otwartej przestrzeni warstwa poziomu śledzenia uwzględnia także dzienne cykle oświetlenia (np. w celu wykrywania i eliminacji cieni) oraz wykrywa nagłe zmiany oświetlenia. W zależności od wyników analizy uruchamiane są sprzężenia zwrotne pomiędzy poziomami hierarchii, których zadaniem jest korekta parametrów przetwarzania warstwy poprzedniej.

Zarówno w aplikacjach prostych jak i stworzonych w oparciu o hierarchię zaprezentowaną na Błąd: Nie znaleziono źródła odwołania, kluczową rolę odgrywa warstwa najniższa. Im lepsza jest jakość realizacji etapu klasyfikacji pikseli, tym lepsze są rezultaty działania warstw wyższych, a tym samym całego systemu. Typowymi problemami zakłócającymi funkcjonowanie warstwy pierwszej są: zmiany oświetlenia (spowodowane np. słońcem wychodzącym zza chmur), zmienność tła (spowodowana np. ruchem liści lub drganiami kamery), znaczne podobieństwo kolorów obiektów i tła, czy też konieczność detekcji obiektów o jednolitym kolorze (na obrazie różnicowym otrzymuje się wtedy jedynie ich krawędzie).

Przykładowy scenariusz działania systemu

Przedstawiony poniżej przykładowy scenariusz zastosowania systemu realizowanego w ramach projektu SIMPOZ dotyczy rozpoznania sytuacji pozostawienia ładunku wybuchowego w miejscu publicznym. Występuje tu problem śledzenia dużej liczby obiektów w złożonym systemie wielu kamer. Sam proces detekcji pozostawienia podejrzanego pakunku musi być realizowany bez względu na częściowe lub całkowite przesłaniania, zmianę poziomu oświetlenia, powstawanie cieni i odbić. Wymaga to identyfikacji obiektów (osoba, bagaż) oraz ich logicznego powiązania. Pozostawienie bagażu jest automatycznie rozpoznawane przez system, ale wymaga potwierdzenia przez operatora.

Przykład scenariusza realizowanego przez system SIMPOZ

W poczekalni dworca lotniczego w Warszawie w polu widzenia kamery monitoringu pojawia się osoba z walizką, którą pozostawia w sąsiedztwie innych oczekujących osób. Miejsce pozostawienia bagażu jest częściowo przesłonięte przez ławkę.

Inteligentny algorytm analizy obrazu, będący częścią systemu SIMPOZ, dokonuje automatycznego rozpoznania pozostawienia potencjalnie niebezpiecznego obiektu. System zapamiętuje opis osoby, która pozostawiła walizkę (wektor cech, czas wystąpienia zdarzenia, sekwencję wideo) oraz pozostawiony obiekt (wektor cech, miejsce). Osoba od tej chwili jest poszukiwana przez system w polu widzenia wszystkich kamer. Jeśli walizka nie zostanie zabrana w zadanym czasie system generuje alarm.

Podejrzana osoba po niedługim czasie pojawia się w polu widzenia kamery, umieszczonej nad wyjściem z terminala lotniska.

Na podstawie opisu podejrzana osoba jest rozpoznawana, po czym generowany jest alarm.

Operator systemu monitoringu weryfikuje zasadność alarmu.

W przypadku pozytywnej weryfikacji system wysyła komunikat na mobilne urządzenia służb porządkowych. Komunikat zawiera:
1. Opis poszukiwanej osoby, miejsce i czas ostatniego rozpoznania.
2. Opis bagażu (wielkość i kolor) i przybliżone miejsce jego pozostawienia.
System wysyła też komunikat do radiowęzła lotniska, o pozostawieniu bagażu, który jest trzykrotnie nadawany.

Służby porządkowe próbują zatrzymać poszukiwaną osobę oraz udają się do miejsca pozostawienia bagażu, gdzie odszukują pozostawioną walizkę.

W przypadku zgłoszenia właściciela walizki do służb porządkowych alarm zostaje odwołany.

System usuwa opis bagażu i osoby z bazy obiektów poszukiwanych i generuje raport zdarzenia.

W przypadku, gdy bagaż nie zostanie odebrany i ocena służb potwierdza wystąpienie realnej groźby zamachu terrorystycznego, zarządza się ewakuację terminalu i powiadamia służby antyterrorystyczne.

Baza scenariuszy

Dla potrzeb projektu opracowano bazę scenariuszy, zawierającą nazwę, opis i przykładowe sekwencje wideo dla następujących sytuacji:

  • detekcja porzuconych przedmiotów
  • naruszenie wydzielonych stref
  • wykrycie nieprawidłowego kierunku ruchu
  • zabieranie, kradzież, przesuwanie obiektów
  • typowe zachowania ludzi
  • wałęsanie się, włamanie
  • nadmierne nagromadzenie osób
  • wandalizm
  • bójka
  • upadki, zasłabnięcia
  • sabotaż (uszkodzenie kamery, zawężenie pola widzenia)
Część materiałów filmowych została stworzona w ramach projektu, a także pozyskana z innych baz danych o podobnej tematyce. Scenariusze są podstawowym narzędziem testów tworzonych algorytmów analizy obrazu.

Zadania badawcze realizowane w ramach projektu SIMPOZ

Zarys metodyki analizy sceny oraz uzyskanych wyników
W ramach oceny rozwiązań stosowanych w obecnie tworzonych systemach nadzoru, dokonano przeglądu najbardziej zaawansowanych produktów, rozwijanych w Izraelu, USA oraz w Niemczech. Poważnym utrudnieniem jest utajnienie stosowanych rozwiązań, w dużej części wykorzystywanych w sektorze obronnym.

Aby podołać złożonemu zagadnieniu analizy sceny 2.5D w oparciu o płaski obraz, przeprowadzono badania zaawansowanych algorytmów wspomagających powyższe zadanie. Uwzględniają one zarówno odległości analizowanych obiektów od punktu obserwacji, jak również wzajemne położenie obiektów. W celu umożliwienia automatycznej identyfikacji obiektów na scenie opracowano i zaimplementowano algorytmy bazujące na różnego typu podejściach, jak m.in.: zastosowaniu metryki Hausdorffa, punktów charakterystycznych oraz deskryptorów HOG (Histogram of Oriented Gradient).

W ramach projektu przeprowadzono prace badawcze mające na celu stworzenie algorytmów umożliwiających śledzenie oraz predykcję trajektorii obiektów ruchomych (trajektoria, predykcja położenia, przesłanianie) oraz metody identyfikacji ruchomych obiektów na analizowanej scenie (m.in. w oparciu o metody z grupy Kernel tracking oraz metody cząsteczkowe). Analiza wyników działania zaproponowanych algorytmów uwzględniała zarówno jakość uzyskanych wyników z analizy obrazu, jak również możliwość ich zastosowania w wybranych scenariuszach związanych z naruszeniem strefy chronionej.

Realizacja celów postawionych przed projektem SIMPOZ wymaga uzyskania zadawalających wyników analizy oraz weryfikacji uzyskanych rozwiązań w fazie testów. Zaproponowana metodyka analizy sekwencji wideo opiera się na scenariuszach definiujących wykrywane przez system zdarzenia. Scenariusze (zwane głównymi, por. pkt 4.1) są następnie dekomponowane na częściowo niezależne od siebie scenariusze cząstkowe. W oparciu o wybrane scenariusze cząstkowe, specyfikowane są elementy algorytmów realizujących: identyfikację człowieka i jego sylwetki, identyfikację części ciała jako składowych sylwetki, detekcję twarzy, poszukiwanie obiektów spełniających kryteria rozmiaru, kształtu i koloru, detekcję obiektów tworzących jedną całość z sylwetką człowieka, pozycji i przemieszczania się ludzi. Zaproponowana metodyka dekompozycji scenariuszy głównych na cząstkowe pozwala na prosty opis poszukiwanych sytuacji w postaci grafowej lub odpowiedniej dla zastosowania metod regułowych.

Dokonana wielowariantowa analiza metod, pozwalających na wykrywanie niebezpiecznych sytuacji z udziałem pojedynczych ludzi lub ich grup (tłumu), wiąże się z opracowaniem eguł kwalifikujących poszczególne zachowania ludzkie jako niebezpieczne bądź agresywne.


Rys.2 Przykład konfiguracji sceny w testowej wersji oprogramowania stworzonego w ramach projektu Simpoz. Na górze widoczny jest obszar wyłączony z analizy a w środku minimalny rozmiar analizowanego obiektu.

Ważkim zagadnieniem, które stoi przed twórcami systemu, jest określenie wymagań wobec wstępnej konfiguracji sceny (por. rys. 2). Rozważa się przypadki automatycznej oraz manualnej konfiguracji sceny oraz opracowuje metody pozwalające na identyfikację obiektów w fazie konfiguracji sytemu.

Przedstawione w kolejnych podrozdziałach metody oceniono pod kątem pod kątem użyteczności dla projektu SIMPOZ. Wymienione algorytmy zostały przeanalizowane, zaimplementowane i przebadane eksperymentalnie. Oceniono ich użyteczność i zaproponowano zmiany, mające na celu usunięcie wad i poprawę ich funkcjonowania.

Metody detekcji obiektów
Podstawą wielu algorytmów przetwarzania obrazów jest detekcja obiektów, czyli interesujących, z punktu widzenia rozważanego zadania, elementów sceny wizyjnej. Elementy te zwykle są ruchome (osoby, samochody, itp.), ale przykładowo w scenariuszu wykrywania pozostawionych przedmiotów ważne są także elementy stacjonarne, które uprzednio nie były rejestrowane (walizki, torby, paczki).

Algorytmy detekcji obiektów można podzielić na dwie główne klasy: operujące na dwóch lub więcej kolejnych ramkach z sekwencji i wykorzystujące generację tła. Najbardziej podstawowym algorytmem, należącym do pierwszej grupy, jest metoda różnicowa, która polega na obliczaniu modułu z różnicy dwóch kolejnych ramek obrazu. W ten sposób możliwe jest wykrycie pikseli, które znacząco się zmieniły. Zaletą takiego podejścia, oprócz prostoty, jest odporność na szybkie zmiany oświetlenia. Wadą jest duża podatność na szum i niewłaściwe wykrywanie dużych, jednolitych ruchomych obiektów. Bardziej wyrafinowana wersja metody została zastosowana w pracy [].

Rozwinięciem idei różnicowej jest wyliczanie przepływu optycznego (ang. optical flow). Na podstawie danych z dwóch lub kilku kolejnych ramek, wykorzystując jeden z opisanych w literaturze algorytmów (Lucas-Kanade, Horn-Schunck, dopasowanie blokowe) opisuje się przemieszczenie pikseli pomiędzy ramkami. Rezultatem działania jest pole wektorowe, które zawiera informacje o prędkości i kierunku ruchu pikseli. Metoda zapewnia lepsze wyniki niż proste odejmowanie kolejnych ramek, ale kosztem dużo większego nakładu obliczeniowego. Problemem są również jednolite, ruchome obszary.

Wykrywanie obiektów można też zrealizować za pomocą generacji tła. Idea polega na stworzeniu, przechowywaniu i odpowiednim uaktualnianiu modelu tła - czyli obrazu sceny bez obiektów. Następnie od aktualnej ramki odejmuje się model tła i w ten sposób dokonuje segmentacji interesujących obiektów. W najprostszej wersji wykorzystuje się stałe tło referencyjne (wskazane przez operatora systemu), w bardziej zaawansowanych obraz wygenerowany na podstawie statystycznej analizy strumienia wideo. Przykładem takiej metody jest modelowanie jasności (koloru) każdego piksela za pomocą rozkładu Gaussa.

Z wykorzystaniem generacji tła związane są dwa podstawowe problemy: inicjalizacji (otrzymania poprawnego modelu tła w warunkach obecności ruchu na scenie) oraz aktualizacji (dopasowania tła do zmieniających się warunków, głównie oświetleniowych). Oba zagadnienia były tematem szczegółowych badań.

Na potrzeby projektu SIMPOZ zaimplementowano i przetestowano szereg metod, zarówno różnicowych jak i opierających się o generację tła. Analizowano takie algorytmy jak: przybliżony filtr medianowy (sigma-delta), filtr Kalmana, filtr uśredniający, filtr medianowy, filtr maksymalny i minimalny, model Gaussa, kilka (k) modeli Gaussa (MOG, GMM), KDE (Kernel Desity Estimation), model oparty o filtrację Wienera oraz model klastrowy.

W pracach duży nacisk położono na eliminację różnych zakłóceń: odblasków, zmian oświetlenia i cieni, a także na opracowanie skutecznych metod aktualizacji modelu tła. Cel ten osiągnięto poprzez integrację informacji z generacji tła i wyznaczania przepływu optycznego oraz dzięki zaawansowanej analizie wykrytych obiektów.

Ocena wpływu zakłóceń na jakość detekcji przedmiotów w skali szarości oraz w kolorze
Zakłócenia, w postaci cieni oraz odblasków, bardzo poważnie wpływają na działanie dalszych etapów przetwarzania tj. analizy i rozumienia obrazu. Przykładowo cień zniekształca sylwetkę człowieka oraz powoduje łączenie sylwetek osób znajdujących się blisko siebie, co znakomicie utrudnia detekcję oraz śledzenie ludzi. Dlatego badania nad metodami usuwania zakłóceń są istotnym elementem prac w ramach projektu SIMPOZ.

Detekcja i usuwanie cienia obywa się głównie na podstawie dwóch założeń: cień nie wpływa na kolor powierzchni, na którą pada (a tylko na jej jasność) oraz cień nie zmienia tekstury powierzchni, na którą pada. Oba stwierdzenia są prawdziwe tylko w ściśle określonych przypadkach. Pierwsze w warunkach wewnętrznych przy równomiernym oświetleniu, drugie w przypadku występowania wyraźniej tekstury oraz braku głębokich cieni.

W ramach prac przeanalizowano i zaimplementowano szereg algorytmów detekcji i usuwania cieni, działających zarówno na obrazie kolorowym, jak i w odcieniach szarości:

  • Algorytm zaproponowany przez Nghiem’a w 2008 roku – przeznaczony do detekcji cieni, stosujący model oświetlenia Phonga oraz trzy podstawowe cechy: chrominancję, teksturę oraz zmniejszenie oświetlenia.
  • lgorytm Sanina (2010) - pięcioetapowy algorytm, oparty o zastosowanie informacji o chrominancji do wykrywania cienia, a następnie weryfikacji obszarów zacienionych w oparciu o wyznaczanie gradientów.
  • Algorytm Qina (2010) - metoda wykorzystuje do wykrywania cieni informacje o teksturze i kolorze. Tekstura w tym algorytmie jest analizowana z zastosowaniem deskryptorów określonych jako LTP (Local Tenary Pattern) oraz ich modyfikacji SILTP (Scale Invariant Local Ternary Pattern) – odpornej na zmiany jasności.
  • Praca Benedek’a (2007) - analiza różnych przestrzeni barw wykorzystywanych w detekcji cieni: RGB, HSV, C1C2C3, znormalizowane RGB, CIE Lab, CIE Luv. Ważnym składnikiem stworzonego algorytmu detekcji cieni jest określenie kształtu przestrzeni cienia wraz ze schematem automatycznej adaptacji parametrów modelu kształtu. W pracy zaproponowano także podejście oparte o MRF (Markov Random Fields) do oceny przestrzennych zależności pomiędzy pikselami.
Przeprowadzone badania pokazały, że zagadnienie usuwania cieni, dla rzeczywistych sekwencji, jest zadaniem trudnym. szczególnie jeżeli wymagane jest działanie algorytmu w czasie rzeczywistym. Prace w tym obszarze są kontynuowane.

Tworzenie opisu obiektów
Ważnym elementem projektu SIMPOZ są badania, których celem jest określenie przydatności algorytmów w realizowanych modułach analizy. W szczególności bardzo interesujące są metody, które pozwalają na stworzenie opisu danego obiektu (np. człowieka, walizki), tak aby możliwe było jego śledzenie oraz identyfikacja (ważna np. w scenariuszu wałęsania się) Na aktualnym etapie realizacji projektu przebadano działanie następujących algorytmów:

  • Algorytmy oparte na detekcji krawędzi: Sobel’a, Laplace’a, Canny’ego, SUSAN, Prewitt’a, Robertsa, Sharra, Marr-Hildretha.
  • Algorytm SIFT (Scale Invariant Feature Transform) zaproponowany przez Davida Lowe w 1999. Wyznacza dla analizowanego obrazu zbiór punktów charakterystycznych i opisuje je za pomocą deskryptorów, w postaci 128 elementowych wektorów. Metoda ta jest inwariantna ze względu na skalę i obrót. Jest ona stosowana do automatycznego tworzenia zdjęć panoramicznych, rozpoznawania obiektów na obrazie, rekonstrukcji scen 2,5D, lokalizacji w przestrzeni itp.
  • Algorytm SURF (Speeded Up Robust Features) jest algorytmem detekcji i opisu obrazu poprzez punkty charakterystyczne, częściowo wzorowanym na SIFT. Pierwszy raz zaprezentowany przez Herberta Bay'a w 2006. Jest używany do rozpoznawania obiektów i rekonstrukcji scen 2,5D oraz jest również inwariantny ze względu na skalę i obrót. Standardowa wersja SURF jest kilka razy szybsza od SIFT.
  • Metody oparte o porównywanie histogramów wyznaczonych dla danych obiektów.

Śledzenie
Śledzenie obiektów, rozumiane jako estymacja stanu obiektu w trakcie ruchu na obserwowanej scenie, jest bardzo ważnym elementem projektu SIMPOZ i może zostać wykorzystane w większości scenariuszy.

W ramach prowadzonych prac analizuje, implementuje i testuje się różne algorytmy śledzenia obiektów, min:

  • filtry cząsteczkowe
  • aktywne modele kształtu
  • algorytm KLT

Ze śledzeniem obiektów związanych jest kilka problemów. Na początku konieczne jest dokonanie wyboru modelu (cech, na podstawie których obiekt będzie śledzony). Powinien on dobrze dyskryminować - nawet podobne do siebie - obiekty (przykładowo podobnie ubranych ludzi). Analizowano modele oparte o kolor, kształty, teksturę, punkty charakterystyczne. Badania pokazują, że trudno jest uzyskać opis obiektu, który byłby niezależny od ułożenia i oświetlenia.


Rys.3 Przykład konfiguracji sceny w testowej wersji oprogramowania stworzonego w ramach projektu Simpoz. Na górze widoczny jest obszar wyłączony z analizy a w środku minimalny rozmiar analizowanego obiektu.

Kolejnym problemem jest analiza przypadków, w których dwa obiekty znajdują się bardzo blisko siebie (np. idące obok siebie osoby) lub na scenie znajduje się bardzo dużo obiektów. Trudność stanowią też: przesłanianie (np. jedna osoba zasłania drugą, lub osoba zasłania interesujący przedmiot - por. rys 3), złożony model ruchu (różne prędkości i różne kierunki ruchu obiektów), różnorodność kształtu obiektów oraz wymaganie działania w czasie rzeczywistym. Stworzenie uniwersalnego algorytmu śledzącego, jak wykazuje analiza literatury oraz wyniki przeprowadzonych badań, jest wciąż dużym wyzwaniem.

Wykrywanie ludzi
Opracowanie algorytmu, który pozwala na stwierdzenie, czy dany obiekt jest człowiekiem, jest kolejnym istotnym elementem projektu SIMPOZ. Stanowi on element semantycznej analizy sceny, czyli nazwania jej poszczególnych elementów.

W ramach przeprowadzonych prac przeanalizowano szereg algorytmów:

  • HOG (Histogram of Gradients) + SVM (Support Vector Machnies)
  • kaskada Haar'a
  • Discriminatively Trained Deformable Part Models
Analizowane metody charakteryzowały się różną skutecznością, jednak podstawowym problemem okazało się wymaganie działania w czasie rzeczywistym. To zagadnienie stanowić będzie temat dalszych prac.

Innowacyjność projektu SIMPOZ

Oprócz klasycznych rozwiązań, stosowanych w przetwarzaniu i analizie cyfrowych obrazów realizowany projekt przewiduje zbadanie i ewentualne wdrożenie kilku nowatorskich algorytmów. Istotnym wymaganiem jest przetwarzanie obrazów w czasie rzeczywistym. W związku z tym koncepcja systemu musi uwzględniać ograniczenia natury technicznej i informatycznej obecnego i przewidywanego w najbliższej przyszłości poziomu technologicznego. Z rozwijanych w projekcie rozwiązań, ze względu na ich nowatorstwo, złożoność lub odmienny aspekt użycia, następujące elementy systemu można uznać za innowacyjne:

  • rozbudowany moduł konfiguracyjno-identyfikacyjny, w którym zidentyfikowane (i ew. nazwane) zostaną istotne elementy obserwowanej sceny
  • struktura 2,5D sceny, rozumiana jako uwzględnienie zmian wielkości obiektów w zależności od ich położenia (perspektywa)
  • moduł zaawansowanej segmentacji opartej o rozbudowany zestaw cech [4], (przewidywana jest próba zastosowania cech opartych na kolorze)
  • elementy rozumienia sceny (sytuacji) [8],[3] z uwzględnieniem informacji pochodzących z modułu konfiguracyjno-identyfikacyjnego
  • dodatkowe wyjście semantyczne z systemu, informujące w skondensowany sposób o aktualnej sytuacji na obserwowanej scenie i pomagające w jej poprawnej interpretacji

Kierunki dalszych prac

Dalsze prace w ramach projektu rozwojowo-obronnego SIMPOZ będą dotyczyć rozwoju oraz udoskonalenia omówionych algorytmów tj. detekcji obiektów ruchomych, redukcji zakłóceń i usuwania cieni, tworzenia opisu obiektów, śledzenia oraz analizy semantycznej sceny.

Ważną składową dalszych działań badawczych jest opracowanie, implementacja i ocena wydajności algorytmów oceny postawy i ruchów człowieka, a także metody oceny zachowania się ludzi w oparciu o identyfikację ich gestów i ruchów. Metody identyfikacji zachowania pojedynczych ludzi oraz grup są kluczowa z punktu widzenia realizacji celów projektu i będą wykorzystane w scenariuszach: "bójka", "wandalizm" i pokrewnych (por. pkt. 4).

Innym, niezwykle istotnym elementem dalszych prac, jest synteza zagadnień obejmujących rozumienie obrazów (sceny) w oparciu o rozbudowaną konfigurację. Dodatkowo, powyższa metoda analizy obrazu i zależności pomiędzy obiektami będzie wsparta metodami bazującymi na systemach regułowych, sieciach Bayesowskich oraz drzewach decyzyjnych (Machine Learning Methods) [].

Prócz zadań związanych z analizą obrazu, drugim ważnym nurtem prac jest opracowanie metodyki zarządzania rozproszonym systemem nadzoru. Realizowane w ramach projektu zadania wymagają zastosowania technologii pozwalającej na elastyczne połączenie poszczególnych, wykonujących różne zadania, modułów systemu. Zaproponowane rozwiązanie winno pozwolić na definiowanie oraz zarządzanie szeroko pojętym obiegiem informacji w systemie. Zarówno logika procesu określająca przepływ danych pomiędzy modułami jak również reguły przypisujące role do uczestników procesu będą zawarte w logice definicji procesu nadzoru. Zmiany sposobu obiegu danych można dokonywać bez redefinicji aplikacji i modułów biorących w nim udział.

Co najważniejsze, możliwe będzie programowanie działania systemu w oparciu o wzajemnie niezależne definicje logiki procesu nadzoru. Definicje te określają reguły, według których odbywa się współpraca poszczególnych modułów systemu oraz dane jakie są pomiędzy mini przekazywane. Istniejące definicje mogą być w każdej chwili zmienione, a nowo stworzone mogą być w każdej chwili aktywowane.

Podsumowanie

Strategicznym celem projektu SIMPOZ jest opracowanie prototypu omówionego w artykule systemu. Działanie w ramach konsorcjum z firmą posiadającą uznaną pozycję na rynku, daje szansę na poprawę konkurencyjności polskich przedsiębiorstw przemysłowych poprzez wspólne stworzenie prototypu produktu, charakteryzującego się z jednej strony wysokim poziomem zastosowanych rozwiązań algorytmicznych i sprzętowych, a z drugiej funkcjonalnością odpowiadającą na zapotrzebowanie rynku.

Pełna realizacja postawionych zadań wymaga:

  • określenia wymagań wobec systemu analizy obrazu w kontekście postawionego zadania
  • stworzenia innowacyjnych algorytmów
  • implementacji rozwiązań wspomagających zarządzanie przepływem informacji
  • stworzenia prototypu systemu i wykonania testów platformy programowo-sprzętowej
  • przygotowania prototypu do rynkowej komercjalizacji

Bibliografia

  • Barotti S., Lombardi L., Lombardi P., Multi-Module Switching and Fusion for Robust Video Surveillance, Proc. 12th Int. Conf. on Image Analysis and Processing (ICIAP'03), 2003.
  • Chmiel w., Kadłuczka P., Jędrusik S, Nadzorowana kategoryzacja tekstów angielskojęzycznych, Automatyka t.14, AGH 2010, str. 811–826.
  • Miikkulainen T., Leow W.K., Visual schemas in object recognition and scene analysis, The Handbook of Brain Theory and Neural Networks, Ed. Arbib M.A. Cambridge, MIT Press, 1995.
  • Mikrut Z., Tadeusiewicz R., Sieci neuronowe w przetwarzaniu i rozpoznawaniu obrazów, W: Biocybernetyka i Inżynieria Biomedyczna 2000, t. 6 Sieci Neuronowe, AOW EXIT W-wa 2000, str. 459-493.
  • Ogiela M., Tadeusiewicz R., Automatic understanding of selected diseases on the basis of structural analysis of medical images. Publisher: IEEE Computer Society, 2001.
  • Ogiela M. R., Tadeusiewicz R., Modern Computational Intelligence Methods for the Interpretation of Medical Images, Studies in Computational Intelligence, v. 84, Springer-Verlag, Berlin – Heidelberg – New York, 2008.


Praca wykonana w ramach grantu z Ministerstwa Nauki i Szkolnictwa Wyższego nr 0128/R/t00/2010/12.

© 2012 Eltcrac System Kraków. All rights reserved.