MULTICLOD: Detekcija objekata više razreda

Računalni vid za pametna vozila i sigurnije ceste

Rezultati projekta

Ljestvičasti gusto povezani modeli za semantičku segmentaciju u modificirani gusto povezani klasifikacijski model unijeli smo ljestvičaste preskočne veze predložena arhitektura ostvaruje kompetitivnu točnost i brzinu obrade: na skupu Cityscapes postigli smo 74.3 mIoU na slikama veličine 2 MPixel uz brzinu obrade 7.5 Hz (ožujak 2017) naš rezultat smo pokazali na grafu kojeg smo reproducirali iz recentnog članka: ICNet for Real-Time Semantic Segmentation on High-Resolution Images; Zhao et al, arXiv:1704.08545. članak: kreso17cvrsuad

Konvolucijska reprezentacija invarijantna na mjerilo razmatramo poboljšavanje rezultata raspoznavanja primjenom rekonstrukcije glavna ideja: iskoristiti rekonstruiranu dubinu za razdvajanje izgleda scene od mjerila ova ideja oslobađa klasifikator od potrebe da raspoznaje objekte na različitim mjerilima i vodi na efikasnije iskorištavanje podataka za učenje predloženu tehniku smo integrirali u potpuno konvolucijski model koji se može trenirati s kraja na kraj postigli smo 66.3 mIoU na ispitnom podskupu Cityscapesa unatoč učenju na smanjenoj rezoluciji (travanj 2016) članak: kreso16gcpr

Učenje kalibracijske pogreške primijetili smo da gotovo perfektne korespondencije na skupu KITTI na referentnom precizno izmjerenom gibanju kamere daju neočekivano visoke reprojekcijske greške pretpostavili smo da je ovo odstupanje povezano nedovoljnim kapacitetom kalibracijskog modela pokušavamo ispraviti kalibracijsku pristranost korištenjem referentnog gibanja kamere; učimo deformacijsko polje koje uspijeva poboljšati točnost procijenjenog gibanja na ispitnim snimkama članak: visapp15;

Slabo nadzirana semantička segmentacija konvolucijske značajke ugrađujemo u Fisherov prostori učimo binarne klasifikacijske modele na agregiranim reprezentacijama dobivene klasifikatore primijenjujemo na ugrađenim pikselima i gladimo dobivene klasifikacijske mjere usrednjavanjem preko svih pravokutnih regija određujemo klasifikacijsku mjeru za pozadinu zašumljenom disjunkcijom te postižemo 38% mIoU na PASCAL VOC 2012 (ožujak 2016) članak: gcpr16krapac;

Brzo pridruživanje uzoraka Gaussovoj mješavini razmatramo problem ubrzanog pridruživanja nepoznatog uzorka komponentama velike Gaussove mješavine (GMM) predlažemo pristup temeljen na rekurzivnom aglomeracijskom grupiranju komponenata GMM koji omogućava finu kontrolu kompromisa između brzine i točnosti rezultati na fino-zrnatoj klasifikaciji slika pokazuju da ovim postupkom klasifikaciju možemo ubrzati za red veličine bez gubitka klasifikacijske točnosti članak: gcpr15a

Slabo nadzirana lokalizacija prometne znakove lokaliziramo primjenom klasifikacijskog modela treniranog na cijelim slikama (bez korištenje informacije o položaju objekata) klasifikacijske modele učimo korištenjem tzv. rijetkih regularizatora koji automatski odabiru optimalan podskup slikovne reprezentacije temeljene na Fisherovom vektoru rezultati su blizu reprezentativnom strogo nadziranom postupku (HOG+SVM): 77% vs 88% AP, 16% vs 5% pMiss članak: visapp15b; dataset: TS2010a;

Slabo nadzirani model prostornog rasporeda uvodimo dva poboljšanja prethodnog slabo nadziranog pristupa: omogućavamo nelinearne normalizacije Fisherovog vektora uvodimo indicije prostornog rasporeda slikovnih riječi predlažemo poboljšanje brzine izvođenja Taylorovom aproksimacijom klasifikacijskog rezultata normalizirane Fisherove reprezentacije okna postižemo 81% AP, 11% pMiss (vs 88% AP, 5% pMiss strogo nadzirani HOG+SVM) članak: gcpr15b; dataset: TS2010a;

Klasifikacija s ograničenim reprezentacijskim budžetom oblikujemo slikovnu reprezentaciju koja omogućava najbolju klasifikaciju za dani reprezentacijski budžet iskušali smo duboke autoenkodere, Fisherove vektore i opisnik GIST, a najbolje rezultate postigli smo povezivanjem GIST-a s prostornim Fisherovim vektorom članak: cvpr15 vprice; dataset: unizg-fer-fm2.