MULTICLOD: Detekcija objekata više razreda

Računalni vid za pametna vozila i sigurnije ceste

Rezultati projekta

Ljestvičasti gusto povezani modeli za semantičku segmentaciju

 • u modificirani gusto povezani klasifikacijski model unijeli smo ljestvičaste preskočne veze
 • predložena arhitektura ostvaruje kompetitivnu točnost i brzinu obrade: na skupu Cityscapes postigli smo 74.3 mIoU na slikama veličine 2 MPixel uz brzinu obrade 7.5 Hz (ožujak 2017)
 • naš rezultat smo pokazali na grafu kojeg smo reproducirali iz recentnog članka: ICNet for Real-Time Semantic Segmentation on High-Resolution Images; Zhao et al, arXiv:1704.08545.
 • članak: kreso17cvrsuad
semseg semseg

Konvolucijska reprezentacija invarijantna na mjerilo

 • razmatramo poboljšavanje rezultata raspoznavanja primjenom rekonstrukcije
 • glavna ideja: iskoristiti rekonstruiranu dubinu za razdvajanje izgleda scene od mjerila
 • ova ideja oslobađa klasifikator od potrebe da raspoznaje objekte na različitim mjerilima i vodi na efikasnije iskorištavanje podataka za učenje
 • predloženu tehniku smo integrirali u potpuno konvolucijski model koji se može trenirati s kraja na kraj
 • postigli smo 66.3 mIoU na ispitnom podskupu Cityscapesa unatoč učenju na smanjenoj rezoluciji (travanj 2016)
 • članak: kreso16gcpr
kreso16gcpr causevic16semseg1 causevic16semseg2 causevic16semseg3

Učenje kalibracijske pogreške

 • primijetili smo da gotovo perfektne korespondencije na skupu KITTI na referentnom precizno izmjerenom gibanju kamere daju neočekivano visoke reprojekcijske greške
 • pretpostavili smo da je ovo odstupanje povezano nedovoljnim kapacitetom kalibracijskog modela
 • pokušavamo ispraviti kalibracijsku pristranost korištenjem referentnog gibanja kamere; učimo deformacijsko polje koje uspijeva poboljšati točnost procijenjenog gibanja na ispitnim snimkama
 • članak: visapp15;
Learning the calibration bias Processing results

Slabo nadzirana semantička segmentacija

 • konvolucijske značajke ugrađujemo u Fisherov prostori učimo binarne klasifikacijske modele na agregiranim reprezentacijama
 • dobivene klasifikatore primijenjujemo na ugrađenim pikselima i gladimo dobivene klasifikacijske mjere usrednjavanjem preko svih pravokutnih regija
 • određujemo klasifikacijsku mjeru za pozadinu zašumljenom disjunkcijom te postižemo 38% mIoU na PASCAL VOC 2012 (ožujak 2016)
 • članak: gcpr16krapac;
Weakly supervised semantic segmentation Processing results

Brzo pridruživanje uzoraka Gaussovoj mješavini

 • razmatramo problem ubrzanog pridruživanja nepoznatog uzorka komponentama velike Gaussove mješavine (GMM)
 • predlažemo pristup temeljen na rekurzivnom aglomeracijskom grupiranju komponenata GMM koji omogućava finu kontrolu kompromisa između brzine i točnosti
 • rezultati na fino-zrnatoj klasifikaciji slika pokazuju da ovim postupkom klasifikaciju možemo ubrzati za red veličine bez gubitka klasifikacijske točnosti
 • članak: gcpr15a
fast approximate soft-assign

Slabo nadzirana lokalizacija

 • prometne znakove lokaliziramo primjenom klasifikacijskog modela treniranog na cijelim slikama (bez korištenje informacije o položaju objekata)
 • klasifikacijske modele učimo korištenjem tzv. rijetkih regularizatora koji automatski odabiru optimalan podskup slikovne reprezentacije temeljene na Fisherovom vektoru
 • rezultati su blizu reprezentativnom strogo nadziranom postupku (HOG+SVM): 77% vs 88% AP, 16% vs 5% pMiss
 • članak: visapp15b; dataset: TS2010a;
weakly supervised localization with Fisher vectors

Slabo nadzirani model prostornog rasporeda

 • uvodimo dva poboljšanja prethodnog slabo nadziranog pristupa:
  • omogućavamo nelinearne normalizacije Fisherovog vektora
  • uvodimo indicije prostornog rasporeda slikovnih riječi
 • predlažemo poboljšanje brzine izvođenja Taylorovom aproksimacijom klasifikacijskog rezultata normalizirane Fisherove reprezentacije okna
 • postižemo 81% AP, 11% pMiss (vs 88% AP, 5% pMiss strogo nadzirani HOG+SVM)
 • članak: gcpr15b; dataset: TS2010a;
Weakly supervised spatial layoutwsl

Klasifikacija s ograničenim reprezentacijskim budžetom

 • oblikujemo slikovnu reprezentaciju koja omogućava najbolju klasifikaciju za dani reprezentacijski budžet
 • iskušali smo duboke autoenkodere, Fisherove vektore i opisnik GIST, a najbolje rezultate postigli smo povezivanjem GIST-a s prostornim Fisherovim vektorom
 • članak: cvpr15 vprice; dataset: unizg-fer-fm2.
Image classification on a representation budget