MULTICLOD: Detekcija objekata više razreda

Računalni vid za pametna vozila i sigurnije ceste

Rezultati projekta

Ljestvičasti gusto povezani modeli za semantičku segmentaciju

  • u modificirani gusto povezani klasifikacijski model unijeli smo ljestvičaste preskočne veze
  • predložena arhitektura ostvaruje kompetitivnu točnost i brzinu obrade: na skupu Cityscapes postigli smo 74.3 mIoU na slikama veličine 2 MPixel uz brzinu obrade 7.5 Hz (ožujak 2017)
  • naš rezultat smo pokazali na grafu kojeg smo reproducirali iz recentnog članka: ICNet for Real-Time Semantic Segmentation on High-Resolution Images; Zhao et al, arXiv:1704.08545.
  • članak: kreso17cvrsuad
semseg semseg

Konvolucijska reprezentacija invarijantna na mjerilo

  • razmatramo poboljšavanje rezultata raspoznavanja primjenom rekonstrukcije
  • glavna ideja: iskoristiti rekonstruiranu dubinu za razdvajanje izgleda scene od mjerila
  • ova ideja oslobađa klasifikator od potrebe da raspoznaje objekte na različitim mjerilima i vodi na efikasnije iskorištavanje podataka za učenje
  • predloženu tehniku smo integrirali u potpuno konvolucijski model koji se može trenirati s kraja na kraj
  • postigli smo 66.3 mIoU na ispitnom podskupu Cityscapesa unatoč učenju na smanjenoj rezoluciji (travanj 2016)
  • članak: kreso16gcpr
kreso16gcpr causevic16semseg1 causevic16semseg2 causevic16semseg3

Učenje kalibracijske pogreške

  • primijetili smo da gotovo perfektne korespondencije na skupu KITTI na referentnom precizno izmjerenom gibanju kamere daju neočekivano visoke reprojekcijske greške
  • pretpostavili smo da je ovo odstupanje povezano nedovoljnim kapacitetom kalibracijskog modela
  • pokušavamo ispraviti kalibracijsku pristranost korištenjem referentnog gibanja kamere; učimo deformacijsko polje koje uspijeva poboljšati točnost procijenjenog gibanja na ispitnim snimkama
  • članak: visapp15;
Learning the calibration bias Processing results

Slabo nadzirana semantička segmentacija

  • konvolucijske značajke ugrađujemo u Fisherov prostori učimo binarne klasifikacijske modele na agregiranim reprezentacijama
  • dobivene klasifikatore primijenjujemo na ugrađenim pikselima i gladimo dobivene klasifikacijske mjere usrednjavanjem preko svih pravokutnih regija
  • određujemo klasifikacijsku mjeru za pozadinu zašumljenom disjunkcijom te postižemo 38% mIoU na PASCAL VOC 2012 (ožujak 2016)
  • članak: gcpr16krapac;
Weakly supervised semantic segmentation Processing results

Brzo pridruživanje uzoraka Gaussovoj mješavini

  • razmatramo problem ubrzanog pridruživanja nepoznatog uzorka komponentama velike Gaussove mješavine (GMM)
  • predlažemo pristup temeljen na rekurzivnom aglomeracijskom grupiranju komponenata GMM koji omogućava finu kontrolu kompromisa između brzine i točnosti
  • rezultati na fino-zrnatoj klasifikaciji slika pokazuju da ovim postupkom klasifikaciju možemo ubrzati za red veličine bez gubitka klasifikacijske točnosti
  • članak: gcpr15a
fast approximate soft-assign

Slabo nadzirana lokalizacija

  • prometne znakove lokaliziramo primjenom klasifikacijskog modela treniranog na cijelim slikama (bez korištenje informacije o položaju objekata)
  • klasifikacijske modele učimo korištenjem tzv. rijetkih regularizatora koji automatski odabiru optimalan podskup slikovne reprezentacije temeljene na Fisherovom vektoru
  • rezultati su blizu reprezentativnom strogo nadziranom postupku (HOG+SVM): 77% vs 88% AP, 16% vs 5% pMiss
  • članak: visapp15b; dataset: TS2010a;
weakly supervised localization with Fisher vectors

Slabo nadzirani model prostornog rasporeda

  • uvodimo dva poboljšanja prethodnog slabo nadziranog pristupa:
    • omogućavamo nelinearne normalizacije Fisherovog vektora
    • uvodimo indicije prostornog rasporeda slikovnih riječi
  • predlažemo poboljšanje brzine izvođenja Taylorovom aproksimacijom klasifikacijskog rezultata normalizirane Fisherove reprezentacije okna
  • postižemo 81% AP, 11% pMiss (vs 88% AP, 5% pMiss strogo nadzirani HOG+SVM)
  • članak: gcpr15b; dataset: TS2010a;
Weakly supervised spatial layoutwsl

Klasifikacija s ograničenim reprezentacijskim budžetom

  • oblikujemo slikovnu reprezentaciju koja omogućava najbolju klasifikaciju za dani reprezentacijski budžet
  • iskušali smo duboke autoenkodere, Fisherove vektore i opisnik GIST, a najbolje rezultate postigli smo povezivanjem GIST-a s prostornim Fisherovim vektorom
  • članak: cvpr15 vprice; dataset: unizg-fer-fm2.
Image classification on a representation budget