Względna Atrybutów

Link: https://filebox.ece.vt.edu/~parikh/relative.html

Nagroda marr (nagroda) dla zwycięzcy, ICCV 2011

Devi Parikh i Kristen Grauman

“Kto w tęczę można narysować linię, gdzie kończy się fioletowym odcieniem i kolorem pomarańczowym odcieniem zaczyna? Wyraźnie widzimy różnicę kolorów, ale gdzie konkretnie, najpierw jeden blendingly wejść na inny? Tak, że z вменяемостью i невменяемостью”.

—Herman Melville Billy Budd

Streszczenie
Atrybuty człowieka-wizualna zmiana nazwy “” mogą korzystać różne zadania rozpoznawania. Jednak istniejące metody ograniczenia tych właściwości категориальных skrótów (na przykład, człowiek się uśmiecha, czy nie, scena-to “na sucho”, czy nie), a zatem nie uwzględniają bardziej ogólne semantyczne relacje. Oferujemy modele względnych atrybutów. Przygotowanie danych o tym, jak obiekt/kategorii przestępstwa dotyczą, zgodnie z różnymi atrybutami, dowiadujemy się, funkcja ranking dla każdego atrybutu. Studiujący funkcji ranking przewidzieć względną siłę każdego właściwości w powieści obrazy. My tu budujemy порождающую modelu współpracy kosmicznej atrybutu ranking imprez i dostępna nowa forma zero-rozstrzelali uczenia się, w której szef odnosi się niewidzialny obiekt kategoria wcześniej widzieć obiekty atrybutów (na przykład, ‘niedźwiedzie меховщик, niż żyrafy’). Dalej pokażemy, jak proponowany względny atrybutów włączyć zaawansowane opisy tekstowe dla nowych obrazów, które w praktyce są bardziej dokładne dla ludzkiej interpretacji. Pokażemy ten podejście do danych osób i naturalne sceny, i pokazać jego wyraźne zalety w porównaniu z tradycyjnymi binarnymi przewidywania atrybutów dla tych nowych zadań.
Motywacja
Atrybuty binarne noszą restrykcyjna i może być nienaturalne. W powyższych przykładach, podczas gdy można opisać zdjęcia w lewym górnym i prawym górnym jako naturalnego i sztucznego, odpowiednio, co można opisać obraz w TOP-centrum? Jedyny znaczący sposób opisać go w odniesieniu do innych obrazów: to mniej naturalnie niż na zdjęciu po lewej stronie, ale więcej niż na obrazku po prawej stronie.
Oferta
W tej pracy oferujemy model względnych atrybutów. W przeciwieństwie do prognozy obecność atrybutu, względny atrybut wskazuje na siłę atrybutu obrazu w stosunku do innych obrazów. W dodatku do być bardziej naturalne, względny atrybutów oferować bogaty sposób komunikacji, umożliwiając w ten sposób dostęp do bardziej szczegółowych instrukcji człowieka (a więc potencjalnie większą dokładność rozpoznawania ocr), a także zdolność do generowania bardziej pouczające opisy nowych obrazów.

Rozwijamy podejście, które uczy się funkcja ranking dla każdego atrybutu, biorąc pod uwagę ograniczenia względnego podobieństwa na parę przykładów (lub, bardziej ogólnie częściowy zamówienie na niektóre przykłady). Naukowcy rankingu można docenić prawdziwe wartości ocen dla zdjęcia, które wskazują na względną siłę obecności atrybutów w nich.

Wprowadzamy nowe formy zero-rozstrzelali nauka i opis obrazów, które używają względne prognozy atrybutu.
Podejście

Nauka względnej atrybutów: każdy atrybut względnego wiedza zdobyta poprzez szkolenia w rankingu sformułowanie, biorąc pod uwagę porównawcze obserwacji, jak pokazano poniżej:

Różnica pomiędzy szkoleniem szerokim marginesem funkcja rankingu (prawo), który zapewnia odpowiedni zamówienie na przygotowanie punktów (1-6), i szeroki-marża klasyfikatora binarnego (po lewej), co tylko dzielą dwie klasy (+ i -), i nie koniecznie zachować odpowiedni porządek na punkty poniżej:

Roman zero-rozstrzelali szkolenia: badamy następujące ustawienia
Kategorii N: zobaczyć kategorii (związane obrazy są dostępne) + niewidzialna kategorii U (bez obrazy są dostępne dla tych kategoriach)
Widziałam, kategorie, opisane są względem siebie przez atrybuty (nie wszystkie pary kategorii muszą być połączone wszystkie atrybuty)
U niewidzialnego categorires opisano stosunkowo (podzbiór) widziałam w kategorii części (podzbiory) atrybutów.
Pierwszy pociąg zestaw względne atrybuty, za pomocą nadzoru, przedstawione na widziałeś kategoriach. Atrybuty te mogą być również wstępnie przeszkoleni z danych zewnętrznych. Następnie budujemy generatywna modelu (prawo Gaussa) dla każdej kategorii widać, za pomocą odpowiedzi dotyczące atrybutów obrazu tego, co zobaczył kategorii. Wtedy dochodzimy do wniosku parametrów generatywna modelu niewidzialnych caregories poprzez wykorzystanie ich względnych definicji w odniesieniu do widziałeś kategoriach. Wizualizacja proste podejście, którego używamy, aby to pokazano poniżej:

Test obrazu przypisana Kategoria z maksymalnym prawdopodobieństwem.

Automatyczne tworzenie względnej tekstu desriptions zdjęć: ten obraz ja bym opisał, oceniamy wszyscy wiedzieli ranking funkcji na I. dla każdego atrybutu, utożsamialiśmy dwa kontrolnych obrazów, leżące po obu stronach mnie, i nie jest zbyt daleko lub zbyt blisko I. obrazu ja potem opisywał odnośnie tych dwóch mocnych obrazów, jak pokazano poniżej:

 

Jak widać powyżej, oprócz opisu obrazu w stosunku do innych obrazów, nasze podejście może również opisać obraz w porównaniu z innymi kategoriami, w wyniku czego wyłącznie tekstowy opis. Oczywiście, że względny opisy są bardziej dokładne i pouczające, niż zwykłe binarne opis.

Eksperymenty i wyniki
Przeprowadzamy eksperymenty na dwóch zestawach danych:
(1) Otwarty sceny (SRF), zawierający 2688 obrazów z 8 kategorii: kot, Forest F drodze H, wewnątrz-miasto ja, góra M., otwarte-kraj O., ul. Z i wysoki-dom itp używamy pozycjo techniczne do prezentacji zdjęć.
(2) podzbiór działaczy społecznych bazę osób (PubFig), zawierający 772 obrazów z 8 kategorii: Alex Rodriguez A, Z, Clive Owen, Hugh Laurie s, Jared leto, J., Miley Cyrus M, Scarlett Johansson z Viggo Мортенсеном W I Zac Efron Z. korzystamy z założonymi istotą i kolor i cechy prezentacji zdjęć.

Lista atrybutów dla każdego zestawu danych, wraz z binary i wilgotności adnotacje atrybut pokazano poniżej:

Szkolenia zero-strzał:

Porównujemy proponowane podejście do dwóch podstawowych wskaźników. Pierwszy to ocena na podstawie względnych atrybutów (CPA). Ten podstawowy wynik jest taki sam, jak i nasze podejście, za wyjątkiem wykorzystuje wyniki klasyfikatora binarnego (atrybutów binarnych) zamiast partytur funkcja rankingu. Ten podstawowy wskaźnik pozwala ocenić zapotrzebowanie na ранжирующей funkcji do lepszego modelu względnych atrybutów. Nasza druga linia-bezpośrednie przewidywania atrybutów (model DAP) wprowadzony Ламперт i wsp. w CVPR 2009. Ten podstawowy wskaźnik pozwala ocenić korzyści w zakresie leczenia atrybutów, w przeciwieństwie do dogmatyczny. Oceniamy te podejścia do różnych ilością niewidzialnych kategorii różne ilości danych, wykorzystywanych do nauki atrybutów, regulując ilość attribtues, który jest używany do opisu niewidzialnego kategorii i różnego poziomu ‘раскованность’ w opisie niewidzialnych kategoriach. Części eksperymentalnej instalacji można znaleźć w naszej gazecie. Wyniki są pokazane poniżej:

Automatycznie generowane opisu obrazu:

Aby ocenić jakość naszej względnej opisu obrazu na binarny kształt, przeprowadziliśmy badanie na ludziach. Mamy wygenerowany opis obrazu, wykorzystując nasze podejście, a także oryginalnych danych binarnych. Zaprezentowaliśmy przedmioty z tym opisem, wraz z trzema zdjęciami. Jeden z trzech zdjęć opisano. Zadaniem badanych było do rangi trzy zdjęcia, na podstawie których myśleli, że najprawdopodobniej został opisany. Im dokładniejszy opis, tym lepiej przedmiotów, możliwości identyfikacji odpowiedni obraz. Ilustracja zadania, dostarczone przez podmioty pokazano poniżej:

Wyniki badania przedstawiono poniżej. Widzimy, że badani mogą określić właściwy obraz bardziej precyzyjnie, wykorzystując zaproponowane względne atrybuty, w porównaniu z opcjami atrybutów.

 

Przykład binarnego opisy obrazów, a także opisu w odniesieniu do kategorii pokazano poniżej:

Zdjęcia Binarne opisu Względna opisu
nie naturalnie
nie otworzyć
perspektywy
bardziej naturalne niż tallbuilding, mniej naturalny niż las
bardziej otwarte, niż tallbuilding, mniej otwarte niż wybrzeżu
bardziej obiecujące, niż tallbuilding
nie naturalnie
nie otworzyć
perspektywy
bardziej naturalne niż insidecity, mniej naturalny niż autostrady
bardziej otwarte, niż na ulicy, mniej otwarte niż wybrzeżu
bardziej obiecujące, niż autostrady, mniej obiecujące niż insidecity
naturalne
otworzyć
perspektywy
bardziej naturalne niż tallbuilding, mniej naturalny niż góry
bardziej otwarte, niż góry
mniej obiecujące niż opencountry
Biały
nie uśmiecha
Widoczny Czoło
bardziej Biały niż AlexRodriguez
więcej się uśmiecha, niż JaredLeto, mniej się uśmiecha, niż ZacEfron
bardziej VisibleForehead, niż JaredLeto, mniej VisibleForehead niż MileyCyrus
Biały

nie uśmiecha
nie

Widoczny Czoło

bardziej Biały niż AlexRodriguez, mniej białego, niż MileyCyrus
mniej się uśmiechają, niż HughLaurie
bardziej VisibleForehead, niż ZacEfron, mniej VisibleForehead niż MileyCyrus
nie młody
Krzaczaste Brwi
Okrągłą Twarz
młody, niż CliveOwen, mniej młodych niż ScarlettJohansson
bardziej BushyEyebrows, niż ZacEfron, mniej BushyEyebrows niż AlexRodriguez
bardziej RoundFace, niż CliveOwen, mniej RoundFace niż ZacEfron

 

Dane
Oferujemy również dowiedzieć się stosunkowo atrybutów i ich prognozy na dwa zestawy danych, użyte w pracy: uznanie otwartym miejscu (ЛРН), a także niektóre z osób publicznych bazę osób (PubFig).

Readme
Pobierz (wersja 2)

Względna Osoba Atrybutów Zbioru Danych. Zawiera adnotacje na 29 względne atrybuty na 60 kategorii z działaczy społecznych bazę osób (PubFig).

Kod
Zmodyfikowaliśmy realizacji RankSVM Olivier Чаппелл na pociąg względnych atrybutów z ograniczeniami podobieństwa. Nasz zmodyfikowany kod można znaleźć tutaj.

Jeśli korzystasz z naszego kodu, proszę, przytaczam następujący dokument:
D. Парих i K. Грауман
Względna Atrybutów
Międzynarodowa konferencja widzenia komputerowego (ICCV), 2011.

Demos
Demos różnych aplikacji względnej atrybuty można znaleźć tutaj. Opis tych aplikacji można znaleźć w lokalnych gazetach.

 

Leave a Reply

Your email address will not be published. Required fields are marked *