Toshiba Corporation opracowała sztuczną inteligencję z rozpoznawaniem 3D, która jest w stanie mierzyć odległość z dokładnością aparatu stereo, wykorzystując obraz zrobiony komercyjnym aparatem i analizując rozmycie obrazu spowodowane przez obiektyw aparatu za pomocą głębokiego uczenia. Ta technologia wyeliminuje stosowanie kamer stereo, co ostatecznie obniży koszty i przestrzeń. Toshiba zaprezentuje to osiągnięcie na międzynarodowej konferencji nt. Widzenia komputerowego (ICCV2019), która odbędzie się w Korei Południowej 30 października 2019 r. Od godz. 10:00.
Wykrywanie obrazu staje się coraz ważniejsze, a aplikacje takie jak roboty poruszające się po obiektach, autonomiczne pojazdy bezzałogowe, zdalnie sterowane drony kontrolujące infrastrukturę itp. Wymagają czegoś więcej niż tylko obrazów obiektów, potrzebują małego urządzenia do analizy danych 3D w celu uwzględnienia kształtu i odległości. W związku z tym zwiększono liczbę badań w celu opracowania technologii pomiarowej z kamerami jednookularowymi (można je łatwo miniaturyzować), wykorzystując głębokie uczenie do lepszego poznania kształtu, tła i innych danych scenerii obrazowanego obiektu.
Ta metoda ma wadę; dokładność odległości jest szacowana za pomocą kamery monokularowej w zależności od poznanych danych scenerii, co powoduje spadek dokładności ze względu na zdjęcia wykonane w różnych krajobrazach. Aby temu zaradzić, firma Toshiba opracowała fotografię z filtrem barwnym z przysłoną, w której do obiektywu dołączany jest filtr dwukolorowy, a kolor i rozmiar powstałego rozmycia obrazu są analizowane w zależności od odległości od obiektu. Chociaż rozwiązuje to problem zależności danych, modyfikacja istniejących soczewek kosztuje czas i pieniądze.
Toshiba przezwyciężyła ten problem, opracowując sztuczną inteligencję z technologią rozpoznawania 3D, która wykorzystuje głębokie uczenie się do analizy rozmycia obrazu zgodnie z jego pozycją na obiektywie, aby uzyskać pomiar odległości z taką samą wysoką precyzją jak system kamer stereo, za pomocą zwykłej kamery monokularowej, ale bez danych scenerii. Do tej pory uważano, że teoretycznie niemożliwe jest zmierzenie odległości na podstawie kształtu rozmycia, co jest takie samo dla obiektów zarówno oddalonych, jak i dalekich, gdy są one jednakowo oddalone od ogniska. Jednak wyniki analityczne wykazały istotną różnicę między rozmyciem kształtów bliskich i dalekich obiektów, nawet jeśli są one jednakowo oddalone od punktu ogniskowego. Dzięki temu firma Toshiba z powodzeniem przeanalizowała dane rozmycia z przechwyconych obrazów przez moduł głębokiego uczenia wyszkolony za pomocą modelu głębokiej sieci neuronowej.
Kiedy światło przechodzi przez obiektyw, wiadomo, że kształt powstałego rozmycia zmienia się w zależności od długości fali światła i jego położenia w soczewce. W opracowanej sieci pozycja i kolor są przetwarzane osobno, aby odpowiednio dostrzec zmiany kształtu rozmycia, a następnie, po przejściu przez mechanizm ważonej uwagi, w celu kontrolowania, na którym gradiencie jasności ma się skupić, aby poprawnie zmierzyć odległość. Dzięki uczeniu się, sieć jest następnie aktualizowana w celu zmniejszenia błędu między zmierzoną odległością a rzeczywistą odległością. Korzystając z tego modułu AI, firma Toshiba potwierdziła, że pojedyncze zdjęcie wykonane za pomocą dostępnej na rynku kamery zapewnia taką samą dokładność pomiaru odległości, jaką zapewniają kamery stereofoniczne. Więcej informacji można znaleźć na tej oficjalnej stronie firmy Toshiba.
Toshiba potwierdzi wszechstronność systemu z dostępnymi na rynku aparatami i obiektywami oraz przyspieszy przetwarzanie obrazu, dążąc do publicznego wdrożenia w roku podatkowym 2020.