Ce este Deep Learning AF: cum funcționează focalizarea automată Canon cu AI?

Canon a făcut mult zgomot în legătură cu noul său sistem Deep Learning AF, care se află în centrul celei mai recente camere profesionale emblematice a producătorului. Sună incredibil de inteligent, dar există o mulțime de întrebări - ce este Deep Learning? Cine face predarea? Sistemul învață în timp ce trageți? Este într-adevăr inteligență artificială într-o cameră? De fapt, îmbunătățește focalizarea automată?

Dacă ați citit recenzia noastră Canon EOS-1D X Mark III, veți ști că răspunsul la ultima întrebare este un da răsunător. În ceea ce privește răspunsurile la celelalte întrebări despre Deep Learning AF, luați-vă o băutură și o gustare și citiți mai departe …

Mecanica de focalizare automată a Canon EOS-1D X Mark III este incredibil de inteligentă, susținând două sisteme AF individuale. Primul este sistemul optic, care filmează 16 cadre pe secundă prin vizor, utilizând un senzor de măsurare de 400.000 de pixeli împreună cu un procesor dedicat Digic 8, pentru AF de 191 puncte capabil să urmărească fețele.

Apoi, există sistemul Live View, capabil să înregistreze 20 de cadre pe secundă, folosind toți cei 20,1 milioane de pixeli ai senzorului de imagine combinat cu noul procesor Digic X, pentru 3.869 puncte CMOS Dual Pixel care pot efectua AF complet de detectare a ochilor.

Alimentarea ambelor sisteme este tehnologia de bază Canon EOS iTR AFX - cea mai recentă iterație a funcției sale inteligente de urmărire și recunoaștere a focalizării automate, care a debutat în originalul EOS-1D X (și ulterior și-a făcut drum spre familia 7D Mark II și 5D). Și îngropat în circuitele sale este algoritmul Deep Learning.

Învățarea profundă NU este la fel ca AI

În primul rând, este important să clarificăm că învățarea profundă nu trebuie confundată cu inteligența artificială (AI). Un sistem AI este ceva care se află într-o stare continuă de dezvoltare. Învățarea profundă, sau învățarea automată, este un subset al AI.

Spre deosebire de adevărata IA, Deep Learning este un proces închis. Este un algoritm de pre-asamblare care permite arhitecturii camerei să se învețe în esență, mult mai rapid decât ar putea fi programat manual de ingineri umani. Odată ce această învățare a fost finalizată, aceasta este blocată și încărcată în cameră.

Din acel moment, nu mai este posibilă învățarea; în ciuda numelui - și Deep Learning este numele tehnologiei, nu o descriere a procesului - camera nu învață în mod constant și nu va deveni „mai bună” cu cât fotografiați mai mult (într-adevăr, un adevărat sistem AI ar învăța la fel de mulți de obiceiurile tale proaste ca și cele bune!).

„A fost predat”, explică Mike Burnhill, manager de asistență tehnică pentru Canon Europe. „Îl pui într-un computer, creează algoritmul care este apoi încărcat în cameră. Deci este diferit de AI - AI este o învățare continuă; învățarea profundă este practic, se învață singură și îți oferă un rezultat final care este apoi încărcat în cameră. "

Ceea ce pune întrebarea: cu atâtea companii care strigă despre caracteristici bazate pe AI, este o cameră de fapt capabilă să susțină inteligența artificială?

„Puterea de procesare pentru a face IA adevărată nu este fezabilă într-o cameră”, spune Burnhill. "Dacă doriți să faceți asta, există telefoane - dar datele nu sunt în telefonul dvs., sunt în Silicon Valley. Acolo este sistemul AI. Este doar că conexiunea telefonică se conectează la acesta - nu este aici, este acolo (în norul), pentru că aveți nevoie de un server. Am putea face o cameră, dar ați transporta tot timpul cu voi o husă uriașă de zbor. "

Cum se învață Deep Learning?

Deci, algoritmul Deep Learning se învață - dar de unde învață de fapt? Răspunsul, pus simplu, este „din cei mai buni”.

„Canon a lucrat cu agențiile noastre”, ne spune Burnhill. „Am primit practic acces la întreaga lor bază de date cu imagini de fotografie sportivă, de la toate agențiile majore, am lucrat cu ambasadorii noștri care fac sport, iar aceștia au furnizat imaginile lor despre diferite subiecte și ne-a permis să învățăm acest sistem AF cum să recunoaștem oameni în sport ”.

Sportul, evident, este metoda de predare vizată, deoarece Canon EOS-1D X Mark III este în primul rând o cameră sport. Problema este, fie că este vorba de un jucător de baschet care se îndreaptă spre cameră, de un schior care poartă ochelari de protecție sau de un șofer de Formula 1 care poartă o cască, oamenii din sport au adesea fețele ascunse - ceea ce înseamnă că fața tradițională sau chiar AF de detectare a ochilor nu Nu funcționează, iar camera se va bloca în schimb la lucruri precum numerele de pe uniforma unui jucător.

Oferind algoritmului Deep Learning acces la o vastă bibliotecă de imagini, de la gimnaste cu capul în jos la jucătorii de hochei care poartă tampoane și căști, este capabil să învețe și să diferențieze forma umană într-o varietate nesfârșită de situații - și este în cele din urmă capabil pentru a efectua această „detectare a capului”, astfel încât chiar dacă fața persoanei nu este vizibilă, capul este întotdeauna punctul principal de focalizare.

„Învățarea profundă este în esență imagini, creați un set de reguli pe care să le învețe și apoi se oprește și își creează propriul algoritm bazat”, continuă Burnhill. „Așadar, setați parametrii cum ar arăta persoana respectivă, veți spune:„ Iată persoana respectivă ”, apoi analizează toate imaginile oamenilor și spune:„ Aceasta este o persoană ”,„ Aceasta este o persoană ”. trece prin milioane de imagini pe o perioadă de timp și creează acea bază de date și învață de la sine. "

De fapt, algoritmul creează de fapt două baze de date - una pentru deservirea sistemului AF și măsurare a vizorului optic, utilizând Digic 8, și una pentru deservirea sistemului Live View AF care utilizează Digic X. Deoarece Digic X este cel care face tot calculul pentru urmărirea capului, odată ce algoritmul AF detectează o persoană în cadru, totul este împins spre noul procesor.

„Odată ce ai introdus o persoană, ai de fapt o dublă procesare”, spune Burnhill. „Există două baze de date aici, deoarece intrarea de la ambii senzori va fi ușor diferită, deci modul în care este recunoscut va fi ușor diferit, deci acestea sunt subseturi ale aceluiași algoritm. Datele de bază pentru ambele sunt aceleași, este doar modul în care va fi recunoscut și datele corecte aplicate acestuia. "

Dacă nu poate învăța lucruri noi … ce se întâmplă cu AF animală?

Desigur, Canon EOS-1D X Mark III nu este doar un aparat de fotografiat sport - celălalt public cheie al acestuia sunt trăgătorii sălbatici. Cu toate acestea, camera nu are capacitatea de focalizare automată a animalelor și am stabilit că Deep Learning nu poate învăța niciun truc nou după ce a fost coaptă în cameră. Deci asta este? Cu toată această nouă tehnologie de lux, camera nu se va concentra nici măcar pe câinele familiei?

Este adevărat că, în acest moment, camera nu prezintă AF animal (sau ochi de animal). „Practic, ne concentrăm asupra oamenilor cu care să începem, pentru ca acest tip de algoritm să funcționeze mai întâi”, răspunde Burnhill. „De aceea ne-am cam concentrat pe sport, deoarece acesta este un parametru stabilit și îl putem învăța într-o anumită perioadă de timp”,

Răspunsul, deci, se află în firmware. Burnhill a confirmat că există posibilitatea ca camera să fie supusă unei învățări mai profunde, pentru lucruri precum păsări și animale sălbatice, iar acest algoritm actualizat să fie diseminat utilizatorilor prin actualizări de firmware - deși nu există planuri concrete de anunțat.

"O vom dezvolta tot timpul, așa că în acest moment este încă nehotărât cum și unde mergem. Dar echipa de dezvoltare merge și se uită la alte fotografii cu animale - ne dăm seama că există o întreagă serie de domenii, dar, evident, marele focalizarea acestei camere este sportul și apoi viața sălbatică și, evident, cu Tokyo 2022-2023 aceasta a fost prioritatea. "

Este un punct corect; dacă Canon a așteptat ca Deep Learning să învețe totul, ar fi trebuit mai mult până când camera va fi lansată. Și, deși producătorii precum Sony se mândresc cu unele AF animale selective în camerele lor, Burnhill notează că Canon ar lansa mai degrabă o soluție completă AF animală mai degrabă decât una selectivă, fragmentată. Și aici învățarea profundă va deveni de neprețuit.

„Problema este legată de viața sălbatică, există o mulțime de animale diferite - evident că aveți prădători cu ochii în față și apoi aveți (ochii) iepurilor în lateral, aveți șerpi, aveți păsări … nu există un sistem care să recunoaște fețele tuturor animalelor. Și acolo ajungi în această învățare profundă, a învățării sistemului să recunoască aceste lucruri complexe. "

Deci, deși Sony poate fi capabil să vă urmărească câinele sau pisica, dar nu o salamandră sau un flamingo, Canon dorește să producă o cameră care să facă totul sau nimic. „Dacă ar fi să o facem, am vrea să o facem pentru un spectru cât mai larg - nu vrem să facem o cameră prietenoasă cu câinii și o cameră prietenoasă cu pisicile, vrem să facem o cameră prietenoasă cu animalele care funcționează pentru gama largă de animale pe care (profesioniștii) le-ar trage. "

Recenzie Canon EOS-1D X Mark III
Cum a realizat Canon cel mai rapid DSLR vreodată? Prin reproiectarea casetei oglinzii
102 actualizări pentru Canon EOS-1D X Mark III

Articole interesante...