In occasione della Computer Vision and Pattern Recognition Conference (CVPR) 2022, OPPO si è distinta grazie a 7 progetti innovativi che ha sviluppato nel campo dell’AI, collocandosi tra le aziende tecnologiche di maggior successo dell’evento. In particolare, OPPO si è classificata in otto delle competizioni più seguite della conferenza, aggiudicandosi tre primi posti, un secondo posto e quattro terzi posti.
Grazie allo sviluppo della tecnologia di deep learning, avvenuta nel corso degli anni, la moderna tecnologia AI oggi è in grado di dimostrare un livello di capacità cognitiva simile a quello degli esseri umani. La fusione di più modalità, la tecnologia di intelligenza visiva 3D e l’apprendimento automatico stanno diventando argomenti di ricerca fondamentali nel campo dell’AI e sono aree in cui OPPO ha raggiunto numerosi traguardi, sia a livello teorico sia a livello tecnico.
I sette lavori proposti da OPPO nell’ambito dell’integrazione delle informazioni multimodali, della ricostruzione del corpo umano in 3D, della personalizzazione dell’esperienza utente in termini di estetica e della distillazione di conoscenze nelle reti neurali per il CVPR di quest’anno, sono stati selezionati per essere presentati durante la conferenza.
La tecnologia cross-modale è considerata la chiave per “umanizzare” l’intelligenza artificiale, che consente di stabilire un’interazione efficace tra dati di natura diversa. I ricercatori di OPPO hanno proposto un nuovo framework CRIS basato sul modello CLIP per consentire all’AI di ottenere una comprensione precisa di testi e immagini, ottenendo una corrispondenza accurata di un frammento di informazione visiva rilevante in un’immagine dopo aver elaborato le complesse descrizioni testuali. La differenza maggiore tra l’intelligenza umana e quella artificiale, infatti, oggi risiede proprio nella multimodalità. A differenza dell’AI, che trova complesso abbinare con precisione le informazioni derivanti da modalità diverse, gli esseri umani sono in grado di comprendere facilmente le informazioni contenute sia nelle parole che nelle immagini e di fare associazioni tra i due tipi di informazioni. Il nuovo metodo proposto da OPPO migliora invece l’intelligenza multimodale, portando potenzialmente l’intelligenza artificiale a comprendere e interpretare realmente il mondo attraverso molteplici forme di informazione come il linguaggio, l’udito, la vista.
La ricostruzione 3D del corpo umano è un’altra area in cui l’OPPO Research Institute ha compiuto progressi significativi. Al CVPR 2022, OPPO ha presentato un processo che consente di creare automaticamente avatar digitali che riproducano fedelmente le sembianze dell’essere umano, anche nell’abbigliamento, una delle maggiori sfide nel campo dell’IA a causa della difficoltà di riconoscere e riprodurre alcuni dettagli degli abiti e la loro deformazione. Il modello di OPPO, invece, analizzando i video RGB degli esseri umani ripresi con una telecamera, è in grado di generare con precisione modelli dinamici 3D 1:1 che includono piccoli dettagli come i loghi o le trame dei tessuti, fornendo basi tecniche che possono essere utilizzate nei camerini virtuali per lo shopping online o nella creazione di avatar realistici in mondi VR/AR.
Il riconoscimento delle immagini da parte dell’intelligenza artificiale ha raggiunto una fase in cui è in grado di identificare con precisione molti oggetti all’interno di un’immagine. Tuttavia, la prossima sfida in questo settore è lo sviluppo di un’intelligenza artificiale in grado di interpretare un’immagine per il suo valore estetico. Infatti, la capacità dell’AI di valutare le immagini in termini di qualità estetica è spesso fortemente legata ai big data utilizzati per formulare il modello di AI, i quali non tengono conto del gusto soggettivo degli utenti.
Per risolvere questo problema, l’OPPO Research Institute, in collaborazione con Leida Li, professore dell’Università di Xidian, ha sviluppato l’innovativo modello Personalized Image Aesthetics Assessment (PIAA): il primo a ottimizzare la valutazione estetica dell’intelligenza artificiale combinando le preferenze soggettive degli utenti con valori estetici più generali, in modo da poter creare, in futuro, esperienze ancora più personalizzate per gli utenti.
Inoltre, OPPO ha proposto una soluzione di ricostruzione semantica del piano 3D multi-view sviluppata in collaborazione con l’Università Tsinghua, l’INS-Conv (INcremental Sparse Convolution). Questa tecnologia innovativa è in grado di analizzare con precisione le superfici all’interno di un ambiente 3D e di riconoscerne le diverse caratteristiche, dal terreno ai piani di lavoro, fino alle pareti, con un grado di precisione molto più elevato rispetto all’attuale tecnologia di ricostruzione che utilizza un singolo punto di vista.
Il CVPR 2022, un palcoscenico per l’innovazione, ha visto anche lo svolgimento di una serie di sfide tecniche, in cui OPPO sì è distinta aggiudicandosi un posto sul podio in ben otto competizioni, tra cui la Neural Architecture Search (NAS) Challenge, la SoccerNet Challenge, l’ActivityNet Temporal Localization Challenge, la Video Object Segmentation Challenge, l’ACDC Challenge 2022 e la WAD Argoverse2 Motion Forecasting Challenge.
Il crescente successo di OPPO al CVPR deve molto ai suoi continui investimenti nel campo dell’Intelligenza Artificiale, su cui dal 2015 lavora un team ad hoc del dipartimento di Ricerca e Sviluppo. All’inizio del 2020 è stato fondato l’Institute of Intelligent Perception per approfondire ulteriormente l’esplorazione di OPPO sulle tecnologie AI all’avanguardia e, ad oggi, l’azienda conta più di 2.650 domande di brevetto globali.
Guidata dalla brand proposition “Inspiration Ahead”, OPPO sta anche collaborando con partner del settore per implementare sempre più l’AI all’interno della vita quotidiana. Nel dicembre 2021, il brand ha lanciato la sua prima NPU dedicata all’imaging, MariSilicon X, che vanta potenti prestazioni di calcolo, e la tecnologia di OPPO è stata utilizzata anche per sviluppare numerosi prodotti e funzionalità, tra cui la piattaforma AR CybeReal, OPPO Air Glass e le Omoji.