Vai direttamente ai contenuti
YeslakYeslak
Uno sguardo approfondito alla tecnologia di guida autonoma FSD di Tesla

Uno sguardo approfondito alla tecnologia di guida autonoma FSD di Tesla

Cosa rende la guida autonoma FSD di Tesla così speciale? Probabilmente hai sentito termini come reti neurali, modelli end-to-end, reti di occupazione e modalità ombra. Ma cosa significano? Oggi analizzerò queste tecnologie fondamentali della guida autonoma FSD di Tesla in modo semplice e di facile comprensione.

Innanzitutto, parliamo della storia del sistema di guida autonoma (FSD) di Tesla. Già nel 2013, Elon Musk aveva immaginato di integrare la guida autonoma nei veicoli Tesla. Inizialmente, Tesla aveva seguito il percorso avviato da Google nello sviluppo della guida autonoma. Tuttavia, a causa di alcuni problemi e preoccupazioni di sicurezza emersi durante i test del sistema di guida semi-autonoma di Google, AutoPilot, introdotto nel 2013, Google ha interrotto il progetto.

Così, il testimone per l'esplorazione della guida autonoma è passato a Tesla. AutoPilot di Tesla e FireFlight di Google erano entrambi progetti di guida autonoma in fase iniziale, ma la principale differenza nei loro approcci tecnologici era che Tesla aveva optato per la visione pura invece del LiDAR. Nell'ottobre 2014, Tesla ha rilasciato Hardware 1.0, segnando il suo ingresso nel settore della guida autonoma dell'industria automobilistica. Questo hardware includeva una telecamera frontale, un radar a onde millimetriche, 12 sensori a ultrasuoni e una piattaforma di elaborazione di Mobileye, EyeQ3.

Nella prima generazione del sistema di guida autonoma di Tesla, l'azienda non disponeva di una propria piattaforma di elaborazione dati, ma collaborava con l'israeliana Mobileye. Ora sussidiaria di Intel, Mobileye si concentra sullo sviluppo sia di hardware che di software per sistemi avanzati di assistenza alla guida (ADAS). La serie EyeQ di Mobileye, composta da chip di elaborazione visiva e sistemi software, è utilizzata in oltre 125 milioni di veicoli di produttori tra cui Audi, BMW, Volkswagen, General Motors e altri.

All'inizio del 2016, Tesla ha introdotto ufficialmente il concetto di Full Self-Driving (FSD) e ha iniziato a sviluppare una piattaforma di guida completamente autonoma. Nell'ottobre 2016, Tesla ha rilasciato HW2.0, che ha ampliato la telecamera anteriore e quella posteriore di HW1.0 a un totale di otto telecamere, offrendo una visione a 360 gradi attorno al veicolo. Elon Musk ha anche annunciato che HW2.0 era sufficiente per supportare la guida completamente autonoma, confermando l'impegno di Tesla verso un approccio basato esclusivamente sulla visione.

A marzo 2019, HW3.0 ha iniziato la produzione di massa su Model S e Model X, seguita dalla Model 3 un mese dopo. Il 22 aprile 2019, durante l'AI Day di Tesla, l'azienda ha presentato la sua piattaforma di elaborazione Full Self-Driving (FSD) con il chip FSD proprietario di Tesla. Nell'agosto 2020, il team Autopilot di Tesla ha ristrutturato il codice sottostante del software e la rete neurale profonda. Ha inoltre sviluppato un nuovo supercomputer di addestramento chiamato Dojo e introdotto l'architettura BEV+Transformer. Questa architettura utilizza la vista a volo d'uccello per convertire le immagini 2D in 3D, fornendo una migliore comprensione ed elaborazione dell'ambiente circostante il veicolo, segnando l'ingresso di Tesla nell'era dei modelli di grandi dimensioni.

Il 26 agosto 2023, Elon Musk ha trasmesso in diretta streaming il lancio di FSD V12.0 di Tesla, il primo sistema di guida autonoma basato su intelligenza artificiale end-to-end di Tesla. Questa versione ha sostituito circa 300.000 righe di codice C++ nel backend con il processo decisionale basato su reti neurali di Tesla Vision AI, segnando un significativo passo avanti nella tecnologia di guida autonoma di Tesla.

Ora, parliamo di cosa significa "end-to-end". Nella progettazione tradizionale dei sistemi di guida autonoma, il modulo di percezione è responsabile della raccolta di informazioni ambientali attraverso vari sensori, come telecamere e LiDAR.

Il modulo di pianificazione utilizza quindi queste informazioni per pianificare il percorso e prendere decisioni, mentre il modulo di controllo esegue azioni specifiche in base ai risultati pianificati. I sistemi di guida autonoma tradizionali funzionano come un imbuto, in cui le informazioni vengono gradualmente perse strato dopo strato.

Il modello end-to-end di Tesla semplifica questi processi complessi creando un'architettura di rete neurale unificata. Prende i dati di input grezzi e li elabora direttamente per generare comandi di controllo per il veicolo, eliminando la necessità di moduli separati. Questo approccio riduce i ritardi e gli errori che possono accumularsi durante il trasferimento di informazioni tra i moduli, rendendo il sistema di guida autonoma più reattivo e preciso.

Le decisioni non vengono più prese sulla base di un codice basato su regole, ma sono invece guidate dai dati e dalla potenza di calcolo. Il modello viene addestrato imitando i processi di pensiero umani, apprendendo da enormi quantità di dati video. Maggiore è la qualità dei dati e la potenza di calcolo forniti, migliori saranno le prestazioni del modello. Questo approccio può persino portare a un fenomeno emergente comune nei modelli di grandi dimensioni, in cui l'IA afferra improvvisamente concetti complessi, simile a un momento di "illuminazione" umano.

Tuttavia, i sistemi end-to-end non sono privi di svantaggi. Ad esempio, questi sistemi hanno spesso una minore interpretabilità, rendendo relativamente più difficile individuare i problemi. In sostanza, questo tipo di sistema funziona come una scatola nera, il che significa che persino gli ingegneri potrebbero non comprendere appieno come vengono prese le sue decisioni. Di conseguenza, si è registrata una maggiore probabilità di commettere errori di base durante l'utilizzo da parte dell'utente. Nonostante la formazione continua, permangono alcuni punti ciechi cognitivi, come percorrere percorsi inutilmente lunghi o parcheggiare sul marciapiede.

I sistemi end-to-end si basano inoltre su enormi quantità di dati di alta qualità. Senza una raccolta dati adeguata e supercomputer come Dojo per l'addestramento, raggiungere la precisione richiesta per la guida autonoma è impossibile. Di conseguenza, molti marchi automobilistici con meno veicoli in circolazione impiegheranno molto tempo per accumulare i miliardi di chilometri di dati di cui dispone Tesla. Inoltre, senza i supercomputer di Tesla, l'addestramento di questi modelli richiederà tempi significativamente più lunghi.

Cos'è una rete neurale?

Nel 2021, Tesla ha sviluppato HydroNet, una rete neurale per la guida autonoma. Si tratta di un'architettura di rete neurale basata sulla visione pura, progettata per l'apprendimento multitask. Il principio alla base è l'utilizzo di un modello di rete neurale unificato per elaborare in parallelo diverse attività di percezione. Negli scenari di guida autonoma, il veicolo deve comprendere il complesso ambiente circostante, che include attività come il rilevamento di oggetti (auto e pedoni), il rilevamento della corsia, la segmentazione dell'area percorribile e la stima della profondità. In sostanza, il sistema di guida autonoma suddivide le informazioni raccolte in più thread di attività, ognuno dei quali gestisce e analizza diverse caratteristiche in parallelo, per poi aggregare i risultati.

In parole povere, funziona come se i nostri organi sensoriali (occhi, orecchie, bocca e naso) raccogliessero simultaneamente informazioni dall'ambiente circostante, che poi vengono inviate al cervello per l'elaborazione e il riconoscimento unificati dell'ambiente circostante.

Che cos'è una rete di occupazione?

Il nome originale dell'Occupancy Network è "Occupancy Network". Funziona dividendo lo spazio intorno al veicolo in piccole celle e identificando se queste celle sono occupate. Questo aiuta il sistema di guida autonoma di Tesla a creare una mappa tridimensionale dettagliata in tempo reale. Questa mappa consente al veicolo di percepire e comprendere meglio l'ambiente circostante, consentendo decisioni di guida più intelligenti. Anche i modelli 3D renderizzati nelle ultime Model 3 sono il risultato dell'algoritmo dell'Occupancy Network.

Infine, cos'è la modalità ombra?

La modalità ombra può essere intesa come uno stato in cui, sebbene il sistema e i sensori siano in funzione, non controllano il veicolo. Al contrario, gli algoritmi del sistema prendono continuamente decisioni simulate per la convalida. È come avere un copilota che impara costantemente le tecniche di guida. Il sistema confronta il suo algoritmo con le azioni del conducente e, in caso di discrepanza, lo scenario viene segnalato come caso limite. Questo attiva un feedback sui dati per identificare potenziali errori nell'algoritmo della rete neurale. Il sistema registra quindi le azioni del conducente e l'ambiente circostante, caricando queste informazioni sul backend per ottimizzare ulteriormente l'algoritmo.

Tutti i modelli Tesla supportano questa funzionalità, il che significa che ogni utente Tesla funge da tester gratuito per l'azienda. Più utenti ci sono, più dati Tesla può raccogliere. Tuttavia, è importante notare che in paesi come la Cina e alcune nazioni europee, i veicoli non possono caricare liberamente dati senza l'approvazione del governo. Pertanto, per localizzare, Tesla deve istituire data center e team dedicati in queste regioni per la formazione localizzata.

Elon Musk è molto strategico. Tesla preinstalla hardware per la guida autonoma in tutti i suoi modelli, ma l'accesso a queste funzionalità è bloccato e richiede un pagamento per lo sblocco tramite software. Questo hardware preinstallato è essenziale per abilitare la modalità Shadow. Sebbene questo possa sembrare un costo aggiuntivo, il vantaggio di avere i proprietari di auto che forniscono test gratuiti sui dati supera di gran lunga la spesa. La pianificazione a lungo termine di Musk è infatti evidente in questo approccio.