Qu'est-ce qui rend la conduite autonome FSD de Tesla si spéciale ? Vous avez probablement déjà entendu parler de réseaux neuronaux, de modèles de bout en bout, de réseaux d'occupation et de mode fantôme. Mais que signifient-ils ? Aujourd'hui, je vais détailler ces technologies clés de la FSD de Tesla de manière simple et compréhensible.

Commençons par l'histoire du système de conduite autonome (FSD) de Tesla. Dès 2013, Elon Musk envisageait d'intégrer la conduite autonome aux véhicules Tesla. Initialement, Tesla a suivi la voie tracée par Google en matière de conduite autonome. Cependant, en raison de problèmes et de préoccupations de sécurité apparus lors des tests du système de conduite semi-autonome de Google, AutoPilot, lancé en 2013, Google a interrompu le projet.

Ainsi, le relais de l'exploration de la conduite autonome a été transmis à Tesla. L'AutoPilot de Tesla et le FireFlight de Google étaient tous deux des projets de conduite autonome à un stade précoce, mais la principale différence entre leurs approches technologiques résidait dans le choix de la vision pure plutôt que du LiDAR. En octobre 2014, Tesla a lancé le Hardware 1.0, marquant son entrée dans l'univers de la conduite autonome dans l'industrie automobile. Ce matériel comprenait une caméra frontale, un radar à ondes millimétriques, 12 capteurs à ultrasons et une plateforme informatique de Mobileye, l'EyeQ3.

Lors de la première génération de son système de conduite autonome, Tesla ne disposait pas de sa propre plateforme informatique, mais s'était associée à l'entreprise israélienne Mobileye. Aujourd'hui filiale d'Intel, Mobileye se concentre sur le développement matériel et logiciel des systèmes avancés d'aide à la conduite (ADAS). La série EyeQ de puces de traitement de la vision et de systèmes logiciels de Mobileye équipe plus de 125 millions de véhicules de constructeurs tels qu'Audi, BMW, Volkswagen, General Motors et d'autres.

Début 2016, Tesla a officiellement lancé le concept de conduite entièrement autonome (FSD) et a commencé à développer une plateforme de conduite entièrement autonome. En octobre 2016, Tesla a lancé HW2.0, qui est passé d'une caméra frontale et d'une caméra arrière dans HW1.0 à un total de huit caméras, offrant une vision à 360 degrés autour du véhicule. Elon Musk a également annoncé que HW2.0 était suffisant pour permettre une conduite entièrement autonome, confirmant ainsi l'engagement de Tesla en faveur d'une approche purement visuelle.

En mars 2019, la production en série de HW3.0 a débuté sur les Model S et Model X, suivie par la Model 3 un mois plus tard. Le 22 avril 2019, lors de la Journée de l'IA de Tesla, l'entreprise a dévoilé sa plateforme de conduite entièrement autonome (FSD) intégrant sa puce FSD propriétaire. En août 2020, l'équipe Autopilot de Tesla a restructuré le code sous-jacent et le réseau neuronal profond du logiciel. Elle a également développé un nouveau supercalculateur d'entraînement appelé Dojo et introduit l'architecture BEV+Transformer. Cette architecture utilise la vue aérienne pour convertir des images 2D en 3D, offrant ainsi une meilleure compréhension et un meilleur traitement de l'environnement du véhicule, marquant ainsi l'entrée de Tesla dans l'ère des grands modèles.

Le 26 août 2023, Elon Musk a diffusé en direct la sortie de FSD V12.0, le premier système de conduite autonome IA de bout en bout de Tesla. Cette version a remplacé environ 300 000 lignes de code C++ en back-end par la prise de décision par réseau neuronal de Tesla Vision AI, marquant une avancée significative dans la technologie de conduite autonome de Tesla.
Parlons maintenant de ce que signifie « de bout en bout ». Dans la conception traditionnelle des systèmes de conduite autonome, le module de perception est chargé de collecter des informations environnementales grâce à divers capteurs, tels que des caméras et des LiDAR.

Le module de planification utilise ensuite ces informations pour planifier les trajets et prendre des décisions, tandis que le module de contrôle exécute des actions spécifiques en fonction des résultats prévus. Les systèmes de conduite autonome traditionnels fonctionnent comme un entonnoir, où l'information se perd progressivement, couche par couche.

Le modèle de bout en bout de Tesla rationalise ces processus complexes en créant une architecture de réseau neuronal unifiée. Il traite directement les données brutes pour générer des commandes de contrôle pour le véhicule, éliminant ainsi le recours à des modules distincts. Cette approche réduit les retards et les erreurs qui peuvent s'accumuler lors du transfert d'informations entre les modules, rendant le système de conduite autonome plus réactif et précis.

Les décisions ne reposent plus sur un code basé sur des règles, mais sur les données et la puissance de calcul. Le modèle est entraîné en imitant les processus de pensée humains, grâce à l'apprentissage à partir de vastes quantités de données vidéo. Plus les données et la puissance de calcul sont élevées, meilleures sont les performances du modèle. Cette approche peut même conduire à un phénomène émergent, courant dans les grands modèles, où l'IA saisit soudainement des concepts complexes, à la manière d'une révélation humaine.

Cependant, les systèmes de bout en bout présentent des inconvénients. Par exemple, leur interprétabilité est souvent plus faible, ce qui rend l'identification des problèmes plus difficile. En résumé, ce type de système fonctionne comme une boîte noire, ce qui signifie que même les ingénieurs peuvent ne pas comprendre pleinement le processus décisionnel. Par conséquent, le risque d'erreurs élémentaires lors de l'utilisation est accru. Malgré une formation continue, certains angles morts cognitifs persistent, comme emprunter des itinéraires inutilement longs ou se garer sur le trottoir.

Les systèmes de bout en bout dépendent également fortement d'énormes quantités de données de haute qualité. Sans une collecte de données suffisante et sans supercalculateurs comme Dojo pour l'entraînement, atteindre la précision requise pour la conduite autonome est impossible. Par conséquent, de nombreuses marques automobiles ayant peu de véhicules en circulation mettront beaucoup de temps à accumuler les milliards de kilomètres de données dont dispose Tesla. De plus, sans les supercalculateurs de Tesla, l'entraînement de ces modèles prendra beaucoup plus de temps.
Qu'est-ce qu'un réseau neuronal ?

En 2021, Tesla a développé HydroNet, un réseau neuronal pour la conduite autonome. Il s'agit d'une architecture de réseau neuronal purement basée sur la vision, conçue pour l'apprentissage multitâche. Son principe est d'utiliser un modèle de réseau neuronal unifié pour traiter différentes tâches de perception en parallèle. Dans les scénarios de conduite autonome, le véhicule doit comprendre l'environnement complexe qui l'entoure, ce qui inclut des tâches telles que la détection d'objets (voitures et piétons), la détection de voie, la segmentation de la zone de conduite et l'estimation de la profondeur. En résumé, le système de conduite autonome divise les informations collectées en plusieurs threads, chacun traitant et analysant différentes caractéristiques en parallèle, puis agrège les résultats.
En termes plus simples, cela fonctionne comme nos organes sensoriels (yeux, oreilles, bouche et nez) qui collectent simultanément des informations sur notre environnement quotidien, qui sont ensuite envoyées au cerveau pour un traitement unifié et une reconnaissance de l’environnement.
Qu'est-ce qu'un réseau d'occupation ?
Le nom original du réseau d'occupation est « Occupancy Network ». Il fonctionne en divisant l'espace autour du véhicule en petites cellules et en identifiant si ces cellules sont occupées. Cela permet au système de conduite autonome de Tesla de créer une carte tridimensionnelle détaillée en temps réel. Cette carte permet au véhicule de mieux percevoir et comprendre son environnement, ce qui conduit à des décisions de conduite plus judicieuses. Les modèles 3D rendus dans les derniers véhicules Model 3 sont également le fruit de l'algorithme du réseau d'occupation.
Enfin, qu’est-ce que le mode Ombre ?
Le mode Shadow peut être interprété comme un état dans lequel, bien que le système et les capteurs fonctionnent, ils ne contrôlent pas le véhicule. Au lieu de cela, les algorithmes du système prennent en permanence des décisions simulées pour validation. C'est comme si un copilote apprenait constamment des techniques de conduite. Le système compare son algorithme aux actions du conducteur et, en cas d'écart, le scénario est signalé comme un cas limite. Cela déclenche un retour de données pour identifier les erreurs potentielles dans l'algorithme du réseau neuronal. Le système enregistre ensuite les actions du conducteur et l'environnement, puis télécharge ces informations vers le backend afin d'optimiser l'algorithme.

Tous les modèles Tesla sont compatibles avec cette fonctionnalité, ce qui signifie que chaque utilisateur Tesla devient un testeur gratuit pour l'entreprise. Plus le nombre d'utilisateurs est élevé, plus Tesla peut collecter de données. Cependant, il est important de noter que dans des pays comme la Chine et certains pays européens, les véhicules ne peuvent pas télécharger librement de données sans autorisation gouvernementale. Par conséquent, pour la localisation, Tesla doit établir des centres de données et des équipes de données dans ces régions pour assurer la formation locale.
Elon Musk est très stratégique. Tesla préinstalle des équipements de conduite autonome sur tous ses modèles, mais l'accès à ces fonctionnalités est verrouillé et nécessite un paiement pour les débloquer via un logiciel. Ces équipements préinstallés sont essentiels pour activer le Shadow Mode. Bien que cela puisse paraître un coût supplémentaire, l'avantage de permettre aux propriétaires de fournir des tests de données gratuits dépasse largement ce coût. La vision à long terme d'Elon Musk transparaît clairement dans cette approche.
