Déployer des modèles d'IA hors ligne avec AI Edge Gallery

La dernière application open source de Google, AI Edge Gallery est capable d'exécuter des modèles d'IA avancés sur les terminaux Android. Destinée aux développeurs, elle puise dans les modèles hébergés sur Hugging Face incluant le petit modèle de langage multimodal Gemma 3n.

La plateforme open source AI Edge Gallery lancée par Google permet aux développeurs d'exécuter des modèles d'IA avancés directement sur les terminaux Android, avec un support iOS prévu pour une prochaine version. Publiée sous licence Apache 2.0 et hébergée sur GitHub, cette application expérimentale exploite la plateforme AI Edge de Google pour offrir des capacités d'apprentissage machine (ML) et d'IA générative (GenAI) sans dépendre de la connectivité au cloud. Destinée aux développeurs d'entreprise, elle met l'accent sur la confidentialité des données et la faible latence, c qui en fait un outil robuste pour construire des applications sécurisées et efficaces. « L'exécution de l'IA sur l'appareil via AI Edge Gallery crée un nouveau paradigme pour les développeurs, où la confidentialité devient une caractéristique de performance plutôt qu'un fardeau de conformité », a déclaré Abhishek Anant Garg, analyste chez QKS Group. « La plateforme ne se contente pas de supprimer la dépendance par rapport au réseau, elle réduit la latence à près de zéro et affranchit de toute connectivité intermittente qui pouvait créer des défaillances. »

Un centre d'expertise pour l'IA sur le terminal

AI Edge Gallery de Google est construite sur LiteRT (anciennement TensorFlow Lite) et MediaPipe, optimisée pour l'exécution de l'IA sur des appareils à ressources limitées. La plateforme prend en charge les modèles open source de Hugging Face, y compris le petit modèle de langage multimodal Gemma 3n de Google qui gère le texte et les images, avec une prise en charge audio et vidéo en cours de développement. Le modèle Gemma 3 1B de 529 Mo fournit jusqu'à 2 585 tokens par seconde pendant l'inférence de pré-remplissage sur les GPU mobiles, ce qui permet d'effectuer des tâches en moins d'une seconde comme la génération de texte et l'analyse d'images. Les modèles s'exécutent entièrement hors ligne sur le CPU, le GPU ou le NPU, ce qui préserve la confidentialité des données.

L'application comprend un Prompt Lab pour les tâches à tour unique telles que le résumé, la génération de code et les requêtes d'images, avec des modèles et des paramètres réglables (par exemple, température, l’échantillonnage top-k). La bibliothèque RAG permet aux modèles de faire référence à des documents locaux ou à des images sans réglage fin, tandis que la bibliothèque Function Calling permet d'automatiser les appels à l'API ou le remplissage de formulaires. La quantification Int4 réduit la taille des modèles jusqu'à 4 fois par rapport au format à virgule flottante à 16-bits bf16, réduisant ainsi l'utilisation de la mémoire et la latence, selon un billet de blog de Google. Un notebook Colab aide les développeurs à quantifier, affiner et convertir les modèles pour le déploiement en périphérie. La taille des modèles varie de 500 Mo à 4 Go, avec plus d'une douzaine d'options sur le hub communautaire LiteRT Hugging Face.

Installation et applications en entreprise

Pour commencer à utiliser AI Edge Gallery, les développeurs doivent activer le mode développeur sur leurs appareils Android (Paramètres > À propos du téléphone > appuyez sept fois sur le numéro de build). Après avoir téléchargé le dernier APK (v1.0.3) sur GitHub, l'application peut être installée via ADB à l'aide de la commande adb install -t ai-edge-gallery.apk ou via un gestionnaire de fichiers avec l'option « Unknown Sources (Sources inconnues) activée. En tant que version alpha expérimentale, l'application peut présenter une certaine instabilité. La prise en charge d'iOS est attendue prochainement. La plateforme est particulièrement utile pour le traitement local de données sensibles, un point important dans des secteurs tels que la santé et la finance qui doivent maintenir la conformité en conservant les enregistrements sur l'appareil. Ses capacités hors ligne soutiennent les applications de terrain pour les diagnostics d'équipement, par exemple, tandis que l'intégration de MediaPipe facilite les déploiements IoT dans les secteurs de la vente au détail et de la fabrication. La bibliothèque Function Calling permet des fonctions d'automatisation, notamment le remplissage de formulaires à commande vocale et le résumé de documents. Selon Abhishek Ks Gupta, associé et responsable national du secteur chez KPMG en Inde, l'IA sur l'appareil, comme AI Edge Gallery de Google est un « changement révolutionnaire pour la confidentialité et la sécurité ». En effet, selon lui, le fait de garder les données au niveau local est fondamentalement plus sûr pour ces données spécifiques. « Mais cela exige une nouvelle approche de la sécurité : la protection de la flotte d'appareils et des modèles eux-mêmes », a-t-il ajouté.

Les performances d'AI Edge Gallery varieront en fonction du matériel. Par exemple, les appareils Pixel 8 Pro peuvent gérer des modèles plus grands sans problème, tandis que les appareils de niveau intermédiaire peuvent connaître une latence plus élevée. « Le défi consiste à concilier la sophistication des modèles avec les réalités du matériel mobile : les développeurs doivent devenir des virtuoses de l'efficacité plutôt que de simples orchestrateurs de la profusion du cloud », a estimé M. Garg. Par ailleurs, selon lui, la limite de l'IA générative sur appareil n'est pas seulement technique, elle est aussi conceptuelle. « L'IA générative sur appareil se heurte au même mur que celui qui a affecté les débuts de l'informatique mobile, en essayant de réduire les paradigmes de l'ordinateur de bureau à des facteurs de forme portables », a-t-il ajouté. « Les approches actuelles qui requièrent des gigaoctets de poids de modèle et des performances soutenues à TOPS élevés ne correspondent pas aux réalités mobiles. Nous avons besoin d'architectures d'IA conçues dès l’origine pour un fonctionnement intermittent, à faible consommation d'énergie et tenant compte du contexte, plutôt que de versions réduites de modèles centrés sur le cloud. »

La grande poussée du traitement local de l'IA

Le lancement de AI Edge Gallery de Google s'inscrit dans le cadre d'une évolution plus large de l'industrie vers le traitement local de l'IA. Le moteur neuronal d'Apple, intégré aux iPhone, iPad et Mac, permet le traitement du langage en temps réel et la photographie informatique, le tout sur l'appareil afin de préserver la vie privée. Le moteur AI de Qualcomm, intégré dans les puces Snapdragon, rend possible la reconnaissance vocale et les assistants intelligents dans les smartphones Android. Samsung utilise des NPU intégrées dans les appareils Galaxy pour accélérer les tâches d'IA générative sans dépendre du cloud. L'approche de Google est plus fondamentale. « Avec Edge Gallery, Google passe de la concurrence directe à l'orchestration de plateforme », a expliqué M. Garg de QKS Group. « Plutôt que de se battre avec Apple ou Qualcomm sur les fonctionnalités, Google construit lui-même l'infrastructure de l'IA mobile. C’est une stratégie meta-concurrentielle, dont l’objectif est de devenir le Linux de l'IA mobile : omniprésent, invisible et indispensable ». Pour M. Garg, AI Edge Gallery et l'initiative LiteRT sont un « modèle du genre en matière de stratégie de plateforme ». En créant l'infrastructure, en ouvrant les outils et en alimentant l'écosystème, Google rend l'IA sur appareil largement accessible, tout en gardant le contrôle sur les moteurs d'exécution et la distribution des modèles. « Comme Intel à l'époque des PC, Google se positionne discrètement comme fournisseur d'IA à la périphérie, à la fois omniprésente, essentielle et largement invisible », a ajouté M. Garg.

Sur le même thème

Partenaires

Déployer des modèles d'IA hors ligne avec AI Edge Gallery

Livres blancs

Un centre d'expertise pour l'IA sur le terminal

Installation et applications en entreprise

La grande poussée du traitement local de l'IA

Commentaire

Suivre toute l'actualité

Newsletter

Livres blancs

Un centre d'expertise pour l'IA sur le terminal

Installation et applications en entreprise

La grande poussée du traitement local de l'IA

Newsletter LMI

Commentaire

Suivre toute l'actualité

Newsletter