Une photo. Quelques secondes. Un chiffre.
Derrière cette simplicité apparente, il y a une réalité technique que la plupart des utilisateurs ne connaissent pas, et que la plupart des applications ne cherchent pas à expliquer. Ce que l'IA regarde vraiment quand tu lui montres ton assiette, et ce qu'elle ne peut structurellement pas voir, c'est ce que la science documente depuis plusieurs années.
La méthode que presque tout le monde utilise
Quand une application de nutrition analyse une photo de repas, elle suit dans la quasi-totalité des cas la même architecture : le modèle regarde l'image, identifie un plat dans sa globalité, et lui associe une valeur nutritionnelle moyenne tirée d'une base de données.
Le système dit « c'est des pâtes carbonara ». Il retourne une valeur. C'est terminé.
Cette approche, appelée reconnaissance globale du plat, est aujourd'hui dominante dans l'industrie. Une revue systématique publiée dans le British Journal of Nutrition (Cofre et al., 2025) le confirme : le deep learning par reconnaissance de catégorie représente la méthode la plus répandue parmi les systèmes d'analyse visuelle testés.
Elle est rapide. Elle est automatique. Elle est aveugle à tout ce qui s'écarte de la valeur moyenne associée à la catégorie.
Ce que la caméra ne peut pas voir
La reconnaissance du plat n'est que la première étape. Ce qui suit, l'estimation des portions, est là où les écarts se creusent.
Une photo est une image en deux dimensions. Elle efface la profondeur. Elle ne mesure pas la hauteur. 149 grammes de riz et 62 grammes peuvent paraître strictement identiques sur une assiette photographiée du dessus. Une étude de validation du système médiPIATTO (Papathanail et al., 2022) l'a mesuré directement : seulement 54,5 % des tailles de portions étaient correctement estimées.
Et ce n'est pas la seule limite.
Une cuillère à soupe d'huile d'olive dans une poêle représente environ 120 kcal. Elle ne laisse aucune trace visuelle détectable sur le plat final. Une lasagne peut contenir entre 400 et 800 kcal selon la recette, sans que rien dans l'image ne le révèle. Un système qui traite un plat comme une catégorie unique hérite de ces angles morts sans aucun moyen de les corriger.
Il y a aussi un troisième problème, moins visible. Une étude publiée dans Current Developments in Nutrition (Cathcart et al., 2022) a testé quatre applications majeures sur plus de 150 plats issus de six régions du monde. Les plats ouest-africains et latino-américains affichaient des taux de reconnaissance nettement inférieurs aux plats européens. Les données d'entraînement surreprésentent certaines cuisines. Ce que le modèle n'a pas appris à voir, il ne le voit pas.
Reconnaître n'est pas comprendre
Il y a une différence fondamentale entre un système qui étiquette et un système qui raisonne.
Étiqueter, c'est associer une image à une catégorie. Raisonner, c'est lire ce que l'image contient réellement : la couleur d'un aliment, sa texture, ce que ça dit sur la façon dont il a été préparé. Un blanc de poulet à la surface lisse et pâle dit quelque chose. Un poulet doré et légèrement caramélisé en dit autre chose. Ces deux lectures ne produisent pas les mêmes repères énergétiques.
Les modèles de vision de dernière génération font quelque chose que les systèmes classiques ne font pas : ils raisonnent avant de répondre. Avant de produire une analyse, ils traversent plusieurs étapes de réflexion interne, composante par composante, en tenant compte du contexte visuel de chaque élément. Ce type de raisonnement, que les chercheurs appellent multimodal reasoning, a fait l'objet d'améliorations majeures ces derniers mois. Les benchmarks les plus récents en compréhension visuelle complexe montrent des scores inégalés pour cette nouvelle génération de modèles. Leur capacité à lire le contexte d'une image surpasse largement ce que les architectures précédentes permettaient.
C'est précisément cette technologie que Flow a choisie pour analyser tes repas.
Ce que Flow Vision fait différemment
Flow Vision ne reconnaît pas un plat. Elle lit chaque composant séparément.
Quand tu photographies ton repas dans Flow, l'analyse ne retourne pas une étiquette globale assortie d'une valeur moyenne. Elle décompose : chaque ingrédient visible, sa portion estimée depuis l'image, son mode de cuisson apparent. L'huile, la vinaigrette, le beurre fondu entrent dans l'analyse, parce que la nutrition se cache souvent dans ces détails-là. Un tajine, un curry, une ratatouille : chaque composant est identifié séparément, sans rien saisir manuellement.
Ce raisonnement ingrédient par ingrédient, porté par un modèle de vision capable de lire le contexte visuel d'une image avec une précision que les générations précédentes ne permettaient pas, est ce qui distingue Flow Vision des systèmes de reconnaissance classiques.
Et si tu as laissé une partie de ton assiette, tu peux l'indiquer. Pas parce que l'analyse manque de précision. Parce que toi seul sais exactement ce que tu as mangé, et que Flow respecte cette réalité.
La question n'est pas de savoir si une IA peut analyser une photo de repas.
Elle le peut.
La question est ce qu'elle regarde vraiment quand elle le fait. Donner à un système de vision suffisamment d'indices pour qu'il raisonne juste, c'est différent de lui demander de deviner. Flow a fait ce choix-là.