Quelles notes auront les LLM à ce test de français ? Q1 24

Dans cet article

Les Large Language Models (LLM), capables de comprendre, de générer et d’interagir en langage humain, ouvrent de nouveaux horizons, tant dans le domaine de l’assistance virtuelle que dans celui de la création de contenu. Mais au-delà de leur capacité à générer des textes cohérents et contextuellement pertinents, comment ces intelligences artificielles se comportent lorsqu’elles sont confrontées à la complexité et aux subtilités d’une langue comme le français ? Et à quelle vitesse parviennent-elles à fournir des réponses ?

Ce RegloBench vise à explorer ces questions en soumettant plusieurs LLM à un test de français composé de questions diversifiées. À travers cet exercice, nous cherchons à évaluer non seulement leur capacité à comprendre et à utiliser correctement la langue française mais aussi à mesurer leur rapidité de réponse.

Date du test : 28/02/24

LLM sélectionnés

Nous avons sélectionné neuf des solutions les plus avancées et performantes disponibles en mode SaaS (Software as a Service) : GPT-3.5 Turbo, GPT-4, GPT-4 Turbo Preview, Gemini Pro, les variantes Mistral Tiny, Small, Medium ainsi que Open Mistral 7b et 8x7b.

  • gpt-3.5-turbo : Conçu pour offrir une rapidité et une efficacité accrues, ce modèle est une évolution du célèbre GPT-3, optimisé pour des réponses plus rapides tout en maintenant une qualité de génération de texte élevée.
  • gpt-4 / gpt-4-turbo-preview : La dernière itération de la série GPT, GPT-4, se distingue par sa compréhension améliorée et sa capacité à générer des textes d’une qualité quasi humaine sur une variété encore plus large de sujets et de formats. GPT-4-turbo est une évolution de GPT-4, offrant une vitesse d’exécution accrue.
  • gemini-pro : Ce modèle de Google, moins connu du grand public mais tout aussi performant, brille par sa capacité à s’adapter à des contextes spécifiques, offrant des réponses personnalisées et pertinentes dans une multitude de scénarios.
  • mistral-tiny / mistral-small / mistral-medium : Ces variantes du modèle Mistral offrent une gamme de performances adaptées à différents besoins, du Tiny, plus limité, au Medium, qui équilibre habilement qualité de génération et coût opérationnel, en passant par le Small, un compromis entre les deux.
  • open-mistral-7b / open-mistral-8x7b : Ces deux modèles marquent des étapes significatives dans l’évolution des modèles d’intelligence artificielle, offrant une gamme de capacités adaptées à divers besoins. Le modèle open-mistral-7b, avec ses 7 milliards de paramètres, fournit un équilibre optimal entre qualité de génération de texte et efficacité opérationnelle, convenant à des tâches de complexité moyenne. Son successeur, open-mistral-8x7b, étend cette capacité avec une architecture huit fois plus puissante, promettant des performances accrues en termes de vitesse, de profondeur d’analyse et de précision.

Ces modèles ont été choisis non seulement pour leur excellence technique dans le traitement du langage naturel mais aussi pour leur représentativité des avancées actuelles en IA, permettant une évaluation de l’état de l’art des LLM en termes de compréhension et d’utilisation de la langue française.

Test de français

Pour évaluer la capacité des LLM à comprendre et à utiliser le français, ainsi que leur rapidité à répondre, nous avons élaboré un test composé de questions couvrent un large éventail d’aptitudes linguistiques, allant de la compréhension de texte à la grammaire, en passant par la conjugaison, la syntaxe, et la sémantique.

L’objectif est de sonder la profondeur de la compréhension des LLM et leur capacité à appliquer les règles de la langue française dans différents contextes.

Méthodologie du test

Critères d’évaluation

Qualité de réponse : La justesse des réponses est évaluée pour déterminer la compréhension linguistique des modèles.

Rapidité de réponse : Le temps pris par chaque LLM pour répondre à une question est mesuré, fournissant un indicateur de leur efficacité et de leur capacité à traiter l’information rapidement.

Procédure de test

Le test est administré dans un environnement où chaque LLM reçoit les questions dans un format standardisé et répond selon ses algorithmes internes. Aucune intervention humaine n’a été réalisée durant le test pour garantir l’équité des résultats.

Tous les paramètres des LLM sont réglés par défaut hormis une température à 0. La température est un hyperparamètre de configuration qui contrôle le caractère aléatoire de la réponse du modèle de langage. Une température élevée produit des résultats plus imprévisibles et créatifs, tandis qu’une température basse produit une sortie plus probable et conservatrice.

Les consignes sont identiques et nous avons pris le parti de ne pas élaborer de prompts différenciés pour optimiser les réponses de chacun des LLM.

Automatisation du test

Pour réaliser ce test de manière automatisée, nos data scientists utilisent Jupyter Notebook et le langage de programmation Python.

Voici le procédé détaillé par étape :

  1. Chargement des questions et réponses du test au format CSV
  2. Extraction des questions seules pour administration du test aux LLM
  3. Réponse autonome aux questions par les LLM avec enregistrement du temps de réponse
  4. Comparaison entre les réponses rendues par les LLM et les réponses exactes du test
  5. Calcul du score pour chaque question sur une note totale de 1 (si 3 éléments de réponse dans 1 question = 0.33 x 3), si le LLM répond avec justesse à 2/3 éléments il obtient le note de 0.66/1
  6. Calcul du score général sur une note maximale de 1

Analyse des performances

Catégories de questions

Modelgemini-progpt-3.5-turbogpt-4gpt-4-turbo-previewmistral-mediummistral-smallmistral-tinyopen-mistral-7bopen-mixtral-8x7b
Articles définis1.000.881.000.880.881.000.000.000.88
Articles indéfinis0.801.001.001.001.000.600.270.200.60
Conjugaison0.790.950.891.000.890.260.050.050.84
De, du1.001.001.001.001.001.000.000.001.00
Forme négative1.000.860.860.710.860.860.000.000.86
Féminin1.001.001.001.001.001.000.001.001.00
Homophone sens0.001.001.000.930.860.430.000.000.50
Homophone temps0.600.601.000.600.400.200.000.000.20
Homophones la0.750.881.001.000.880.380.380.120.38
Homophones quand0.331.001.001.001.000.330.000.000.67
Homophones quel1.001.000.891.001.001.000.000.001.00
Homophones ses0.880.881.001.000.750.250.120.250.38
Masculin1.001.001.001.001.001.000.550.451.00
Participes passés0.940.940.940.940.940.000.000.000.00
Pluriel0.001.001.000.910.001.000.090.091.00
Pluriel 20.900.801.000.900.801.000.500.501.00
Prépositions1.001.001.001.000.891.000.000.671.00
Voix passive1.001.001.001.001.000.831.000.830.83

Synthèse des résultats :

Gemini Pro

  • Points forts : Articles définis, « de, du », forme négative, féminin, masculin, prépositions, voix passive.
  • Points faibles : Homophone sens, pluriel.

GPT-3.5-turbo

  • Points forts : La plupart des catégories, avec une performance parfaite dans plusieurs d’entre elles.
  • Points faibles : Forme négative, homophone temps, pluriel 2.

GPT-4

  • Points forts : Excellentes performances dans la majorité des catégories testées.
  • Points faibles : Forme négative, homophones.

GPT-4-turbo-preview

  • Points forts : Très bonnes performances dans presque toutes les catégories.
  • Points faibles : Homophone sens, pluriel.

Mistral-medium

  • Points forts : Articles définis, « de, du », forme négative, féminin, masculin, homophones quel.
  • Points faibles : Homophone sens, pluriel, participes passés.

Mistral-small

  • Points forts : Articles définis.
  • Points faibles : Conjugaison, homophones, participes passés, pluriel.
  • Hallucinations : Ne comprend pas certaines questions et répond en anglais

Mistral-tiny

  • Points forts : Aucun, performances généralement faibles.
  • Points faibles : La plupart des catégories, avec des scores très bas ou nuls dans plusieurs d’entre elles.
  • Hallucinations : Ne comprend pas certaines questions et répond en anglais

Open-Mistral-7b

  • Points forts : « De, du », féminin.
  • Points faibles : Articles indéfinis, conjugaison, homophones, participes passés, pluriel.
  • Hallucinations : Ne comprend pas certaines questions et répond en anglais

Open-Mixtral-8x7b

  • Points forts : Articles définis, « de, du », féminin, pluriel 2, prépositions.
  • Points faibles : Articles indéfinis, conjugaison, homophones, participes passés.
  • Hallucinations : Ne comprend pas certaines questions et répond en anglais

En général, les modèles plus récents et avancés comme GPT-4 et sa variante GPT-4-turbo-preview affichent de meilleures performances sur un large éventail de tests de grammaire française.

Nous notons aussi une tendance à l’hallucination chez certains LLM. C’est le cas pour les modèles Open Mistral 7b, Open Mistral 8x7b, Mistral Tiny et Mistral Small. Ceux-ci ne comprennent pas toujours les questions et répondent parfois en anglais.

Les résultats soulignent l’importance de l’amélioration continue des modèles pour gérer la compréhension des questions et la complexité de la grammaire et de la syntaxe.

Evaluation générale

modelScoreTimeSpeedRating
mistral-tiny2.9629.590.610.16
open-mistral-7b4.1730.030.600.23
mistral-small12.1426.760.670.67
open-mixtral-8x7b13.1233.860.530.73
gemini-pro13.9993.250.190.78
mistral-medium15.14172.450.100.84
gpt-3.5-turbo16.7746.600.390.93
gpt-4-turbo-preview16.8691.950.200.94
gpt-417.58114.980.160.98

Synthèse des résultats :

  • GPT-4 se distingue avec la meilleure note (0.98), indiquant une performance supérieure aux autres modèles.
  • GPT-4-turbo-preview et GPT-3.5-turbo suivent de près en terme de notation, démontrant également d’excellentes capacités.
  • Gemini, Mistral-medium, Open-Mixtral-8x7b, et Mistral-small présentent des performances avec des notes au-dessus de 0.67, indiquant de bonnes compétences générales.
  • Open-Mistral-7b et Mistral-tiny ont les performances les plus faibles, avec des notes nettement inférieures, suggérant des limitations dans leur capacité à gérer les questions du test.

Vitesse d’exécution

  • Mistral-medium a la vitesse la plus lente par question, ce qui peut indiquer une efficacité moindre par rapport aux autres modèles.
  • Gemini et GPT-4-turbo-preview ont également des vitesses plus lentes, reflétant potentiellement la complexité des modèles ou la profondeur de l’analyse effectuée par question.
  • Mistral-small, Mistral-tiny, Open-Mistral-7b et Open-Mistral-8x7b montrent des vitesses relativement élevées par question, ce qui peut indiquer une efficacité opérationnelle supérieure ou des modèles moins complexes.

Conclusions sur les performances

Les résultats montrent une corrélation entre la complexité du modèle et sa performance, avec GPT-4 en tête, suivi de près par GPT-4 Turbo Preview et GPT-3 Turbo. Cependant, cette complexité semble également influencer la vitesse d’exécution, les modèles les plus performants étant parmi les plus lents par question. Les modèles Mistral Small, Mistral Tiny et Open Mistral, bien qu’étant plus rapides, ont une qualité de compréhension aux questions (hallucination) et une qualité de réponse moins bonne.

Ces résultats soulignent l’équilibre entre la qualité des réponses et l’efficacité opérationnelle dans le choix d’un modèle de LLM pour des applications spécifiques.

Analyse des coûts

L’évaluation des capacités linguistiques des modèles de langage de grande taille (LLM) ne serait pas complète sans considérer leur coût d’utilisation, un facteur crucial pour les entreprises et les développeurs qui envisagent d’intégrer ces technologies dans leurs applications.

Coût LLM / test, les exemples donnés ici sont en fonction de l’utilisation spécifique que nous avons eue des modèles et du volume de traitement requis (input tokens / output tokens) :

  • GPT 4 : 0.18$
  • GPT 4 Turbo Preview : 0.18$
  • GPT 3.5 turbo : < 0.01$
  • Mistral Medium : 0,03$
  • Mistral Small : < 0.01$
  • Mistral Tiny : < 0.01$
  • Open Mistral 8x7b : 0.02$
  • Open Mistral 7b : 0.01$
  • Gemini Pro : Non indiqué

GPT-4 et GPT-4 Turbo Preview ont le même coût : 0,18$. Cela indique que malgré les éventuelles améliorations ou optimisations que Turbo Preview pourrait apporter par rapport à la version standard de GPT-4, le coût d’utilisation reste identique pour les utilisateurs. Cela peut signifier que les avantages de Turbo Preview (comme une latence réduite ou une consommation de ressources optimisée) ne sont pas répercutés sur le coût pour l’utilisateur final ou que ces avantages ne sont pas jugés suffisamment importants pour justifier un tarif plus élevé que la version standard.

GPT-3.5 Turbo est nettement moins coûteux : < 0,01$. Cela montre une réduction significative du coût par rapport à GPT-4, ce qui peut refléter des différences en termes de capacités, de performance, ou d’efficacité énergétique entre les versions 3.5 et 4. Les utilisateurs ayant des besoins moins exigeants en termes de complexité des tâches pourraient trouver dans GPT-3.5 Turbo une option économiquement plus avantageuse.

Les modèles Mistral varient en coût. Cela indique une gradation en fonction de la taille et potentiellement de la puissance de calcul ou de la complexité des modèles. Mistral Medium, avec un coût de 0.03$ par test, se positionne comme une solution intermédiaire, offrant un bon équilibre entre coût et performance, adapté à des applications nécessitant une qualité de réponse élevée sans atteindre le coût de GPT-4. Les versions Small et Tiny de Mistral sont parmi les moins coûteuses : < 0,01$, ce qui les rend attractives pour des tâches nécessitant moins de précision ou de complexité. Les modèles Open Mistral 8x7b : 0,02$ et Open Mistral 7b : 0,01$ présentent aussi une variation de coût qui peut refléter des différences de performance ou d’utilisation prévue.

Perspectives

Les résultats de notre étude sur la capacité des LLM à réaliser un test de français et à quelle vitesse ils le font offrent une fenêtre intéressante sur l’état actuel et le potentiel futur de l’intelligence artificielle dans le domaine de la compréhension et de la génération du langage naturel. Les performances variées des modèles à travers différentes catégories de test révèlent à la fois les progrès impressionnants réalisés jusqu’à présent et les défis qui restent à surmonter.

Nous invitons la communauté Reglo à échanger sur ces résultats. Participez à la discussion en partageant vos perspectives sur l’avenir des LLM.

Picture of Thibaud Michard

Thibaud Michard

CMO reglo.ai. En mission pour démythifier l'Intelligence Artificielle générative.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

reglo.ai

RegloBlog

Les prochains articles Reglo dans votre boite mail.

Partager

reglo.ai

Articles récents

Cas d'usage

12 Juil 2024

Comment utiliser ChatGPT ? Mode d’emploi pour débutant et utilisateur avancé

Vous connaissez ChatGPT mais vous n’êtes jamais allé sur l’application ? Si vous êtes impatient d’utiliser ce chatbot dans votre... Lire plus

RegloBench

27 Juin 2024

Comparatif des meilleurs Chatbots IA grand public en 2024

En 2024, ChatGPT, Claude, Gemini et Mistral dominent le marché des chatbots IA grand public grâce à des modèles de langage... Lire plus

Agent conversationnel : la nouvelle interface homme-machine

Comprendre

15 Juin 2024

Agent conversationnel : la nouvelle interface homme-machine à la maison et au travail

Avec la démocratisation des agents conversationnels grand public comme ChatGPT, les entreprises ont rapidement compris le potentiel d’une telle technologie... Lire plus