samedi 25 novembre 2023

OpenAI INSIDER Drops BOMBSHELL "AGI Achieved"


OpenAI et Q.

Q*, un modèle dotés de capacités mathématiques avancées d'#OpenAI.

Une querelle interne sur les méthodes pour atteindre l'#AGI ?

Lire la petite synthèse en fin de cet article.

Plus tôt cette semaine, une source interne de l'entreprise nous a confirmé l'existence d'un projet visant à atteindre l'AGI au sein d'OpenAI. En réalité, la start-up aurait travaillé sur deux modèles d'IA adverses pour atteindre l'AGI : A-bit pour l'optimisation de l'utilité, et B-bit pour l'alignement avec les valeurs humaines. Ilya Sutskever, chef de la section scientifique chez OpenAI, était mécontent des progrès insuffisants sur le modèle B-bit (aligné sur les valeurs humaines) et l'aurait signalé à plusieurs reprises lors de la dernière réunion générale.
Le projet controversé, nommé "Q*" et jusqu'alors tenu secret, serait considéré par certains chez OpenAI comme une possible percée majeure vers l'"intelligence artificielle générale" (AGI), ont confirmé plusieurs sources à Reuters.
Grâce à des ressources informatiques conséquentes, ce nouveau modèle serait capable de résoudre certains problèmes mathématiques très complexes, suscitant un grand optimisme parmi les chercheurs quant à son potentiel futur. La lettre pointait également les capacités et les dangers potentiels de l'IA pour l'humanité, sans pour autant préciser la nature exacte des risques pour la sécurité. La conquête des mathématiques étant perçue comme une frontière clé du développement de l'IA générative, la capacité de Q* à résoudre certains problèmes mathématiques laisserait présager de futures capacités de raisonnement se rapprochant de l'intelligence humaine.
OpenAI a reconnu, dans une communication interne, l'existence du projet Q* et de la missive adressée au conseil avant l'éviction de Sam Altman.
Or, Ilya Sutskever également membre du board aurait voté pour l'éviction de Sam Altman à la tête de l'entreprise.
Officiellement, le conseil d'administration d'OpenAI s'inquiétait du manque de transparence de Sam Altman dans sa communication et ses plans à long terme.
Reste à voir si Sam Altman, revenu à la tête d'OpenAI, en dira plus sur le sujet.


Petite synthèse :

  1. OpenAI réalise une percée majeure dans l'AGI :Selon des sources anonymes, OpenAI aurait réalisé une avancée majeure dans l'intelligence artificielle générale (IAG). Cette percée a conduit au renvoi de Sam Altman, PDG d'OpenAI, qui avait fait allusion à une avancée technique récente lors du sommet des PDG. Des préoccupations ont été soulevées en interne concernant l'absence de mesures de protection pour la commercialisation de modèles d'IA avancés, en particulier un projet appelé "qar" ou Q.
  2. Elon Musk exprime des inquiétudes :Elon Musk, une figure importante dans le domaine de l'IA, a exprimé des inquiétudes quant à la percée de l'AGI par OpenAI, soulignant son impact potentiel sur l'humanité. Musk a partagé un article sur Twitter rapportant que les chercheurs d'OpenAI avaient averti le conseil d'une découverte puissante en matière d'IA.
  3. Projet Qar et Focalisation sur l'AGI :Les employés d'OpenAI pensaient que le projet qar pourrait être une percée dans la recherche de l'intelligence artificielle générale (IAG). OpenAI a recentré ses valeurs fondamentales sur l'AGI, s'engageant à construire une AGI sûre et bénéfique ayant un impact positif massif sur l'avenir de l'humanité.
  4. Évolutivité prévisible et GPT-4 :Le projet #GPT-4 d'OpenAI impliquait la construction d'une pile d'apprentissage profond avec une évolutivité prévisible, permettant la prédiction des capacités du modèle avant l'entraînement. Peter Welinder, ancien responsable de la recherche chez OpenAI, a souligné la capacité à prédire l'intelligence de GPT-4 avant l'entraînement comme un détail significatif.
  5. Réalisation de l'AGI en interne :Les déclarations d'un informateur d'OpenAI, Jimmy Apples, suggéraient que l'AGI avait été réalisée en interne par OpenAI en septembre 2023. Le PDG Sam Altman a ensuite confirmé la réalisation de l'AGI en interne, entraînant un changement de focalisation et de valeurs fondamentales d'OpenAI vers le développement de l'AGI.

  6. Open Ai's Q* (Q Star) Explained For Beginners - TheaiGrid

  7. •Le Q-learning est un type d'apprentissage par renforcement, qui est une méthode permettant d'apprendre aux ordinateurs à apprendre en les récompensant pour avoir pris de bonnes décisions et en les pénalisant parfois pour en avoir pris de mauvaises.

    • C'est comme dresser un animal de compagnie : si l'animal fait quelque chose de bien (comme s'asseoir sur commande), vous lui donnez une friandise ; si cela fait quelque chose de moins bon (comme mâcher vos chaussures), vous pourriez dire « non » ou l’ignorer.

    1. Environnement et agent : Dans Q-learning, vous disposez d'un "environnement" (comme un jeu vidéo ou un labyrinthe) et d'un "agent" (l'IA ou le programme informatique). qui doit apprendre à naviguer dans cet environnement.
    2. États et actions : l'environnement est composé de différents "états" (comme différentes positions ou scénarios dans un jeu), et l'agent a une variété d'"actions" peut prendre dans chaque état (comme se déplacer à gauche, à droite, sauter, etc.).
    3. La table Q : Le cœur du Q-learning est ce qu'on appelle une table Q. C'est comme un grand aide-mémoire qui indique à l'agent quelle action est la meilleure à entreprendre dans chaque état. Au début, ce tableau est rempli de suppositions car l'agent ne connaît pas encore l'environnement.
    4. Apprendre en faisant : L'agent commence à explorer l'environnement. Chaque fois qu’il entreprend une action dans un état, il reçoit un retour de l’environnement – ​​récompenses (points positifs) ou pénalités (points négatifs). Ces commentaires aident l'agent à mettre à jour la table Q, essentiellement en apprenant de l'expérience.
    5. Mise à jour de la table Q : La table Q est mise à jour à l'aide d'une formule qui prend en compte la récompense actuelle ainsi que les récompenses futures potentielles. De cette façon, l'agent apprend non seulement à maximiser les récompenses immédiates, mais aussi à considérer les conséquences à long terme de ses actions.
    6. L'objectif : Au fil du temps, avec suffisamment d'exploration et d'apprentissage, la table Q devient de plus en plus précise. L’agent devient meilleur dans sa capacité à prédire quelles actions produiront les récompenses les plus élevées dans différents états. Finalement, il peut naviguer dans l'environnement de manière très efficace.

    Pensez au Q-learning comme à un jeu vidéo complexe où, au fil du temps, vous apprenez les meilleurs mouvements et stratégies pour obtenir le meilleur score. Au début, vous ne connaissez peut-être pas les meilleures actions à entreprendre, mais à mesure que vous jouez de plus en plus, vous apprenez de vos expériences et vous vous améliorez dans le jeu. C’est ce que fait l’IA avec Q-learning : elle apprend de ses expériences pour prendre les meilleures décisions dans différents scénarios.

  8. Comparaison de « Gémeaux » et de Q*

    • Stratégie de prise de décision : les hypothétiques « Gémeaux » et Q* se concentreraient tous deux sur la prise des meilleures décisions possibles – « Gémeaux » en explorant différents chemins de conversation (recherche arborescente) et Q * grâce à l'apprentissage par renforcement et à l'adaptation.
    • Apprentissage et adaptation : Chaque système apprendrait de ses interactions. « Gémeaux » évaluerait différentes voies de réponse pour leur efficacité, tandis que Q* s'adapterait en fonction des récompenses et des commentaires.
    • Gestion de la complexité : Les deux approches devraient gérer la complexité et l'imprévisibilité du langage humain, ce qui nécessiterait des capacités avancées de compréhension et de génération.
------------------

Introduction à Q (Qstar) :*


La vidéo explore la percée Q* (Qstar) d'OpenAI, mettant l'accent sur son potentiel en tant que prochaine évolution dans les modèles linguistiques volumineux et l'intelligence artificielle.
Q* combine probablement des éléments de l'apprentissage Q, une technique d'apprentissage automatique utilisée dans l'apprentissage par renforcement, et de l'algorithme de recherche A*, en particulier issu de l'article de recherche AAR de 2019.
Simplification de l'apprentissage Q :

L'apprentissage Q est comparé à l'entraînement d'un robot super intelligent, où le 'Q' signifie la capacité de prendre des décisions et d'apprendre des expériences, similaire à la manière dont un joueur s'améliore dans un jeu vidéo au fil du temps.
La recherche AAR est expliquée comme une méthode pour trouver le chemin le plus court dans un labyrinthe, avec des applications en informatique et en intelligence artificielle pour résoudre divers problèmes.

Les six étapes de l'apprentissage Q :


L'apprentissage Q implique un agent dans un environnement, avec des états et des actions dictant les mouvements de l'agent.

La table Q agit comme une feuille de triche, guidant l'agent sur les meilleures actions pour chaque état.

L'apprentissage se produit lorsque l'agent explore l'environnement, reçoit des commentaires et met à jour la table Q en conséquence.

La table Q est continuellement mise à jour, en tenant compte à la fois des récompenses actuelles et futures potentielles, garantissant que les conséquences à long terme sont prises en compte dans la prise de décision.

Au fil du temps, avec l'exploration et l'apprentissage, la table Q devient plus précise, permettant à l'agent de naviguer efficacement dans l'environnement.

Comparaison avec les modèles linguistiques volumineux (LLMs) :


Q* est considéré comme une option future potentielle pour les grands modèles linguistiques en raison des limitations des LLMs.

Les LLMs présentent une dépendance aux données, nécessitant une quantité importante de données d'entraînement et ayant du mal à généraliser au-delà de leur ensemble d'entraînement.
Les LLMs ont des connaissances statiques et peuvent avoir du mal à comprendre des requêtes complexes ou spécifiques, ne pouvant pas mettre à jour leurs connaissances après l'entraînement.
Des problèmes de biais et d'équité peuvent survenir dans les LLMs en raison de données d'entraînement incomplètes ou biaisées.

Potentiel de Q et Comparaison avec les Modèles à Venir :*


Q* est présenté comme une solution pour surmonter les limitations des LLMs, offrant des processus de prise de décision plus efficaces et efficaces.

Une référence est faite à la sortie potentielle d'un modèle appelé Gemini, qui, s'il possède des capacités similaires à Q*, pourrait avoir un impact sur le domaine et être comparé à GPT-4.



P. Erol GIRAUDY


Aucun commentaire:

Enregistrer un commentaire

Anthropic propose une bibliothèque de prompts :

  Anthropic propose une bibliothèque de prompts : Anthropic propose effectivement une bibliothèque de prompts optimisés pour diverses tâches...