août 12, 2022
Bryan Catanzaro de NVIDIA – L'IA conversationnelle à certains égards est le défi ultime de l'IA

Bryan Catanzaro de NVIDIA – L'IA conversationnelle à certains égards est le défi ultime de l'IA

Beaucoup d'entre vous qui aiment les jeux ou le montage vidéo sérieux connaissent NVIDIA en tant que créateur de la technologie de traitement graphique leader sur le marché. Mais NVIDIA est également un leader dans les domaines de l'intelligence artificielle et du deep learning ; en particulier sur la façon dont ces technologies peuvent améliorer notre expérience des graphiques, de la synthèse de texte et de vidéo et de l'IA conversationnelle.

Certains de leurs travaux ont été présentés dans une série de vidéos qu'ils ont rassemblées et intitulée I AM AI, qui donnent un aperçu convaincant de ce qui est (et de ce qui sera) à notre disposition pour améliorer notre expérience du monde – et les uns des autres. Et récemment, j'ai eu l'occasion d'avoir une conversation LinkedIn Live avec Bryan Catanzaro, vice-président, Applied Deep Learning Research chez NVIDIA, pour entendre en savoir plus sur leur travail avec l'IA pour réinventer la façon dont nous expérimentons les images et les sons.

Vous trouverez ci-dessous une transcription éditée d'une partie de notre conversation. Cliquez sur le lecteur SoundCloud intégré pour entendre la conversation complète.

Assurez-vous de regarder les clips intégrés car ils aident à cadrer notre conversation.

Brent Leary: Cette voix dans cette vidéo m'a semblé être un véritable être humain. Vous avez l'habitude d'entendre comme Alexa et Siri, et avant cela, c'était comme, vous savez, nous ne voulons même pas parler des voix avant cela, mais celle-ci sonnait vraiment comme un être humain avec, avec un humain inflexion et une certaine profondeur. Est-ce la chose que nous examinons lorsque vous parlez de réinventer les graphiques et de réinventer la technologie vocale et d'utiliser une technologie plus récente, y compris l'IA et l'apprentissage en profondeur pour non seulement changer l'apparence des graphiques, mais aussi changer la sensation et le son d'une machine pour le faire ressemble plus à l'un d'entre nous.

Bryan Catanzaro: Je devrais m'assurer que vous compreniez que bien que cette voix ait été synthétisée, elle était aussi étroitement dirigée. Donc je ne dirais pas que c'était un bouton poussoir, un système de synthèse vocale. Comme vous pourriez l'utiliser lorsque vous parlez avec un assistant virtuel. Au lieu de cela, c'était une voix contrôlable que nos algorithmes permettent aux producteurs de la vidéo de créer. Et l'une des façons dont ils le font est de modéliser l'inflexion, le rythme et l'énergie qu'ils veulent qu'une partie particulière de la vidéo de la narration ait. Et donc, je dirais que ce n'est pas seulement une histoire sur l'amélioration de l'IA, mais c'est aussi une histoire sur la façon dont les humains travaillent plus étroitement avec l'IA pour construire des choses, et ont la capacité de faire des voix synthétiques qui sont contrôlables de cette manière.

Je pense que cela ouvre de nouvelles opportunités pour la synthèse vocale dans le divertissement et les arts, je pense. Je pense que c'est excitant, mais c'est quelque chose que vous et votre public devez comprendre était en fait très étroitement dirigé par une personne. Maintenant, bien sûr, nous travaillons dur sur des algorithmes capables de prédire toute cette humanité là-bas, le rythme, l'inflexion, la hauteur. Et je pense que nous allons voir des progrès assez étonnants dans ce domaine au cours des prochaines années, où nous pouvons avoir un système de synthèse vocale entièrement à bouton-poussoir qui a la bonne flexion pour aller avec le sens du texte, parce que quand vous parlez beaucoup du sens est véhiculé par l'inflexion de votre voix, pas seulement le sens des mots que vous choisissez.

Et, si nous avons des modèles capables de comprendre le sens des textes, comme certains de ces modèles de langage étonnants auxquels je faisais référence plus tôt, nous devrions pouvoir les utiliser pour diriger la synthèse vocale d'une manière qui a un sens. Et c'est quelque chose qui me passionne beaucoup. c'est intéressant.

Je pense que nous avons une sorte de préjugé culturel, peut-être que c'est spécifique aux États-Unis. Je ne suis pas sûr, mais nous avons ce préjugé culturel selon lequel les ordinateurs ne peuvent pas parler d'une manière humaine. Et peut-être que cela vient un peu de Star Trek: The Next Generation où les données étaient comme une incroyable machine informatique, et il pouvait résoudre n'importe quel problème et inventer de nouvelles théories de la physique, mais il ne pourrait jamais parler de la même manière qu'un humain pourrait le faire, ou peut-être que ça remonte à, vous savez.

Brent Leary: Spock, peut-être.

Bryan Catanzaro: C'était rebutant comme la sienne, sa voix, comme était effrayante, vous savez. Et donc nous avons 50 ans, plusieurs générations de culture nous disant qu'un ordinateur ne peut pas parler à la manière d'un humain. Et je pense en fait que ce n'est pas le cas. Je pense que nous pouvons faire parler un ordinateur d'une manière plus humaine, et nous le ferons. Et je pense aussi que les avantages de cette technologie vont être assez importants pour nous tous.

Brent Leary: L'autre chose qui Amelia Earhart se démarquait en cela, dans ce clip, avec sa photo semblant prendre vie. Pouvez-vous en parler, je suppose que cela fait partie de la réinvention des graphismes à l'aide de l'IA.

Bryan Catanzaro: Ouais, c'est vrai . NVIDIA Research a été très impliqué dans de nombreuses technologies pour synthétiser des vidéos et synthétiser des images à l'aide de l'intelligence artificielle. Et c'est un exemple, vous en avez vu un où le réseau de neurones colorait une image, nous donnant en quelque sorte de nouvelles façons de regarder le passé. Et quand vous y pensez, vous savez, ce qu'implique la coloration d'une image. L'IA doit comprendre le contenu de l'image afin de lui attribuer des couleurs possibles, comme, par exemple, l'herbe est généralement verte, mais si vous ne savez pas où se trouve l'herbe, vous ne devriez rien colorer en vert et les approches traditionnelles de colorisation des images étaient, je dirais, un peu réticentes au risque. Mais au fur et à mesure que l'IA comprend mieux le contenu d'une image et quels sont les objets qui s'y trouvent et comment les objets sont liés les uns aux autres, elle peut alors faire beaucoup mieux pour attribuer des couleurs possibles à l'image, ce qui lui donne vie.

C'est un exemple, ce problème de colorisation d'image. Mais je pense que dans cette vidéo, nous avons vu plusieurs autres exemples où nous avons pu prendre des images puis les animer de différentes manières.

Synthèse visuelle conditionnelle

L'une des technologies qui nous intéresse le plus est la synthèse vidéo conditionnelle, où vous pouvez créer une vidéo basée sur une sorte de croquis et, vous savez, car, pour quelque chose comme ça, ce que vous feriez, c'est vous opposer à la reconnaissance qui analyse la structure des objets. Par exemple, un visage, et voici les yeux et voici le nez, puis attribue des types de positions à l'objet et à sa taille.

Et cela ressemble à un dessin animé, un enfant pourrait dessiner avec un bonhomme allumette. Et puis ce que vous faites, c'est d'envoyer cela dans une autre routine qui anime ce bonhomme allumette et fait bouger la tête ou sourire ou, ou parler avec des textes que nous voulons animer une personne parle d'un certain texte pendant que nous pouvons faire un modèle qui prédit comment leur modèle de figure de bâton va évoluer en tant que personne qui parle. Et puis une fois que nous avons ce genre de dessin animé de bonhomme allumette, qui montre comment la personne doit se déplacer, alors nous le mettons à travers un réseau de neurones qui synthétise une vidéo à partir de cela et, et va en quelque sorte de l'image initiale qui a comme le, l'apparence de la personne et de la, et l'arrière-plan et ainsi de suite, puis l'anime via ce genre d'animation de bonhomme allumette pour faire la vidéo.

Et nous appelons cela la génération vidéo conditionnelle, car il existe de nombreuses vidéos différentes que vous pouvez produire à partir du même bonhomme allumette. Et donc ce que nous voulons faire, c'est en choisir une qui semble plausible en fonction d'une sorte d'autre information, comme peut-être le texte que la personne parle, ou peut-être une sorte d'animation que nous voulons créer. Et la génération vidéo conditionnelle est une idée très puissante et c'est quelque chose qui, je pense, évoluera avec le temps vers une nouvelle façon de générer des graphiques, une nouvelle façon de rendre et de créer des graphiques.

Brent Leary: Il y a même un morceau de cette vidéo où la personne a dit en gros, dessinez ceci et cela a commencé à être dessiné.

Bryan Catanzaro: D'accord. La puissance de l'apprentissage en profondeur est qu'il s'agit d'un moyen très flexible de mapper d'un espace à un autre. Et donc dans cette vidéo, nous voyons beaucoup d'exemples de cela. Et c'est un autre exemple, mais du point de vue de la technologie de l'IA, ils sont tous similaires, car ce que nous faisons, c'est d'essayer d'apprendre un mappage qui va de X à Y. Et dans ce cas, nous essayons pour apprendre une cartographie qui va d'une description textuelle de la scène à un bonhomme allumette un dessin animé de cette scène qui. Disons que j'ai dit un lac entouré d'arbres dans les montagnes. Je veux que le modèle comprenne que les montagnes passent en arrière-plan et qu'elles ont une certaine forme.

Et puis, les arbres vont au premier plan et puis juste au milieu, généralement il va y avoir un grand lac. Il est possible de former un modèle basé sur disons un millier ou un million d'images de paysages naturels et vous avez des annotations qui montrent, quel est le contenu de ces images ? Ensuite, vous pouvez entraîner le modèle à aller dans l'autre sens et dire, étant donné le texte, pouvez-vous créer une sorte de dessin animé en bâtons représentant à quoi devrait ressembler la scène? Où vont les montagnes ? Où vont les arbres ? Où va l'eau? Et puis une fois que vous avez ce bonhomme allumette, vous pouvez l'envoyer dans un modèle qui l'élabore en une image. Et, et c'est ce que vous avez vu dans cette vidéo.

Avatars numériques et appels zoom

Brent Leary: Ce qui était cool à ce sujet, à la fin, il a dit que l'image de lui avait été générée à partir d'une photo de lui; et c'était sa voix. Vous pouviez, sur l'écran, vous pouviez voir le mouvement de la bouche. La qualité audio est excellente, et il est assis dans un café, il pourrait y avoir beaucoup de sons dans le café, mais nous n'avons rien entendu de ce son.

Bryan Catanzaro: Ouais, eh bien, nous étions vraiment fiers de cette démo. Je devrais, je devrais également noter que cette démo a remporté le prix du meilleur spectacle à la conférence SIGGRAPH cette année, qui est la plus grande conférence graphique au monde. Ce modèle était un modèle de synthèse vidéo généralisé. Nous parlions plus tôt de la façon dont vous pouvez prendre une sorte de représentation en forme de bâton d'une personne puis l'animer. Eh bien, l'une des limitations des modèles dans le passé était que vous deviez former un modèle entièrement nouveau pour chaque situation. Alors disons que si je suis à la maison, j'ai un modèle. Si je suis dans un café avec un fond différent, j'ai besoin d'un autre modèle. Ou si vous voulez le faire vous-même, vous auriez besoin d'un modèle pour vous-même à cet endroit, d'un autre modèle pour vous-même, d'un autre endroit, chaque fois que vous créez un de ces modèles, vous devez capturer un ensemble de données à cet endroit avec peut-être cela ensemble de vêtements ou ces lunettes ou quoi que ce soit, puis passer une semaine sur un superordinateur à entraîner un modèle, et c'est vraiment cher, non? Donc, la plupart d'entre nous ne pourraient jamais faire cela. Cela limiterait vraiment la façon dont cette technologie pourrait être utilisée.

Je pense que l'innovation technique derrière cette animation particulière était qu'ils ont proposé un modèle généralisé qui pourrait fonctionner avec pratiquement n'importe qui. Vous n'avez qu'à fournir une photo de vous-même, ce qui est assez bon marché. N'importe qui peut faire ça, non ? Et si vous allez dans un nouvel endroit ou si vous portez des vêtements ou des lunettes différents, ou autre, ce jour-là, vous pouvez simplement prendre une photo. Et puis le modèle, parce que c'est général, est capable de resynthétiser votre apparence en utilisant simplement cette photo comme référence.

Je pense que c'est assez excitant. Plus tard dans cette vidéo, ils sont également passés à un modèle de synthèse vocale. Donc, ce que nous avons entendu dans ce clip était en fait le personnage principal parlant avec sa propre voix, mais plus tard, les choses dans le café deviennent si bruyantes qu'il finit par passer au texte. Et donc il tape juste et le son est produit par l'un de nos modèles de synthèse vocale.

Je pense que donner aux gens la possibilité de communiquer de nouvelles façons ne fait que les rapprocher les uns des autres.

Brent Leary: IA conversationnelle, comment est-ce que ça va changer notre façon de communiquer et de collaborer dans les années à venir ?

Bryan Catanzaro: La principale façon dont les humains communiquer se fait par la conversation, tout comme vous et moi avons en ce moment, mais il est très difficile pour les humains d'avoir une conversation significative avec l'ordinateur, pour un certain nombre de raisons. La première est que cela ne semble pas naturel, n'est-ce pas? Comme si vous aviez l'impression de parler à un robot, c'est une barrière qui empêche la communication. Cela ne ressemble pas à une personne, cela ne réagit pas comme une personne et, évidemment, les ordinateurs de nos jours, vous savez, la plupart des systèmes avec lesquels vous et moi avons interagi, ne comprennent pas ce que les humains peuvent comprendre. Et donc, l'IA conversationnelle est à certains égards le défi ultime de l'IA. En fait, vous connaissez peut-être le test de Turing, Alan Turing, qui est considéré par beaucoup comme le père de l'intelligence artificielle – il a défini l'IA conversationnelle comme objectif final de l'intelligence artificielle.

Parce que si vous avez une machine capable de converser intelligemment avec un humain, vous avez essentiellement résolu tout type de question d'intelligence que vous pouvez imaginer , parce que toute information que les humains ont, toute sagesse, toute idée que les humains ont créée au cours des derniers milliers d'années a toutes, elles ont toutes été exprimées à travers le langage. Et cela signifie que le langage est un moyen assez général. C'est évidemment le seul moyen pour les humains de communiquer des idées compliquées. Et si nous sommes capables de créer des ordinateurs capables de comprendre et de communiquer intelligemment, et avec une faible friction, donc on a l'impression d'interagir avec la personne, alors je pense que nous pourrons résoudre beaucoup de problèmes. .

Je pense que l'IA conversationnelle va continuer à être au centre des recherches de l'ensemble de l'industrie pendant longtemps. Je pense que c'est un sujet aussi profond que toute compréhension et connaissance humaine. Si vous et moi avions un podcast sur, disons, la littérature russe, il y aurait beaucoup d'idées spécialisées dont quelqu'un avec un doctorat en littérature russe pourrait mieux parler que moi, par exemple, n'est-ce pas? Ainsi, même parmi les humains, nos capacités dans divers sujets vont différer. Et c'est pourquoi je pense que l'IA conversationnelle sera un défi qui continuera de nous engager dans un avenir prévisible, car c'est vraiment un défi de comprendre tout ce que les humains comprennent. Et nous ne sommes pas près de le faire.

Ceci fait partie de la série d'entretiens individuels avec des leaders d'opinion. La transcription a été modifiée pour publication. S'il s'agit d'une interview audio ou vidéo, cliquez sur le lecteur intégré ci-dessus, ou abonnez-vous via iTunes ou via Stitcher.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.