Depuis l'ouverture du pavillon chinois à l'Exposition universelle d'Osaka 2025 en avril, il a attiré de nombreux touristes pour leur présence journalière. En entrant dans le pavillon chinois, on entend de loin un "俺老孙来也". Ce son provient de l'"AI Sun Wukong" développé par iFlytek Co., Ltd. (ci-après dénommée "iFlytek"), qui maîtrise les trois langues chinoise, japonaise et anglaise, et dont l'apparence et la tonalité reproduisent celles de Sun Wukong dans le classique film d'animation "Le Roi des singes".
"L'AI Sun Wukong" est soutenu par le développement rapide de la technologie des êtres numériques ces dernières années. En tant que point de connexion clé des nouvelles industries émergentes telles que l'IA et le métavers, le rôle des êtres numériques dans le développement de l'économie numérique devient de plus en plus important. Avec l'application approfondie de la technologie des grands modèles dans ce domaine, les êtres numériques passent progressivement de "utilisables" à "pratiques", propulsant les industries concernées vers une nouvelle phase de développement.
former trois grandes catégories de scénarios d'application
Un humain numérique fait référence à un agent numérique intelligent créé par diverses technologies numériques comme la modélisation. Il possède une apparence humaine, un langage vocal, est capable de simuler des mouvements corporels, possède des capacités de réflexion, et peut réaliser des fonctions telles que l'apprentissage, la génération et l'interaction avec le soutien de grands modèles.
Sous la double impulsion de la technologie et de la demande, l'écosystème de l'industrie des personnes numériques en Chine s'améliore de plus en plus, l'échelle d'application continue de s'élargir et les capacités de production, d'exploitation et de service en amont et en aval de la chaîne industrielle s'améliorent progressivement. Selon les données de Tianyancha, à la fin de 2024, le nombre d'entreprises liées aux personnes numériques en Chine a atteint 1,144 million, avec plus de 174 000 nouvelles entreprises enregistrées au cours des cinq premiers mois de 2024, montrant le potentiel et la vitalité du marché de l'industrie des personnes numériques.
Selon Wu Suoning, membre du comité consultatif des experts de l'Association chinoise de l'internet, pour éviter que la technologie des personnes numériques ne soit qu'une façade et ne cause un gaspillage de ressources, il est impératif de trouver des débouchés d'application et de promouvoir l'implémentation des applications numériques de manière ciblée.
Avec l'application comme moteur, l'industrie des humains numériques s'accélère pour construire un écosystème fermé "technologie - scène - commerce".
L'"Étude sur le développement des humains numériques en Chine (2024)" publiée par l'Association Internet de Chine (ci-après dénommée "Rapport") analyse que les scénarios d'application des humains numériques se sont actuellement préliminairement formés en trois grandes catégories : humains numériques médiatiques, humains numériques de service et humains numériques sectoriels. Parmi eux, les humains numériques médiatiques représentent actuellement la forme d'application des humains numériques la plus mature. La proportion de scénarios générés autour des humains numériques médiatiques peut atteindre 50 %, et leur image réaliste ainsi que leur expression linguistique fluide améliorent considérablement l'interactivité et l'intérêt de la transmission d'informations.
Par exemple, lors du premier "Spectacle technologique du Nouvel An" lancé l'année dernière par la China Central Radio and Television, intitulé "Grande cérémonie d'innovation technologique en Chine", on a vu le présentateur Zhang Tengyue co-animer avec un "double AI". Ce "présentateur AI", créé sur la plateforme iFlytek Zhizuo, non seulement possède une voix, des expressions et des gestes identiques à ceux d'un présentateur réel, mais il peut également interagir avec le présentateur de manière détendue, comprendre avec précision les propos de l'autre et répondre rapidement de manière appropriée, rendant l'interaction si fluide que le public a du mal à faire la différence entre le vrai et le faux.
Le rapport indique qu'en plus des personnes numériques médiatiques, les personnes numériques de service ont également bénéficié d'une mise à niveau complète, avec des capacités d'interaction renforcées, représentant 30 % du nombre total de scénarios, largement appliquées dans des domaines tels que la gouvernance, le commerce électronique et la finance ; les personnes numériques sectorielles commencent à émerger, représentant 20 % du nombre total de scénarios, jouant progressivement un rôle dans les domaines de la santé, de l'éducation et de la gestion d'entreprise.
S'attendre à devenir une porte d'entrée pour l'innovation en IA
Les personnages numériques ont globalement traversé trois étapes : d'abord pilotés par des humains, puis par des programmes, et maintenant par l'IA.
Les premiers avatars numériques animés par des humains, bien qu'ils puissent présenter des images numériques virtuelles, s'appuyaient principalement sur des techniques de modélisation en infographie et de capture de mouvement, nécessitant toujours une grande quantité de données linguistiques et de mouvements fournies par de vraies personnes. Les avatars numériques pilotés par des programmes n'ont plus besoin de données linguistiques et de mouvements fournies par des humains, mais étant basés sur un programme informatique fixe, ils se rapprochent davantage des "robots numériques" et ne peuvent pas atteindre un effet d'humanisation d'un haut niveau de réalisme. Ces dernières années, les avatars numériques pilotés par l'IA sont non seulement devenus de plus en plus réalistes dans la présentation de détails tels que la narration vocale et les expressions corporelles, mais ont également progressivement acquis des capacités d'interaction et de pensée beaucoup plus puissantes.
« Il y a quelques années, les humains numériques pouvaient avoir des problèmes tels que la forme des lèvres, les expressions dépareillées et les mouvements raides. En effet, l’humain numérique lui-même n’a pas une bonne compréhension de la sémantique du texte, et la plupart des expressions et des actions reposent sur des ressources prédéfinies limitées, qui ne peuvent pas être adaptées avec précision au contenu du texte. Gao Jingwen, responsable de l’activité humaine numérique d’iFLYTEK, a déclaré qu’avec l’application approfondie de la technologie des grands modèles dans le domaine de l’homme numérique, la performance des produits humains numériques a atteint un nouveau niveau.
Par exemple, en octobre de l’année dernière, iFLYTEK a sorti un humain numérique super-anthropomorphe. Il est basé sur la génération de diffusion multimode de grands modèles, qui peuvent générer des mouvements corporels en temps réel en fonction du rythme, de l’intonation et du contenu de la parole, brisant les limites des modèles d’action prédéfinis et améliorant considérablement l’expressivité des humains numériques dans les scènes dynamiques. L’humain numérique Zhiying de Tencent peut réaliser le « clonage d’image » et le « clonage de son », les utilisateurs n’ont qu’à télécharger un petit nombre de photos, de vidéos et de matériel audio, et ils peuvent rapidement générer leurs propres clones humains numériques et personnaliser leur timbre. L’humain numérique d’IA open source d’Alibaba, EchoMimic, peut donner un discours et une expression vifs à des images statiques.
« En bref, la technologie des grands modèles permet non seulement aux personnes numériques de comprendre réellement le sens, mais aussi de générer rapidement des actions et des expressions appropriées en fonction de leur compréhension du texte, réalisant ainsi une imitation parfaite. » a déclaré Gao Jingwen.
Shang Bing, président de l’Internet Society of China, estime que les humains numériques sont en train de devenir l’entrée dans l’application active de l’IA et qu’ils ont un fort degré de liens, d’intégration et d’intégration avec des industries telles que le big data, les terminaux intelligents et l’intelligence incarnée, et qu’ils pourraient devenir l’une des interfaces interactives actives de la prochaine génération d’Internet. Il est nécessaire de prêter attention à la mise en œuvre d’applications innovantes, d’explorer activement les formats émergents tels que les humains numériques et d’accélérer la formation d’avantages d’applications à grande échelle.
Wusuo Ning estime également que les personnes numériques sont un point de rupture pour les applications d'IA et une porte d'entrée à l'innovation en IA. Les personnes numériques propulsées par l'IA devraient apporter des applications plus riches et variées dans tous les secteurs, et ces applications peuvent justement orienter l'IA vers une voie de développement pragmatique.
Créer un « jumeau numérique » personnalisé
Avec l'utilisation généralisée des êtres numériques, de nombreux scénarios imposent des exigences plus élevées aux êtres numériques.
« Par exemple, des scénarios tels que la diffusion en direct du commerce électronique et les questions-réponses du service client mettent en avant des exigences extrêmement élevées pour la capacité d’interaction en temps réel des humains numériques. Les humains numériques doivent non seulement être capables d’avoir des conversations en temps réel avec les utilisateurs, mais aussi de générer des actions et des expressions correspondantes en fonction du contenu du dialogue, sinon cela affectera l’efficacité du traitement commercial et affectera directement l’expérience utilisateur. Gao Jingwen a expliqué qu’afin d’améliorer l’efficacité du modèle de génération de vidéos humaines numériques, l’équipe de la société a développé une technologie d’extraction de représentation d’action, qui convertit la parole et l’entrée de texte en représentations intermédiaires compactes, compressant ainsi efficacement la dimension vidéo. Avec l’aide de cette technologie, le système peut rapidement extraire des informations clés du texte et de la voix saisis comme un sténographe, réduire la quantité de données d’information non pertinentes et générer des vidéos en conséquence, améliorant considérablement l’efficacité de la génération de vidéos et assurant l’interaction en temps réel entre les humains numériques et les utilisateurs.
Il convient également de noter que bien que l’industrie humaine numérique se développe rapidement, elle est encore dans une période de croissance rapide. Gao Jingwen estime qu’à l’heure actuelle, il existe un phénomène d’homogénéisation des produits humains numériques, et que la personnalisation et la personnalisation deviendront une direction de développement importante de l’industrie humaine numérique à l’avenir. Avec le développement de la technologie de l’IA générative, le seuil de production et le coût des humains numériques ont été rapidement réduits, l’efficacité de la production et la diversité du contenu ont été considérablement améliorées, et il est devenu une réalité pour les utilisateurs de créer des produits humains numériques plus personnalisés en fonction de leurs propres caractéristiques. Désormais, un humain numérique super-anthropomorphe personnalisé peut être généré avec une simple photo, un enregistrement d’une phrase et d’autres matériaux, ce qui simplifie considérablement les exigences de matériaux prédéfinis pour la personnalisation humaine numérique et optimise le chemin d’opération de l’utilisateur.
郜静文 a également admis que, bien que la technologie des grands modèles pousse les humains numériques à "entrer dans la vie quotidienne des gens", pour obtenir des effets plus raffinés, il est encore nécessaire de procéder à un grand nombre de nourrissages de données et d'entraînements interactifs. De plus, les problèmes de fuite de données et de sécurité des données qui en découlent ne doivent pas être négligés.
"Il est possible qu'à l'avenir, chacun d'entre nous ait un 'double numérique', qui peut nous aider à gérer notre travail, répondre à nos doutes dans la vie, et devenir notre compagnon." a déclaré Gao Jingwen.
(source : Journal de la technologie)
Source : Dongfang Caifu Wang
Auteur : Journal de la science et de la technologie
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
L'IA propulse les humains numériques à "voler dans les foyers ordinaires".
Depuis l'ouverture du pavillon chinois à l'Exposition universelle d'Osaka 2025 en avril, il a attiré de nombreux touristes pour leur présence journalière. En entrant dans le pavillon chinois, on entend de loin un "俺老孙来也". Ce son provient de l'"AI Sun Wukong" développé par iFlytek Co., Ltd. (ci-après dénommée "iFlytek"), qui maîtrise les trois langues chinoise, japonaise et anglaise, et dont l'apparence et la tonalité reproduisent celles de Sun Wukong dans le classique film d'animation "Le Roi des singes".
"L'AI Sun Wukong" est soutenu par le développement rapide de la technologie des êtres numériques ces dernières années. En tant que point de connexion clé des nouvelles industries émergentes telles que l'IA et le métavers, le rôle des êtres numériques dans le développement de l'économie numérique devient de plus en plus important. Avec l'application approfondie de la technologie des grands modèles dans ce domaine, les êtres numériques passent progressivement de "utilisables" à "pratiques", propulsant les industries concernées vers une nouvelle phase de développement.
former trois grandes catégories de scénarios d'application
Un humain numérique fait référence à un agent numérique intelligent créé par diverses technologies numériques comme la modélisation. Il possède une apparence humaine, un langage vocal, est capable de simuler des mouvements corporels, possède des capacités de réflexion, et peut réaliser des fonctions telles que l'apprentissage, la génération et l'interaction avec le soutien de grands modèles.
Sous la double impulsion de la technologie et de la demande, l'écosystème de l'industrie des personnes numériques en Chine s'améliore de plus en plus, l'échelle d'application continue de s'élargir et les capacités de production, d'exploitation et de service en amont et en aval de la chaîne industrielle s'améliorent progressivement. Selon les données de Tianyancha, à la fin de 2024, le nombre d'entreprises liées aux personnes numériques en Chine a atteint 1,144 million, avec plus de 174 000 nouvelles entreprises enregistrées au cours des cinq premiers mois de 2024, montrant le potentiel et la vitalité du marché de l'industrie des personnes numériques.
Selon Wu Suoning, membre du comité consultatif des experts de l'Association chinoise de l'internet, pour éviter que la technologie des personnes numériques ne soit qu'une façade et ne cause un gaspillage de ressources, il est impératif de trouver des débouchés d'application et de promouvoir l'implémentation des applications numériques de manière ciblée.
Avec l'application comme moteur, l'industrie des humains numériques s'accélère pour construire un écosystème fermé "technologie - scène - commerce".
L'"Étude sur le développement des humains numériques en Chine (2024)" publiée par l'Association Internet de Chine (ci-après dénommée "Rapport") analyse que les scénarios d'application des humains numériques se sont actuellement préliminairement formés en trois grandes catégories : humains numériques médiatiques, humains numériques de service et humains numériques sectoriels. Parmi eux, les humains numériques médiatiques représentent actuellement la forme d'application des humains numériques la plus mature. La proportion de scénarios générés autour des humains numériques médiatiques peut atteindre 50 %, et leur image réaliste ainsi que leur expression linguistique fluide améliorent considérablement l'interactivité et l'intérêt de la transmission d'informations.
Par exemple, lors du premier "Spectacle technologique du Nouvel An" lancé l'année dernière par la China Central Radio and Television, intitulé "Grande cérémonie d'innovation technologique en Chine", on a vu le présentateur Zhang Tengyue co-animer avec un "double AI". Ce "présentateur AI", créé sur la plateforme iFlytek Zhizuo, non seulement possède une voix, des expressions et des gestes identiques à ceux d'un présentateur réel, mais il peut également interagir avec le présentateur de manière détendue, comprendre avec précision les propos de l'autre et répondre rapidement de manière appropriée, rendant l'interaction si fluide que le public a du mal à faire la différence entre le vrai et le faux.
Le rapport indique qu'en plus des personnes numériques médiatiques, les personnes numériques de service ont également bénéficié d'une mise à niveau complète, avec des capacités d'interaction renforcées, représentant 30 % du nombre total de scénarios, largement appliquées dans des domaines tels que la gouvernance, le commerce électronique et la finance ; les personnes numériques sectorielles commencent à émerger, représentant 20 % du nombre total de scénarios, jouant progressivement un rôle dans les domaines de la santé, de l'éducation et de la gestion d'entreprise.
S'attendre à devenir une porte d'entrée pour l'innovation en IA
Les personnages numériques ont globalement traversé trois étapes : d'abord pilotés par des humains, puis par des programmes, et maintenant par l'IA.
Les premiers avatars numériques animés par des humains, bien qu'ils puissent présenter des images numériques virtuelles, s'appuyaient principalement sur des techniques de modélisation en infographie et de capture de mouvement, nécessitant toujours une grande quantité de données linguistiques et de mouvements fournies par de vraies personnes. Les avatars numériques pilotés par des programmes n'ont plus besoin de données linguistiques et de mouvements fournies par des humains, mais étant basés sur un programme informatique fixe, ils se rapprochent davantage des "robots numériques" et ne peuvent pas atteindre un effet d'humanisation d'un haut niveau de réalisme. Ces dernières années, les avatars numériques pilotés par l'IA sont non seulement devenus de plus en plus réalistes dans la présentation de détails tels que la narration vocale et les expressions corporelles, mais ont également progressivement acquis des capacités d'interaction et de pensée beaucoup plus puissantes.
« Il y a quelques années, les humains numériques pouvaient avoir des problèmes tels que la forme des lèvres, les expressions dépareillées et les mouvements raides. En effet, l’humain numérique lui-même n’a pas une bonne compréhension de la sémantique du texte, et la plupart des expressions et des actions reposent sur des ressources prédéfinies limitées, qui ne peuvent pas être adaptées avec précision au contenu du texte. Gao Jingwen, responsable de l’activité humaine numérique d’iFLYTEK, a déclaré qu’avec l’application approfondie de la technologie des grands modèles dans le domaine de l’homme numérique, la performance des produits humains numériques a atteint un nouveau niveau.
Par exemple, en octobre de l’année dernière, iFLYTEK a sorti un humain numérique super-anthropomorphe. Il est basé sur la génération de diffusion multimode de grands modèles, qui peuvent générer des mouvements corporels en temps réel en fonction du rythme, de l’intonation et du contenu de la parole, brisant les limites des modèles d’action prédéfinis et améliorant considérablement l’expressivité des humains numériques dans les scènes dynamiques. L’humain numérique Zhiying de Tencent peut réaliser le « clonage d’image » et le « clonage de son », les utilisateurs n’ont qu’à télécharger un petit nombre de photos, de vidéos et de matériel audio, et ils peuvent rapidement générer leurs propres clones humains numériques et personnaliser leur timbre. L’humain numérique d’IA open source d’Alibaba, EchoMimic, peut donner un discours et une expression vifs à des images statiques.
« En bref, la technologie des grands modèles permet non seulement aux personnes numériques de comprendre réellement le sens, mais aussi de générer rapidement des actions et des expressions appropriées en fonction de leur compréhension du texte, réalisant ainsi une imitation parfaite. » a déclaré Gao Jingwen.
Shang Bing, président de l’Internet Society of China, estime que les humains numériques sont en train de devenir l’entrée dans l’application active de l’IA et qu’ils ont un fort degré de liens, d’intégration et d’intégration avec des industries telles que le big data, les terminaux intelligents et l’intelligence incarnée, et qu’ils pourraient devenir l’une des interfaces interactives actives de la prochaine génération d’Internet. Il est nécessaire de prêter attention à la mise en œuvre d’applications innovantes, d’explorer activement les formats émergents tels que les humains numériques et d’accélérer la formation d’avantages d’applications à grande échelle.
Wusuo Ning estime également que les personnes numériques sont un point de rupture pour les applications d'IA et une porte d'entrée à l'innovation en IA. Les personnes numériques propulsées par l'IA devraient apporter des applications plus riches et variées dans tous les secteurs, et ces applications peuvent justement orienter l'IA vers une voie de développement pragmatique.
Créer un « jumeau numérique » personnalisé
Avec l'utilisation généralisée des êtres numériques, de nombreux scénarios imposent des exigences plus élevées aux êtres numériques.
« Par exemple, des scénarios tels que la diffusion en direct du commerce électronique et les questions-réponses du service client mettent en avant des exigences extrêmement élevées pour la capacité d’interaction en temps réel des humains numériques. Les humains numériques doivent non seulement être capables d’avoir des conversations en temps réel avec les utilisateurs, mais aussi de générer des actions et des expressions correspondantes en fonction du contenu du dialogue, sinon cela affectera l’efficacité du traitement commercial et affectera directement l’expérience utilisateur. Gao Jingwen a expliqué qu’afin d’améliorer l’efficacité du modèle de génération de vidéos humaines numériques, l’équipe de la société a développé une technologie d’extraction de représentation d’action, qui convertit la parole et l’entrée de texte en représentations intermédiaires compactes, compressant ainsi efficacement la dimension vidéo. Avec l’aide de cette technologie, le système peut rapidement extraire des informations clés du texte et de la voix saisis comme un sténographe, réduire la quantité de données d’information non pertinentes et générer des vidéos en conséquence, améliorant considérablement l’efficacité de la génération de vidéos et assurant l’interaction en temps réel entre les humains numériques et les utilisateurs.
Il convient également de noter que bien que l’industrie humaine numérique se développe rapidement, elle est encore dans une période de croissance rapide. Gao Jingwen estime qu’à l’heure actuelle, il existe un phénomène d’homogénéisation des produits humains numériques, et que la personnalisation et la personnalisation deviendront une direction de développement importante de l’industrie humaine numérique à l’avenir. Avec le développement de la technologie de l’IA générative, le seuil de production et le coût des humains numériques ont été rapidement réduits, l’efficacité de la production et la diversité du contenu ont été considérablement améliorées, et il est devenu une réalité pour les utilisateurs de créer des produits humains numériques plus personnalisés en fonction de leurs propres caractéristiques. Désormais, un humain numérique super-anthropomorphe personnalisé peut être généré avec une simple photo, un enregistrement d’une phrase et d’autres matériaux, ce qui simplifie considérablement les exigences de matériaux prédéfinis pour la personnalisation humaine numérique et optimise le chemin d’opération de l’utilisateur.
郜静文 a également admis que, bien que la technologie des grands modèles pousse les humains numériques à "entrer dans la vie quotidienne des gens", pour obtenir des effets plus raffinés, il est encore nécessaire de procéder à un grand nombre de nourrissages de données et d'entraînements interactifs. De plus, les problèmes de fuite de données et de sécurité des données qui en découlent ne doivent pas être négligés.
"Il est possible qu'à l'avenir, chacun d'entre nous ait un 'double numérique', qui peut nous aider à gérer notre travail, répondre à nos doutes dans la vie, et devenir notre compagnon." a déclaré Gao Jingwen.
(source : Journal de la technologie)
Source : Dongfang Caifu Wang
Auteur : Journal de la science et de la technologie