Lorsqu’une démo du logiciel a été publiée fin août, les utilisateurs ont rapidement constaté que certains mots – à la fois des mentions explicites des noms de dirigeants politiques et des mots potentiellement controversés uniquement dans des contextes politiques – étaient qualifiés de “sensibles” et ne pouvaient générer aucun résultat. . Le système chinois sophistiqué de censure en ligne, semble-t-il, s’est étendu à la dernière tendance en matière d’IA.
Il n’est pas rare que des IA similaires empêchent les utilisateurs de générer certains types de contenu. DALL-E 2 interdit contenu sexuel, des visages de personnalités publiques ou des images de traitements médicaux. Mais le cas d’ERNIE-ViLG souligne la question de savoir où se situe exactement la frontière entre la modération et la censure politique.
Le modèle ERNIE-ViLG fait partie de Wenxin, un projet à grande échelle de traitement du langage naturel de la principale société chinoise d’intelligence artificielle, Baidu. Il a été formé sur un ensemble de données de 145 millions de paires image-texte et contient 10 milliards de paramètres – les valeurs qu’un réseau de neurones ajuste au fur et à mesure qu’il apprend, que l’IA utilise pour discerner les différences subtiles entre les concepts et les styles artistiques.
Cela signifie qu’ERNIE-ViLG a un ensemble de données d’apprentissage plus petit que DALL-E 2 (650 millions de paires) et Stable Diffusion (2,3 milliards de paires) mais plus de paramètres que l’un ou l’autre (DALL-E 2 a 3,5 milliards de paramètres et Stable Diffusion a 890 millions ). Baidu a publié une version de démonstration sur sa propre plate-forme fin août, puis plus tard étreignant le visagela populaire communauté internationale d’IA.
La principale différence entre les modèles ERNIE-ViLG et occidentaux est que celui développé par Baidu comprend les invites écrites en chinois et est moins susceptible de faire des erreurs lorsqu’il s’agit de mots spécifiques à la culture.
Par exemple, un vidéaste chinois ont comparé les résultats de différents modèles pour des invites comprenant des personnages historiques chinois, des célébrités de la culture pop et de la nourriture. Il a découvert qu’ERNIE-ViLG produisait des images plus précises que DALL-E 2 ou Stable Diffusion. Après sa sortie, ERNIE-ViLG a également été adopté par ceux qui la communauté des animés japonaisqui a découvert que le modèle pouvait générer un art animé plus satisfaisant que les autres modèles, probablement parce qu’il incluait plus d’anime dans ses données d’entraînement.
Mais ERNIE-ViLG se définira, comme les autres modèles, par ce qu’il permet. Contrairement à DALL-E 2 ou Stable Diffusion, ERNIE-ViLG n’a pas d’explication publiée de sa politique de modération de contenu, et Baidu a refusé de commenter cette histoire.
Lorsque la démo ERNIE-ViLG a été publiée pour la première fois sur Hugging Face, les utilisateurs saisissant certains mots recevaient le message « Mots sensibles trouvés. Veuillez entrer à nouveau (存在敏感词,请重新输入) », ce qui était un aveu étonnamment honnête sur le mécanisme de filtrage. Cependant, depuis au moins le 12 septembre, le message indique « Le contenu saisi ne respecte pas les règles applicables. Veuillez réessayer après l’avoir ajusté. (输入内容不符合相关规则,请调整后再试!) »