Cómo la IA generativa tergiversa el tono latino que las marcas buscan
(Ad Age) - Las historias y las identidades ya son difíciles de captar, pero aún más lo son para las máquinas entrenadas con conjuntos de datos limitados.
Por José Simián
Content strategist en Huge
Cada Cinco de Mayo, mis amigos de los medios y la publicidad y yo compartimos los peores anuncios que podemos encontrar relacionados con esta fecha incomprendida desde hace mucho tiempo. En nuestro salón de la vergüenza figuran: un detergente prometiendo una “fiesta como si no hubiera mañana” en el lavadero, un “Flyo de Mayo” para que tú y tus “amigos” vayan a algún lugar “caliente” y mayonesa para “poner la mayo” en tu festejo.
No me aferro al Cinco de Mayo porque sea un objetivo conveniente (normalmente lo es), sino por una razón más importante. Los fenómenos culturales en la esfera latina son regularmente malinterpretados, cooptados y distorsionados por los marketers y los anunciantes, y esta tendencia es lo más importante para mí por dos razones. Primero, es el Mes de la Herencia Hispana. En segundo lugar, los grandes modelos lingüísticos (LLM) como ChatGPT potenciarán el “efecto Cinco de Mayo” de tergiversar y estereotipar a los latinos en los medios y la publicidad, a menos que los creativos sean lo suficientemente valientes para combatirlo.
Con cada mensaje o consulta, los LLM traicionan los prejuicios lingüísticos y culturales que absorben. Los sesgos reportados en el contenido generado por la IA incluyen la subrepresentación de las minorías, la perpetuación de estereotipos y los intentos fallidos de capturar los matices lingüísticos. Y eso es sólo en resultados escritos.
Un análisis reciente realizado por Bloomberg de más de 5.000 imágenes creadas con Stable Diffusion reveló que el generador de imágenes basado en el lenguaje llevó las disparidades raciales y de género al extremo. Los conjuntos de imágenes para trabajos bien remunerados estaban dominados por rostros con tonos de piel más claros, mientras que las personas con tonos más oscuros dominaban los resultados rápidos para “trabajador de comida rápida” y “trabajador social”.
Para los diseñadores y estrategas de las agencias creativas, el incentivo para superar estas deficiencias está literalmente integrado en la interfaz de usuario del producto. ¿Necesita algo de inspiración? Ingrese algunos términos en el campo de texto. ¿No es exactamente lo que tenía en mente? Siga bombeando indicaciones. La facilidad de la transacción pasa por alto el daño que exacerbamos, consciente o inconscientemente, al permitir que los resultados influyan en nuestro trabajo. No es que los arquitectos de producto vayan al rescate en el corto plazo.
Considere que Sam Altman, director ejecutivo del desarrollador de ChatGPT OpenAI, ha reconocido el sesgo lingüístico de la herramienta. La boleta de calificaciones de OpenAI para GPT-4 admite que fue “en su mayor parte diseñado, construido y probado principalmente en inglés y con un punto de vista centrado en los Estados Unidos', que “la mayoría de [sus] datos previos al entrenamiento y de alineación están en inglés” y que sus modelos no habían sido probados rigurosamente para determinar su rendimiento multilingüe.
“Cualquier buen resultado en español es una ventaja”, escribió un desarrollador de OpenAI en el foro de soporte de la compañía, señalando que los modelos están “entrenados deliberadamente para usar principalmente inglés”. Como referencia, algunos cálculos muestran que más del 58% del contenido de internet está en inglés, mientras que el contenido en español representa un poco más del 4%.
Y si bien la magia basada en algoritmos que realizan los LLM puede parecer misteriosa, es fácil entender qué crea resultados sesgados: sesgos en los conjuntos de datos en los que se entrenan los modelos. En consecuencia, nos enfrentamos al peligro de que muchas historias y perspectivas queden enterradas, independientemente de sus orígenes culturales.
Los latinos aportan una variedad de identidades, voces, dialectos, jergas e idiomas. La herencia que se celebra este mes en los Estados Unidos es, en esencia, esa suma imposible de contextos y contradicciones, que abarca la experiencia vivida por personas provenientes de más de 20 países.
Entonces, como socios creativos preocupados y bien intencionados de nuestros clientes, ¿qué podemos hacer para combatir estos peligros tan reales?
Primero, y es doloroso tener que poner esto por escrito, es una buena idea tener a latinos representados en los equipos creativos y estratégicos que elaboran la comunicación.
Segundo (y esto va bastante bien con lo primero), debemos reconocer que el riesgo de que un mensaje sobre y para los latinos resulte plano —o sea rotundamente incorrecto— ha aumentado sustancialmente en la era de la IA generativa. Adaptar a sus equipos al sesgo en los resultados de la IA generativa no es un paso que sea mejor dejar para el control de calidad final. Tiene que ser parte del inicio del proyecto.
Contraintuitivamente, a pesar de todas las eficiencias que la IA generativa está ayudando a impulsar en las industrias creativas, los creadores de contenido necesitarán trabajar más duro en esta primera era de su adopción masiva para lograr que las historias latinas sean correctas. Como lo demuestra mi salón de la vergüenza del Cinco de Mayo, las historias e identidades latinas ya son difíciles de comprender, y mucho más aún para máquinas entrenadas con conjuntos de datos limitados. Todos necesitaremos aprender a utilizar estas herramientas de la manera correcta mediante el desarrollo de indicaciones culturales y socializándolas en nuestras organizaciones.
El Mes de la Herencia Hispana es una oportunidad para reunir a las personas, generalmente en entornos escolares y de oficina, para aprender sobre las tradiciones e identidades que componen la latinidad. Hagamos de la edición de este año la primera en la que humanos y máquinas se unan no sólo para contar historias latinas más reales, sino también mejores.