Tecnología

¿Están Meta, Google y OpenAI entrenando a la Inteligencia Artificial de manera ilegal?

Una investigación del diario The New York Times concluyó que las empresas más grandes de tecnología pasaron por encima de la información de sus propios clientes: usaron contenido de youtubers, periodistas y artistas para entrenar lenguajes artificiales. Esto se sabe.

La investigación del diario The New York Times salpica a las empresas tecnológicas más grandes del mundo. FOTOS GETTY

Leonardo Bautista Romero

08 de abril de 2024

bookmark

Por Leonardo Bautista

Este fin de semana estalló una bomba en la industria tecnológica mundial gracias a una investigación del diario The New York Times: OpenAI, creadores de ChatGPT, fueron acusados de entrenar su modelo de Inteligencia Artificial (IA) con transcripciones de más de un millón de horas de videos de YouTube, contenido que pertenece a los creadores.

Al tiempo, Meta y Google estarían transgrediendo sus políticas (términos de uso) al utilizar información protegida por derechos de autor, e incluso información privada de sus usuarios, para entrenar sus propios modelos de IA. ¿Cómo entender que las compañías tecnológicas más importantes del mundo pasen por encima de su activo más valioso?

Una primera explicación

Hay que repasar el auge de la IA, sus orígenes y cómo funciona. El 20 de febrero de 1947, ante la Sociedad Matemática de Londres, el inglés Alan Turing pronunció la que, posiblemente, fue la primera conferencia en que se mencionó la posibilidad del desarrollo de inteligencias artificiales.

“Queremos una máquina que pueda aprender de la experiencia”, dijo el padre de la informática, en un momento en que sus palabras no eran más que sueños y especulaciones, décadas antes del desarrollo del primer computador personal (1970).

Sin que el resto del mundo lo entendiera, ese día Turing sentó las bases del largo camino de la Inteligencia Artificial, una rama de la ciencia enfocada en el desarrollo de sistemas informáticos capaces de realizar tareas que normalmente requieren inteligencia humana, es decir, replicar en máquinas los procesos cognitivos que solo una persona podría hacer.

Desde los primeros programas de ajedrez hasta los sistemas complejos basados en reglas, cada avance en este campo ha llevado consigo dilemas éticos, morales e incluso legales frente a los límites que la tecnología no debería cruzar.

Entre estos avances, los Modelos de Lenguaje de Aprendizaje Profundo (LLM, por sus siglas en inglés) han tomado protagonismo en los últimos años, siendo la base de sistemas como ChatGPT, desarrollado por OpenAI, o Gemini, de Google, que miles de personas usan a diario hoy en día como herramientas para la generación de textos, traducción automática, análisis de información, entre otras.

La capacidad para comprender y generar contenido de manera similar a la humana ha catapultado la popularidad de estas plataformas en varias industrias, pero su uso conlleva una polémica que toma cada vez más vuelo en Estados Unidos, donde tienen base empresas como Google (propietaria de YouTube), Meta y OpenAI, que están en el ojo del huracán por el posible uso indebido de contenido protegido por derechos de autor para entrenar sus plataformas.

La controversia actual

El debate cobró mayor relevancia desde el pasado mes de noviembre, cuando el diario The New York Times demandó a OpenAI y Microsoft tras descubrir que millones de sus artículos periodísticos habrían sido utilizados para entrenar chatbots que, paradójicamente, ahora representan una competencia directa para ese medio de comunicación, debido al uso de ChatGPT y plataformas similares en salas de redacción de todo el mundo para la generación de contenido.

La demanda del Times se cimienta en el funcionamiento de los LLM y el concepto de sus “entrenamientos” con datos textuales o tokens. Durante cada entrenamiento, estos modelos reciben enormes cantidades de información proveniente de libros, artículos de noticias y, en general, textos disponibles en internet.

“Este proceso es intensivo y requiere una gran cantidad de recursos computacionales. Además, la calidad y diversidad de los datos de entrenamiento son cruciales para el rendimiento final del modelo. Es por eso que las empresas tecnológicas a menudo buscan obtener acceso a grandes cantidades de datos para alimentar sus modelos de IA”, describe OpenAI en su blog.

Es en ese punto donde las empresas tecnológicas entran en una zona gris desde la perspectiva legal para el uso de datos protegidos por derechos de autor, la privacidad de los usuarios y la potencial generación y réplica de sesgos y prejuicios.

La discusión se avivó este fin de semana, cuando el NY Times publicó una investigación que reveló que en el 2021 OpenAI y Google entrenaron a sus modelos de IA con transcripciones de videos de YouTube, cuyo contenido pertenece a los creadores y youtubers, y está protegido por las propias políticas de Google. Incluso, se dice que el equipo legal de esa empresa (Google) cambió la redacción de sus Términos de Servicio para librarse de posibles responsabilidades legales por esa práctica.

¿De dónde sacar más datos?

Cuando estaban entrenando a su famoso ChatGPT los ingenieros de OpenAI se enfrentaron a un problema de suministro de información con la cual se puliría su plataforma.

En ese momento, el laboratorio de inteligencia artificial agotó las bases de datos a las que tenían acceso, que principalmente se reducían al archivo de códigos informáticos del sitio web GitHub, bases de datos de movimientos de ajedrez, así como exámenes de secundaria y tareas en la página Quizlet.

El modo de entrenamiento con bases de datos a gran escala se basa en una publicación de enero de 2020 de Jared Kaplan, físico teórico de la Universidad Johns Hopkins, quien publicó un artículo que cambió el paradigma de la IA y avivó el apetito por los datos en línea. Su conclusión fue que, cuantos más datos hubiera para entrenar un modelo de lenguaje, mejor funcionaría. Ya no importaba tanto la calidad del contenido, sino la cantidad.

“Todo el mundo quedó muy sorprendido de que estas tendencias, estas leyes de escala, como las llamamos, fueran básicamente tan precisas como lo que se ve en la astronomía o la física”, señala en el texto el Dr. Kaplan.

Desesperados por continuar con los entrenamientos a gran escala, en OpenAI decidieron desarrollar una herramienta de reconocimiento de voz llamada Whisper, que usaron para transcribir más de un millón de horas de videos de YouTube, según revelaron al New York Times empleados de esa empresa.

Según la investigación, en el proceso habría participado personalmente el presidente de OpenAI, Greg Brockman.

Los textos generados por Whisper al parecer fueron empleados para instruir a GPT-4 en un acto que se contrapone a las políticas establecidas por YouTube, tal y como explicó recientemente el CEO de esa plataforma, Neal Mohan.

Días antes de la revelación que hizo el New York Times, el ejecutivo concedió una entrevista a Bloomberg y puso los puntos sobre las íes al señalar que el uso de sus videos para entrenar una IA sería una “clara violación” de sus políticas.

Lo curioso es que Mohan no se refería a Whisper, cuya existencia apenas se conoció el sábado, sino a otra inteligencia artificial que OpenAI lanzará próximamente, denominada Sora, creada para producir vídeos realistas a partir de una descripción textual de los usuarios y que al parecer habría sido entrenada con videos de YouTube.

Más dudas y polémicas

Otra de las revelaciones del The New York Times pone la lupa sobre la propia Google, pues fuentes con conocimientos afirmaron que empleados de Google sabían desde hace meses que OpenAI recopiló videos de YouTube para obtener datos. Sin embargo, la compañía no movió un dedo para protegerse del uso de su plataforma de videos ni para cuidar a sus usuarios, pues ellos también habían utilizado transcripciones de videos de YouTube para entrenar sus modelos de IA (Bard hoy llamado Gemini), violando los derechos de autor de los creadores de su plataforma.

“Si Google hacía un escándalo por OpenAI, habría desatado un efecto búmeran contra sus propios métodos”, cita la investigación del diario norteamericano.

Fue a finales de 2022, luego de que OpenAI lanzara ChatGPT y desencadenara una carrera frenética en esa industria, cuando ingenieros de Google discutieron cómo aprovechar al máximo los datos de sus usuarios, discutieron si debían usar miles de millones de palabras en documentos de Google Docs, Google Sheets y otras aplicaciones gratuitas. Pero las restricciones de privacidad de la compañía limitaron cómo podían usar esos datos.

La solución habría llegado en junio de 2023, cuando el departamento legal de Google —con su equipo de privacidad— redactó un texto que fue incluido en sus Términos de Servicio, para ampliar el uso que la compañía podría dar a los datos de sus usuarios, esto según dos miembros del equipo de privacidad y correos internos. Hasta ese momento, la política de privacidad de Google decía que la compañía podía usar información disponible públicamente para “ayudar a entrenar los modelos lingüísticos de Google y crear funciones como Google Translate”.

El nuevo texto redactado amplía este uso para aprovechar los datos con sus modelos de IA y crear productos y funciones como Bard (ahora Gemini) y capacidades de IA en la nube.

“¿Cuál es el objetivo final?”, dice uno de los emails internos del equipo de privacidad. “¿Hasta qué punto vamos a llegar?”, se preguntaron los propios ingenieros de Google.

Este cambio, sin embargo, pasó desapercibido para la mayoría de usuarios, pues se publicaron el fin de semana del 4 de julio, en pleno feriado del Día de la Independencia en Estados Unidos.

“Este es el robo más grande en los Estados Unidos, punto”, dijo recientemente en una entrevista Justine Bateman, cineasta y autora de dos libros, quien tramitó una queja ante la Oficina de Derechos de Autor de Estados Unidos alegando que los modelos de IA estaban tomando contenido, incluidos sus escritos y películas, sin permiso ni pago.

Meta, una rueda suelta

La cereza del pastel es Meta, anteriormente conocida como Facebook, otra de las compañías tecnológicas que desarrolla modelos de lenguaje grande (LLM) e inteligencia artificial.

La investigación del diario norteamericano reveló que esa empresa ha considerado incluso la posibilidad de adquirir editoriales para obtener acceso a obras protegidas por derechos de autor, mientras que simultáneamente explora estrategias para utilizar información disponible públicamente en línea sin infringir los derechos de los creadores, es decir, sus propios usuarios.

Además, habrían recurrido a Internet para recopilar una gran cantidad de datos que necesitarían para su sistema de Inteligencia Artificial que aún está en desarrollo, sin importarles si esos contenidos están protegidos por la ley.

Para no perder esta carrera, el propio Mark Zuckerberg habría presionado a su equipo a optar por esta práctica y asumir los costes de acciones judiciales en su contra, según se recoge en grabaciones internas a las que tuvo acceso el medio citado.

De momento, Google, OpenAI y Meta no han emitido respuestas oficiales a estas acusaciones, pero desde ya se anticipa lo que será una larga polémica sobre el equilibrio entre la innovación tecnológica y el respeto por los derechos individuales y la propiedad intelectual.

El auge de la inteligencia artificial abrió una caja de pandora en el mundo digital, el debate apenas comienza.

El empleo que buscas

está a un clic

Ver ofertas

Siga las noticias de EL COLOMBIANO desde Google News

Únete a nuestro canal de Whatsapp

Nuestros portales

Las más leídas

Más recientes

Utilidad para la vida

bookmark

El empleo que busca está a un clic

Ver ofertas

Únete a nuestro canal de Whatsapp

El empleo que busca está a un clic

Ver ofertas

Únete a nuestro canal de Whatsapp

El empleo que busca está a un clic

Ver ofertas

Únete a nuestro canal de Whatsapp

Pico y Placa Medellín

viernes

Pico y Placa Medellín

jueves

Pico y Placa Medellín

miercoles

Pico y Placa Medellín

martes

Pico y Placa Medellín

domingo

Pico y Placa Medellín

sabado

Pico y Placa Medellín

Tecnología

¿Están Meta, Google y OpenAI entrenando a la Inteligencia Artificial de manera ilegal?

Nuestros portales

Petro denunció 62.264 armas perdidas y no habló de la empresa que contrató con su Gobierno

DIM se impone 2-0 a Caldas y sigue fuerte en la Liga

¿La era dorada de los gimnasios? Colombia es el cuarto país más fitness de América Latina

“Banano no debe seguir siendo la fruta más barata del mercado”, Asociación de Bananeros de Colombia

Semana Santa: de la devoción al turismo global que mueve millon

Te recomendamos

Petro suspendió operaciones contra disidencias de “Calarcá” pese a recientes atentados

Justicia declara a Google culpable por monopolizar el mercado de la publicidad en internet

Con estos números cayó MiLoto en Semana Santa y dejó un nuevo millonario en Antioquia

Un video y varios objetos: las pistas que siguen las autoridades para encontrar a la joven desaparecida en Cartagena

Utilidad para la vida

¿Te encontraste una mascota abandonada en Medellín? Esto es lo que puedes hacer

El lenguaje corporal de las mascotas revela lo que sienten

Razones por las que el sueño en los perros cachorros es vital para su desarrollo

¡Existen más de 60 tipos de maullidos! ¿Sabes diferenciarlos?

Para seguir leyendo

Semana Santa: de la devoción al turismo global que mueve millon

Petro denunció 62.264 armas perdidas y no habló de la empresa que contrató con su Gobierno

Los matan, lastiman y extorsionan: así crecen las alertas en la población LGBTIQ+ por violencia en Antioquia

Así estaría influyendo el exsenador Julián Bedoya en el pulso en Corpourabá por Puerto Antioquia

Este es el laboratorio paisa que estudia el ADN para predecir el riesgo de cáncer y otras enfermedades

Regístrate al newsletter