Del 3 al 6 de octubre de 2023 tuvo lugar una nueva cumbre global de Creative Commons (CC Summit), la primera presencial desde la pandemia de covid. Ciudad de México fue la sede elegida para la CC Summit 2023, y el tema principal del evento fue “Inteligencia artificial y los comunes”.
Ártica estuvo presente en la Summit, donde nos reencontramos con personas y colectivos del movimiento de la cultura libre, con quienes pudimos intercambiar ideas alrededor de este tema. Se dieron debates interesantes en talleres y mesas de intercambio. Puntualmente, participamos en el evento paralelo AI, Creators and the Commons, organizado por Creative Commons y Open Future, y en el panel Knowledge commons and the paradox of open, también convocado por Open Future.
Nuestras intervenciones estuvieron en línea con las reflexiones que venimos desarrollando sobre inteligencia artificial generativa y derechos culturales (parte 1 y parte 2). Pero participar en estas discusiones nos permitió profundizar en esta serie, para reflexionar sobre la relación entre la inteligencia artificial generativa y la gestión de los comunes del conocimiento y la cultura. En este post reunimos esas reflexiones para contribuir al debate desde la perspectiva de los comunes.
¿Cómo impacta la inteligencia artificial generativa en los comunes del conocimiento?
Antes de analizar el impacto de la IA generativa en los comunes, es preciso realizar dos aclaraciones. En primer lugar, los comunes del conocimiento incluyen materiales sujetos a propiedad intelectual que entraron en dominio público o que tienen licencias libres, así como otros elementos culturales que se encuentran más allá de la propiedad intelectual, como las lenguas y las ideas. En segundo lugar, los modelos generativos no son inteligencias artificiales de propósito general, ni están cerca de serlo. Si bien su característica es precisamente ser “generativos”, hay elementos que los definen y limitan: sus datos de entrenamiento, sus propósitos, las diferentes técnicas que se usaron en su construcción, etc. En lo que sigue, vamos a tratar de analizar algunos de estos elementos en su relación con los comunes.
La IA impacta en la producción de los comunes, como en muchos otros ámbitos, aumentando la productividad del trabajo. Si hablamos de los comunes del conocimiento, por tanto, el impacto está en potenciar el trabajo que se dedica a su producción y mantenimiento.
Sin embargo, hasta el momento los modelos generativos de texto, imágenes y otros tipos de contenidos, arrojan resultados muy irregulares: a veces sorprendentes, a veces decepcionantes. Esto obliga a un escrutinio y un uso crítico de las herramientas disponibles. La responsabilidad sigue estando en las personas y las comunidades que usan herramientas de IA para contribuir a los comunes. Por ejemplo, en la comunidad de Wikipedia las personas que editan son las responsables del contenido, independientemente de que usen herramientas automatizadas para algunas tareas.
De hecho, no hay que exagerar la utilidad de las herramientas generativas. En el estado del arte actual, por ejemplo, es posible generar contenidos de texto medianamente coherentes únicamente en un puñado de lenguas. Si queremos que se puedan generar contenidos en más lenguas, hay que trabajar intencionalmente en esto, con una perspectiva de justicia lingüística a partir de herramientas que permitan la traducción, la transcripción de voz a texto y de texto a voz, el reconocimiento óptico de caracteres, la generación automática de textos, etc. para las diversas comunidades lingüísticas, especialmente las que han sido históricamente marginalizadas. El trabajo de revitalización de lenguas con apoyo de estas tecnologías podría ser un aporte importante a los comunes.
¿Cuál es la importancia de los comunes en el entrenamiento de modelos de aprendizaje automático (machine learning)?
Los comunes son parte importante de los datos de entrenamiento de los modelos, dado que, al no existir barreras de propiedad intelectual, son fácilmente accesibles y su uso no plantea riesgos legales. Pero si se usaran solamente los materiales en dominio público y con licencias libres como datos de entrenamiento, los modelos tendrían graves problemas de representatividad: quedarían sobrerrepresentadas las visiones del pasado por encima de las contemporáneas, y las perspectivas de las comunidades que publican con licencias libres por encima del resto de las perspectivas. Es por esta razón que los modelos se entrenan también con datos que no están en los comunes. Si queremos modelos de generación de texto que, por ejemplo, no produzcan resultados sexistas, no podemos entrenarlos con obras literarias y científicas de hace 100 años únicamente porque entraron en dominio público. Pero por encima de todo, el entrenamiento de modelos es un caso particular del análisis de datos, y creemos que el análisis de datos es un uso justo, con múltiples aplicaciones socialmente relevantes, que debería caer por fuera de las restricciones de copyright.
Un párrafo aparte merecen los usos problemáticos de modelos de aprendizaje automático. Nos referimos, por ejemplo, al uso del reconocimiento facial automatizado con fines de control y represión policial, o el uso de datos personales para entrenar modelos que son usados por el Estado o empresas privadas para tomar decisiones automatizadas sobre el acceso de personas a determinados servicios. Estos diferentes usos problemáticos deben abordarse caso a caso, estableciéndose límites claros a lo que pueden hacer las empresas y gobiernos, así como prohibiendo los usos discriminatorios o que, por otros motivos, afectan derechos humanos. Sin embargo, no debe mezclarse la discusión sobre estos usos problemáticos de la IA con la discusión sobre IA, copyright y los comunes.
¿Cómo interactúan los enfoques tradicionales para proteger los comunes, como el copyleft, con la inteligencia artificial generativa?
El copyleft es un movimiento y una práctica que busca expandir y enriquecer los comunes, haciéndolos más amplios y sostenibles. No es, en cambio, una defensa contra los usos comerciales o contra todos los usos que no nos gustan.
En cuanto al requisito de atribución y de “compartir igual” de las licencias Creative Commons, coincidimos con la opinión de Andrés Guadamuz de que el output de los modelos generativos no es de por sí una obra derivada de las obras usadas como datos de entrenamiento, y por lo tanto, por regla general, no se requiere atribución ni se requiere que tenga la misma licencia. Por supuesto, hay excepciones. Por ejemplo, cuando de forma intencional y explícita el modelo fue entrenado con las obras de determinado artista con el propósito de generar obras derivadas o remixes automatizados, o cuando el prompt consiste en (y logra) crear una adaptación de la obra del artista.
¿Esto quiere decir que los outputs de los modelos entrenados con obras copyleft pueden ser privatizados? En nuestra opinión, no, porque el output está en dominio público. Esta es una cuestión que está bastante saldada luego de la postura de la oficina de copyright de Estados Unidos. Lo más importante es que las empresas de IA generativa no tienen el copyright de los outputs. En cuanto a los usuarios, podrían tener copyright sobre el prompt y sobre cambios significativos posteriores, pero no sobre el mero output de la máquina. Una de las luchas relevantes de los próximos años para quienes defendemos los comunes del conocimiento debería consistir en impedir cualquier tipo de privatización de los outputs.
En este punto, tampoco se puede soslayar la cuestión de los modelos de IA. Debemos luchar contra los modelos privativos y en favor de modelos abiertos que se puedan usar, estudiar, compartir y modificar de manera libre. Estos modelos son un elemento clave para crear verdaderas infraestructuras comunes de IA, las cuales deben incluir también estrategias de sostenibilidad para gestionar servidores, conjuntos de datos, memoria y poder de cómputo de manera comunitaria.
Debemos enfatizar la importancia fundamental de la lucha para que los modelos y el output sean bienes comunes. Es que si los modelos y el output son privativos, las personas que contribuyeron contenidos a los comunes sentirán seguramente que su trabajo solo sirvió para enriquecer a otras empresas y personas que luego los privatizaron. En cambio, si las personas pueden usar, estudiar y adaptar los modelos, y si al mismo tiempo pueden beneficiarse del uso libre de los outputs de estos modelos, seguramente sentirán que existe una justa reciprocidad y seguirán contribuyendo a los comunes sostenidamente. En suma, en la discusión de la IA y los comunes, en lugar de discutir cómo “cercar” los comunes para impedir el entrenamiento o cómo cobrar cánones, tenemos que discutir cómo hacer la IA más democrática para que sea una tecnología al servicio de las grandes mayorías.
Los comunes del conocimiento y la paradoja de lo abierto
Durante las conversaciones y lecturas que tuvimos en la CC Summit, nos hemos encontrado con bastante perplejidad y desconfianza ante la inteligencia artificial generativa dentro del propio movimiento de la cultura libre. En gran medida, esta incomodidad es entendible, y hay no pocas razones para cuestionarnos cómo se insertan los comunes del conocimiento, tal como los entendíamos hasta ahora, en este nuevo panorama de acceso masivo a los modelos de inteligencia artificial generativa.
Para quienes hemos pensado internet con un sentido de comunidad de conocimientos compartidos de todxs para todxs, es mucho más afín a esa idea una red en la que se puede navegar entre links de conocimiento coral creado por muchas personas (digamos, la web tal como la imaginamos y re-imaginamos), que la idea de una máquina que recibe inputs y arroja outputs. En los blogs, redes sociales y plataformas colaborativas aún podemos encontrar a la otra persona con la que co-construimos conocimientos. En cambio, al usar servicios corporativos de IA generativa, solo podemos interactuar frente a una interfaz que, más allá de dar mejores o peores resultados, no nos ofrece un sentido de comunidad. Contribuimos, sin saber bien cómo, a un sistema de conocimientos que no nos permite revalorizar nuestras contribuciones ni generar reputación basada en la apreciación mutua entre pares. Esta situación tampoco es nueva ―diversos algoritmos corporativos han estado alterando en gran medida la forma en que construimos comunidades de conocimiento en línea― pero se intensifica con la masificación de la IA generativa.
En este contexto, estamos enfrentando la paradoja de ver que lo que se ha compartido como parte de los comunes durante años, parece beneficiar principalmente a grandes empresas concentradas, con muy poco control social. Los servicios, limitados y de pago, de estas empresas, no llegan a todxs, no son para todxs. Y no nos permiten sentirnos parte de una comunidad de conocimiento compartido, a pesar de que la IA generativa se basa, en buena medida, en el conocimiento previamente compartido.
El pánico que se levanta desde las industrias de contenidos (medios de prensa, bancos de imágenes, etc.) crea una situación aún más complicada, porque puede traer como consecuencia que las grandes compañías de IA generativa sean aún menos transparentes en cuanto a cómo recogen los datos de entrenamiento. Simplemente pueden cerrar los conjuntos de datos que antes eran abiertos, para evadir cualquier escrutinio del que podría resultar una sanción por infracciones al copyright. Al mismo tiempo, este pánico creado por las industrias de contenido ha apuntado como blanco principal a los modelos abiertos, puesto que estos son vistos por los titulares de copyright como más difíciles de controlar y en consecuencia más peligrosos para sus intereses.
¿Cómo podemos enfrentar esta situación desde una perspectiva que sea independiente tanto de las industrias tecnológicas como de las industrias de contenidos? Entre otras cosas, necesitamos:
- Consolidar comunidades abiertas en torno a los modelos de IA libres.
- Promover la gestión comunitaria de infraestructuras de IA.
- Seguir defendiendo que los outputs de los modelos no son «creaciones» de las máquinas ni propiedad de las empresas de IA, sino que pertenecen a los comunes.
- Exigir documentación completa y transparencia en torno a los modelos y los datos de entrenamiento.
- Construir mayor agencia en la creación de conjuntos de datos: que la sociedad, y especialmente los grupos más afectados por sesgos y discriminaciones, puedan tener una participación real en cómo se construyen.
- Cuestionar la censura de las plataformas comerciales, que para contentar a gobiernos o grupos de presión, muchas veces imponen visiones monolíticas y estereotipadas sobre la realidad a través de prohibiciones y controles de prompts y outputs.
- Evitar que en la IA generativa se amplifiquen aún más las desigualdades que ya se constataban en los comunes (como los famosos sesgos lingüísticos, de género, raciales y de clase de Wikipedia, por ejemplo).
- Solidarizarnos con todas las personas trabajadoras afectadas por los procesos de automatización con IA, comprendiendo al mismo tiempo que el copyright no es una herramienta apropiada para luchar contra el desempleo ni contra la caída de los salarios.
A pesar de los desafíos que la IA plantea para la gestión de los bienes comunes digitales, nuestras luchas por una cultura libre y compartida continúan. No deberíamos permitir que se paralicen nuestros esfuerzos para poner en común el conocimiento por los pánicos morales y miedos reaccionarios que parecen sugerir que privatizar y cerrar es la forma de preservar la cultura de inminentes daños. Los beneficios sociales de la cultura libre no van a desaparecer, y los tenemos que seguir defendiendo y extendiendo a todxs, con el fin de que los progresos hechos en inteligencia artificial no queden en manos de unos pocos.
Nuestro activismo en el espacio de la cultura libre tiene que consistir en generar entornos, plataformas y mecanismos sociales para que las personas puedan contribuir de manera segura y feliz a los comunes. Necesitamos que las personas, usando la IA y sus posibilidades cuando son relevantes y necesarias, podamos seguir compartiendo entre pares con una noción de comunidad.
Deja una respuesta