Press "Enter" to skip to content

Descubren miles y miles de imgenes de abuso sexual a menores en las libreras con las que se adiestran las inteligencias artificiales

LION-5B, un catlogo de imgenes usado por Stable Diffusion tiene ms de mil imgenes de abusos sexuales a menores

Campus de la Universidad de Stanford, autora del estudio.Ben MargotAP
  • Inteligencia Artificial Google reconoce que los vdeos de Gemini, su nueva IA, estaban editados

Un enorme catlogo de datos usado para adiestrar inteligencias artificiales generativas (motores capaces de crear imgenes desde una descripcin de texto) contiene al menos mil ocho imgenes de abuso sexual infantil, segn un informe del Observatorio de Internet de la Universidad de Stanford.

Se trata del catlogo LAION-5B, una base de datos con ms de cinco mil millones de imgenes extradas de forma automtica de la red y que ha sido creada por la organizacin sin nimo de lucro alemana LAION. El descuido deja que las inteligencias artificiales entrenadas con esta coleccin de imgenes sea capaz de producir escenas afines si no se incorporan barreras que prohban el uso de determinadas palabras.

Las inteligencias artificiales generativas capaces de crear imgenes, como Dall-E o Midjourney, deben «aprender» a imaginar los diferentes objetos y escenas viendo anteriormente millones de ellas.

Las examinan estadsticamente para aprender a reconocer los diferentes elementos. Para aprender a dibujar un caballo, por poner un ejemplo, el modelo ha debido aprender la manera y los diferentes estilos y situaciones en los que acostumbra a representarse el animal y no slo en un pequeo conjunto de fotografías, sino más bien en centenares de miles. Cuantos ms ejemplos vea, mejores sern los resultados.

Para adiestrar estas inteligencias artificiales generativas, sobre todo las enfocadas a un uso general, se emplean por lo tanto enormes compilaciones de fotos e ilustraciones con miles y miles de millones de imgenes que han sido parcialmente clasificadas. Las compaas con ms recursos recurren frecuentemente a compilaciones elaboradas y clasificadas interiormente. Otras usan compilaciones pblicas que han sido compiladas por universidades u organizaciones independientes.

LION-5B es uno de los modelos abiertos ms extensos y completos y lo utilizan motores muy populares, como Stable Diffusion, creado por la compaa britnica Stability AI.

En el caso de Stable Diffusion, Stability AI incluye controles y listas de palabras prohibidas para eludir que el motor se pueda emplear para crear imgenes que muestren escenas de abuso sexual a menores. La compaa tambin explica que en las ltimas versiones ha usado slo una parte de las imgenes del catlogo de LAION-5B a lo largo del adiestramiento.

La coleccin LAION-5B es tan extensa que no es fcil comprobar las imgenes una a una. Se ha compendiado de forma automtica, usando rutinas que rastrean la web en pos de imgenes con descripciones. LAION, en todo caso, tiene múltiples herramientas que dejan reportar contenido ilegal.

Para advertir las imgenes, los estudiosos del Observatorio de Internet de la Universidad de Stanford asistieron a PhotoDNA, una herramienta creada por Microsoft que deja examinar el contenido de una imagen asignndole un valor numrico (hash) segn el contenido que presenta.

Varias agencias de seguridad sostienen listados de los valores numricos de imgenes de abuso sexual a menores conocidas que circulan por la red. Equiparando los valores presentes en el catlogo de LAION-5B con estas listas, es posible hallar, segn los estudiosos, mil ocho coincidencias directas, si bien probablemente el nmero sea mayor. Desde el observatorio de Stanford, adems, alertan que es cada vez ms comn hallar en la red imgenes de abusos sexuales a menores generadas por inteligencia artificial.

Tras conocerse el resultado de la investigacin LAION ha retirado de circulacin provisionalmente sus catlogos de imgenes.