Las herramientas de inteligencia artificial de Facebook son lo único que se interpone entre sus usuarios y el creciente aumento de odio y desinformación que está experimentando la plataforma. Los investigadores de la compañía desarrollaron algunas capacidades nuevas para los sistemas que mantienen al límite al adversario, identificando información errónea relacionada con COVID-19 y discursos de odio disfrazados de memes.
La detección y eliminación de información errónea relacionada con el virus es obviamente una prioridad en este momento, ya que Facebook y otras redes sociales se convierten en un caldo de cultivo no solo para la especulación y discusión ordinarias, sino también para la interferencia maliciosa de campañas organizadas con el objetivo de sembrar discordia y difundir pseudociencia.
“Vimos un gran cambio en el comportamiento en todo el sitio debido a COVID-19, un gran aumento en la información errónea que consideramos peligroso”, dijo el CTO de Facebook Mike Schroepfer en una llamada con la prensa.
La compañía tiene contratos con docenas de organizaciones de verificación de hechos en todo el mundo, pero dejando de lado la cuestión de cuán efectivas son realmente las colaboraciones, la información errónea tiene una forma de mutar rápidamente, lo que hace complejo eliminar una sola imagen o vincular un tema.
Las imágenes pueden ser casi idénticas, con el mismo fondo, colores, tipo de letra, pero existen diferencias: son esas cosas que se pueden ver cuando alguien toma una captura de pantalla y la comparte en lugar del original.
“Lo que queremos poder hacer es detectar esas cosas como idénticas porque, para una persona, son lo mismo”, dijo Schroepfer. “Nuestros sistemas anteriores eran muy precisos, pero eran muy frágiles, incluso con cambios muy pequeños. Si cambia una pequeña cantidad de píxeles, estábamos demasiado nerviosos de que fuera diferente, por lo que lo marcaríamos como diferente y no lo eliminaríamos. Lo que hicimos aquí durante los últimos dos años y medio es construir un detector de similitud basado en redes neuronales que nos permitió capturar mejor una variedad más amplia de estas variantes nuevamente con una precisión muy alta “.
Afortunadamente, analizar imágenes a esas escalas es una especialidad de Facebook. La infraestructura está ahí para comparar fotos y buscar características como caras y cosas menos deseables; solo se necesitaba que se le enseñara qué buscar. El resultado, después de años de trabajo, debería decirse, es SimSearchNet, un sistema dedicado a encontrar y analizar casi duplicados de una imagen dada mediante una inspección minuciosa de sus características más destacadas.
SimSearchNet está inspeccionando actualmente cada imagen cargada en Instagram y Facebook, miles de millones por día. El sistema también está monitoreando Facebook Marketplace, donde las personas que intentan eludir las reglas subirán la misma imagen de un artículo a la venta (por ejemplo, una máscara facial N95) pero ligeramente editada para evitar que el sistema la marque como no permitida. Con el nuevo sistema, se observan las similitudes entre las fotos actualizadas o editadas y la venta se detiene.
Otro problema con el que Facebook estuvo lidiando es el discurso de odio. Sin embargo, un área que resultó especialmente difícil para los sistemas automatizados son los memes.
El problema es que el significado de estas publicaciones a menudo resulta de una interacción entre la imagen y el texto. Las palabras que serían perfectamente apropiadas o ambiguas por sí mismas tienen su significado aclarado por la imagen en la que aparecen. No solo eso, sino que hay un sinfín de variaciones en las imágenes o frases que pueden cambiar sutilmente (o no cambiar) el significado resultante.
Cada pieza individual del rompecabezas está bien en algunos contextos, pero distinto en otros. ¿Cómo puede un sistema de aprendizaje automático incorporar conocimiento para decir qué es bueno y qué es malo? Este “discurso de odio multimodal” es un problema no trivial debido a la forma en que funciona la IA. Creamos sistemas para comprender el lenguaje y clasificar las imágenes, pero cómo se relacionan esas dos cosas no es un problema tan simple.
Los investigadores de Facebook señalan que hay “sorprendentemente poca” investigación sobre el tema, por lo que la suya es más una misión exploratoria que una solución. La técnica a la que llegaron tenía varios pasos. Primero, hicieron que los humanos anotaran una gran colección de imágenes de tipo meme como odiosas o no, creando el conjunto de datos Hateful Memes. A continuación, se capacitó un sistema de aprendizaje automático sobre estos datos, pero con una diferencia crucial con respecto a los existentes.
Casi todos estos algoritmos de análisis de imágenes, cuando se presentan con texto y una imagen al mismo tiempo, clasificarán uno, luego el otro, y después intentarán relacionar los dos. Pero eso tiene la debilidad antes mencionada de que, independientemente del contexto, el texto y las imágenes de memes odiosos pueden ser totalmente benignos.
El sistema de Facebook combina la información del texto y la imagen en lo que llama “fusión temprana”, para diferenciarla del enfoque tradicional de “fusión tardía”. Esto es más parecido a cómo lo hace la gente: ver todos los componentes de un medio de comunicación antes de evaluar su significado o tono.
En este momento, los algoritmos resultantes no están listos para la implementación en general, con una precisión general de alrededor del 65-70%, aunque Schroepfer advirtió que el equipo utiliza “el más difícil de los problemas” para evaluar la eficacia. Algunos discursos de odio multimodales serán triviales para marcar como tales, mientras que algunos son difíciles de medir incluso para los humanos.
Para ayudar a avanzar en el arte, Facebook está llevando a cabo un “Desafío de Memes Odiosos” como parte de la conferencia NeurIPS AI a finales de este año; Esto se hace comúnmente con tareas difíciles de aprendizaje automático, ya que los nuevos problemas como este son necesarios para los investigadores.