Cada vez es más difícil evitar los spoilers en Internet. Aún teniendo cuidado, un tweet aleatorio o una noticia recomendada podrían adelantar el final de una serie o película. SpoilerNet es la creación de un equipo en la Universidad de California en San Diego compuesto por personas que intentaron esperar una semana para ver la última película de los Vengadores, “Infinity War” y se vieron sorprendidos por sus problemas. 

Reunieron una base de datos de más de un millón de revisiones de la comunidad de lectura de Amazon, Goodreads, donde es la convención de anotar spoilers en cualquier revisión, esencialmente línea por línea. El sitio recopila un corpus de revisiones escritas de todo lo que se constituye un “spoiler”. 

Estos datos etiquetados son el alimento de lo que generalmente se conoce como sistemas de IA: redes neuronales de varios tipos que “aprenden” las cualidades que definen una imagen específica, un objeto o, en este caso, spoilers. El equipo introdujo en el sistema las 1.3 millones de revisiones de Goodreads, permitiéndole observar y registrar las diferencias entre oraciones ordinarias y aquellas con spoilers. 

Quizás los escritores de reseñas tienden a comenzar oraciones con detalles de la trama de una manera determinada: “Más tarde se revela…”. Una vez que se completó el entrenamiento, el agente se liberó en un conjunto separado de oraciones (tanto de Goodreads como de Tropic TV Tropes), que fue capaz de etiquetar como “spoiler” o “non-spoiler” con hasta 92 % de precisión. Los intentos anteriores de predecir si una oración tiene spoilers no habían ido tan bien. 

“También modelamos la dependencia y la coherencia entre las oraciones dentro del mismo documento de revisión, para poder incorporar la semántica de alto nivel”, dijo el autor principal del artículo de SpoilerNet, Mengting Wan. “Esto permite una comprensión más completa de un párrafo o revisión, aunque también es necesariamente un problemas más complejo”. 

Un diseño de este tipo se beneficia del nuevo conjunto de datos de revisión a gran escala que se recopilaron para este trabajo, que además incluye documentos completos, etiquetas de spoiler a nivel de oración y otros metadatos. El conjunto de datos públicos (publicados en 2013) antes de este trabajo solo implica unos pocos miles de comentarios de una sola frase en lugar de documentos de revisión completos. Para las comunidades de investigación, este conjunto de datos también facilita la posibilidad de analizar en detalle los spoilers de la revisión del mundo real, así como el desarrollo de modelos modernos de aprendizaje. 

Este enfoque es innovador y tiene sus complejidades. Por ejemplo, el modelo ocasionalmente confunde una oración con spoilers si otras oraciones adyacentes lo son y su comprensión de las oraciones individuales no es lo suficientemente buena como para entender cuándo ciertas palabras realmente indican spoilers o no. “Esto mata a Darth Vader” es un spoiler, mientras que “esto mata el suspenso”, no lo es, pero un modelo de computadora puede tener problemas para distinguir la diferencia. 

El sistema debería poder ejecutarse en tiempo real en la computadora de un usuario, aunque por supuesto, la capacitación sería un trabajo mucho mayor. Eso abre la posibilidad de un complemento del navegador o una aplicación que lee comentarios antes y oculta cualquier cosa que considere arriesgada. Aunque Amazon está asociada indirectamente con la investigación (el coautor Rishabh Misra trabaja ahí), aún no hay ningún plan para comercializar o aplicar la tecnología. 

Sin duda sería una herramienta útil para que Amazon y sus subsidiarias y empresas comerciales pueden marcar automáticamente los spoilers en las revisiones y otros contenidos. Hasta que se implemente el nuevo modelo (y realmente hasta que sea un poco mejor) habrá que seguir el método anticuado de evitar todo contacto hasta que hayamos visto la película o serie en cuestión. 

El equipo de UCSD presentará su trabajo en la conferencia de la Asociación de Lingüística Computacional en Italia a finales de Julio. 

Fuente

Leave a Reply