Después de varios años concretamos la automatización del relevamiento web de portales noticiosos a partir de funciones de scraping en PHP. En concreto, un script php alojado en un servidor web se autoejecuta cada dos horas y envía las notas periodísticas recolectadas en la sección “La ciudad” del periódico La Capital de Mar del Plata a una base de datos MySQL, también alojada en un servidor web.
Un segundo grupo de script, incrustados en la página web del Observatorio, se ejecuta cuando unx usuarix ingresa a la página “El pulso de la conflictividad en tiempo real“. Cada vez que esta página es visitada el script php incrustado se conecta a la base de noticias y las procesa en tiempo real. Una vez procesadas las notas, los datos resultantes se visualizan en gráficos dinámicos construidos con la biblioteca amCharts 5, desarrollada en lenguaje JavaScript.
La datificación de las notas periodísticas se realiza en PHP, SQL y JS. Se usan diccionarios de palabras que refieren a conflictos para identificar notas sobre protestas en la ciudad. También se tokeniza el contenido de las notas y se usan diccionarios de palabras vacías para limpiar el corpus textual y luego construir nubes de palabras y tablas de ngrams.