Word Vectors y Corpus Text Mining con Python
¿Cómo podemos examinar el lenguaje y la cultura a través de la computación? Este taller es una revisión práctica y en profundidad de los vectores de palabras y la minería computacional de textos. Abarca desde los fundamentos de la minería de textos en el procesamiento del lenguaje natural y los vectores de palabras, hasta los más recientes avances en la intersección entre la lingüística computacional y las aplicaciones humanísticas. Guiaremos a los asistentes a través de los antecedentes teóricos y conceptuales necesarios para entender las herramientas de uso común en las Humanidades Digitales como word2vex, LDA, o modelado de tópicos, así como repasar las implementaciones y análisis más comunes en grupo. Además, habrá tiempo para reflexionar acerca de estas herramientas y su uso en los dominios específicos de los asistentes. Conocimientos básicos de programación son necesarios para poder seguir este taller, la sintaxis específica del lenguaje de programación Python y el entorno Jupyter también será cubiertos.
Semana 1:
En la primera semana se preparará a los participantes para trabajar con textos de carácter humanista a gran escala, comenzando con el manejo de los datos textuales y terminando con los conceptos y herramientas del aprendizaje automático. Al final de la semana, los participantes se sentirán cómodos con técnicas sencillas como el conteo de palabras y la construcción de modelos de n-grams, así como con la discusión de conceptos básicos de aprendizaje automático para aplicaciones en las humanidades.
Semana 2:
La segunda semana estará centrada en un método popularizado recientemente en las HD: los vectores de palabras. Cubriremos los conceptos y suposiciones detrás de los vectores de palabras tradicionales, Word2Vec y otras técnicas de vectorización basadas en redes neuronales, así como sus implicaciones para el estudio de las humanidades, por ejemplo, ¿es malo todo sesgo? ¿Qué podemos aprender de él? También dedicaremos tiempo a revisar los últimos trabajos en la literatura de las HD y a analizar críticamente sus métodos. La atención se centrará las necesidades analíticas de los participantes, la aplicación de estos métodos a sus propios datos, y en la interpretación crítica de estas aplicaciones en investigaciones de corte humanistas.