Innova-tsn en las Jornadas R 2022
23 – 25 noviembre 2022, Córdoba
El pasado noviembre varios de nuestros colaboradores, Julián Rojo, Begoña Vega, María Neira y Ángela Díaz, asistieron al I Congreso y XII Jornadas de Usuarios de R, que tuvieron lugar en Córdoba. Innova-tsn empezó a patrocinar este evento en 2016 y en esta edición hemos tenido el placer de hacerlo de nuevo, por quinto año. Nuestro Patrocinio Plata se destinó a facilitar los dos premios que se otorgaron: Premios Estudiante y Premios Jóvenes Investigadores.
Este evento anual, que llevaba dos ediciones sin poder celebrarse, se centra en el uso del software estadístico R en investigación operativa dirigida a profesionales y estudiantes que utilizan R en su día a día. Estas Jornadas R se llevan a cabo a nivel nacional con el objetivo de proporcionar un punto de encuentro a estos usuarios de R, fomentando la colaboración entre ellos en un ambiente multidisciplinar y con la premisa de divulgar el conocimiento de este lenguaje y sus posibilidades.
Los organizadores, la Comunidad R Hispano, una asociación constituida en 2011 cuyo objetivo es el avance del conocimiento y uso del lenguaje de programación R, llevan a cabo estas jornadas en colaboración con cada una de las universidades de las ciudades en las que se celebra.
Nuestros compañeros no solo acudieron como patrocinadores del evento, ¡sino que además presentaron un caso práctico!
El caso que Innova-tsn compartió en estas jornadas, “UP IN THE AIR”, trataba sobre la predicción del número de pasajeros en los vuelos del puente aéreo Madrid-Barcelona. La complejidad de realizar la predicción residía en que la ocupación de estos vuelos es extremadamente variable, puesto que además de ocuparse con pasajeros que han realizado una reserva previa del billete, las plazas se complementan con viajeros que realizan cambios de un vuelo a otro; al tratarse de tarifas flexibles, o de aquellos que compran el billete poco antes de que el vuelo despegue. Además, se requerían diferentes horizontes de predicción, suponiendo un cálculo de unas 8.400 predicciones diarias que corresponden a los vuelos anuales de la compañía.
Para realizar estas predicciones, se contaba con un histórico de cuatro años con variables relativas al vuelo, pasajeros en vuelos equivalentes, así como las reservas previas de cada vuelo. El tratamiento de esta información permitía generar un tablón con 175 variables. A través de varios modelos ensamblados disponibles en las librerías de R (KNN, K-Means, Regresión lineal y SVM) se estimaron diferentes predicciones que sirven de entrada al modelo final, un XGBoost, que determinaba la predicción definitiva. Además, hay una serie de vuelos clasificados como críticos, en los que la predicción no puede estar por debajo del volumen final real de pasajeros, por lo que se requiere una sobreestimación. En estos se realiza una Regresión cuantílica, quedándonos con el cuantil 90 como valor.
Gracias a estos procesos, se logró reducir el error de la predicción hasta en un 60% en el horizonte de 120 días, reduciendo además los tiempos de dedicación, pasando de tener a una persona dedicada en exclusiva a esta tarea, a tener un proceso que genera y envía estas predicciones en 4 horas de manera autónoma. La presentación levantó mucho interés entre el público asistente.
¿Cómo vivieron algunos de nuestros compañeros las Jornadas?
La experiencia en las Jornadas de R de este 2022 ha sido muy gratificante. Las charlas fueron interesantes, puesto que nos hizo conocer otros sectores, como la agricultura, donde actualmente se están aplicando técnicas analíticas con R y se pretende ir mejorando en ello. Además de poder ver la necesidad que se tiene de utilizar los datos y analítica, en prácticamente todos los sectores, para mejorar tanto el funcionamiento del negocio en concreto como facilitar nuestro día a día. Por otro lado, nos acerca a poder compartir con otros profesionales y estudiantes su forma de trabajar con R y gran variedad de proyectos reales realizados.
Una de las charlas que más me gustó fue la de Emily Robinson, “Don’t Let the Snake Bite: Integrating Python into Your R Workflow”, que se centró en la importancia y necesidad de utilizar la combinación de otros lenguajes (en este caso Python) junto con R para poder sacar el máximo partido a nuestro trabajo.
Como en años anteriores, las Jornadas de R han sido muy enriquecedoras. Las jornadas nos permiten conectar el mundo académico con el profesional, y conocer un poco más de cerca sectores diferentes.
En mi caso, una de las charlas que más me impactó fue la sesión plenaria de Eli Vivas (CEO de Storydata) “Hay un hacker en la redacción”, en el que destacaba la importancia de cómo transmitir el conocimiento adquirido con los datos, y la repercusión de perfiles mixtos de data scientists con grandes comunicadores para que podamos crear impacto con los datos.
Como siempre, queremos recalcar una vez más la importancia que supone para Innova-tsn participar y hacerse eco de este tipo de iniciativas que combinan el intercambio de conocimiento y la puesta en común de ideas, desde una perspectiva lúdica y de continuo aprendizaje que, sin duda, suponen un enriquecimiento profesional y personal para los participantes.
Por último, queremos agradecer a la Comunidad de R Hispano, por la buena organización de este evento, que además no sería posible sin la colaboración desinteresada de los integrantes de los Comités Organizador (encargado de las cuestiones de logística, etc.) y Académico (que gestiona las ponencias, talleres, etc.). Sin duda, todos ellos se esfuerzan por mantener a R como una comunidad positiva, exitosa y en crecimiento. ¡Gracias a todos!