Agregaciones básicas en Spark
Introducción Una de las tareas más común trabajando con Spark son las agregaciones. Por ejemplo, en SQL haríamos lo siguiente: Select avg(salario) as SalarioMedia from empleados group by genero Esto nos calcula la media de salario para cada genero. ¿Cómo se hace esto en Spark? Pues curiosamente hay muchas formas, podemos recurrir a spark-sql y ejecutar exactamente esa query, pero personalmente no me gusta NADA hacer uso de spark-sql, por lo tanto, eliminamos una de las maneras de realizarlo 😄. La forma más correcta (desde mi punto de vista, claro) de escribir eso sería: empleados.groupBy($"genero").agg(functions.avg($"salario") as "SalarioMedia") DataFrame.groupBy "DataFrame. groupBy" (o Dataset, no importa, recordemos que DataFrame = Dataset[Row]) es una funcion que tienen todos los dataframe para poder realizar agregaciones, es importante entender que esta función NO devuelve un dataframe , sino un RelationalGroupedDataset , que sería un data...