El reconocimiento de duplicados consiste en la identificación de registros referentes a una misma entidad sin la ayuda de identificadores unívocos. Este…
Más allá de Pandas y Apache Spark para la manipulación de datos: Apache Arrow y GPU
9 Mins de lectura
Cuando nos enfrentamos a problemas de escalabilidad usualmente se piensa en clústeres que permiten alcanzar distribuciones horizontales de carga y garantías de…