Notas
Las técnicas de machine learning en la aplicación de modelos de valuación masiva automatizada
Avances recientes para expandir los valores muestrales del suelo urbano a la totalidad del espacio urbano mediante algoritmos de aprendizaje computacional.
Abril de 2024
Contribución: Juan Pablo Carranza (Docente e investigador de la Universidad Nacional de Córdoba. Consultor de organismos internacionales sobre valuación masiva de la tierra urbana)
Una valuación masiva automatizada implica la estimación de un modelo a partir de una muestra de datos de mercado sobre los que se conoce el precio del inmueble, con el objetivo de aplicarlo para interpolar el precio desde esas localizaciones conocidas hacia el resto del espacio urbano. Este procedimiento puede estar acompañado de la utilización de variables independientes que resumen las características de la localización y el entorno de cada dato, con potencial para explicar el precio de mercado de los inmuebles.
Las primeras aproximaciones científicas a las valuaciones masivas automatizadas hicieron uso de técnicas estadísticas mediante la aplicación de diferentes tipos de modelos lineales conocidos como regresiones espaciales o regresiones geográficamente ponderadas (Anselin, 1988; Brunsdon et. al, 1996). También se hizo una aplicación relativamente intensiva de técnicas geoestadísticas, como interpolaciones basadas en la técnica de kriging (Krige, 1951) en sus diversas variantes.
El cambio de paradigma y mejoras en el desempeño de las valuaciones
Con la irrupción de la era de la información, y a la par del crecimiento en la capacidad de procesamiento de grandes volúmenes de datos georreferenciados y la generalización en el acceso a herramientas de cómputo, se comenzó a observar, también, la implementación paulatina de algoritmos de aprendizaje computacional (o machine learning) en el diseño e implementación de políticas públicas. En el ámbito de la valuación inmobiliaria, este pasaje de técnicas estadísticas clásicas hacia la utilización de algoritmos de aprendizaje computacional implica, además, un cambio de paradigma a nivel epistemológico que tiene consecuencias políticas tangibles. En los modelos estadísticos utilizados de manera intensiva durante la segunda mitad del siglo 20, la forma de la relación entre el precio de los inmuebles y las diferentes variables independientes utilizadas en la estimación del modelo era impuesta de antemano por los investigadores; esta fórmula regía la lógica de determinación de los precios y era constante para toda el área de estudio. En los algoritmos de aprendizaje computacional, en cambio, la forma de estas relaciones surge de los mismos datos utilizados como muestra y puede ser cambiante en diferentes partes del espacio urbano. Esta característica dota a este tipo de técnicas de una capacidad predictiva superior a las técnicas utilizadas anteriormente (Kleinberg, et al., 2015), ya que permiten una mejor generalización hacia partes del espacio urbano en donde la cobertura muestral es baja, o incluso nula. Además, el desempeño de este tipo de algoritmos es sumamente sensible a la cantidad de datos utilizados en la muestra, permitiendo lograr resultados de cada vez mayor calidad si la política de actualización de valuaciones es sostenida en el tiempo. Este diferencial en la capacidad predictiva de los algoritmos de aprendizaje computacional es fundamental para implementar valuaciones lo más próximas posibles a los precios observados en el mercado, dotando de una mayor equidad horizontal y vertical a la política tributaria de los gobiernos locales y provinciales.
El uso de los algoritmos en la construcción de las variables independientes
Pero la aplicación de este tipo de técnicas no se agota en la valuación masiva de los inmuebles. Muchas de las variables territoriales utilizadas en los mismos modelos valuatorios pueden ser construidas con este enfoque metodológico, y constituirse en una fuente importante de información para retroalimentar otras políticas territoriales urbanas. Por ejemplo, se puede clasificar de manera automática la forma de las parcelas de una ciudad o su ubicación en la cuadra; también, a partir de la clasificación automática de imágenes satelitales, es posible determinar el área edificada de una ciudad y detectar mejoras no declaradas (Benchabana, et al., 2023, Huang, et al., 2022); de igual manera, se puede identificar la extensión de basurales a cielo abierto. Incluso, si se cuenta con imágenes de sensor LiDAR (algo que veremos de manera más frecuente en los próximos años) es factible identificar la cantidad de árboles en entornos urbanos e incluso su especie (Gong, et al., 2023, Guo, et al., 2022, Wang, et al., 2018). Hay antecedentes, también, de la utilización de algoritmos de aprendizaje profundo para la clasificación automática de la categoría constructiva de las viviendas a partir de imágenes de Google Street View (Thackway, et al., 2022, Xu, et al., 2022, Habashna, 2022). Los ejemplos podrían seguir, y cada vez son más numerosos.
Aplicaciones en el campo de la política de recuperación de plusvalías urbanas
Si bien en su génesis este tipo de modelos están principalmente asociados a aspectos técnicos de la política tributaria y la recaudación del impuesto inmobiliario, su potencial ámbito de aplicación es mucho más amplio. Por ejemplo, contar con un modelo que permita lograr estimaciones de calidad y a nivel parcelario del precio de mercado de la tierra urbana facilita la implementación de estrategias de captura de plusvalías, desalentando la retención de tierras para fines especulativos y favoreciendo un desarrollo territorialmente armónico de la ciudad; un modelo entrenado a partir de diferentes variables independientes, entre las que se encuentre la normativa urbana, por ejemplo, permite simular qué sucedería con el precio de la tierra si se modifica la normativa de uso del suelo en un sector de la ciudad. Esta característica eleva el nivel de objetividad en la determinación de externalidades originadas en cambios normativos (rentas del suelo no ganadas, en términos de la economía política clásica de Ricardo o Mill) y lleva más transparencia a un proceso frecuentemente cuestionado por sospechas de influencia de desarrollistas inmobiliarios en la determinación de las compensaciones a realizar a la comunidad ante modificaciones en el uso del suelo.
Los desafíos de las nuevas técnicas valuatorias en el ámbito de las políticas públicas
Por supuesto, las políticas basadas en este tipo de instrumentos no están exentas de problemas. La dificultad que se menciona de manera más frecuente es el tratamiento de diferentes sesgos en la información utilizada para el entrenamiento de los modelos, buscando evitar su amplificación descontrolada. Sin embargo, se trata de una cuestión que puede ser resuelta en el plano de lo técnico sin mayores dificultades. Existen otras fuentes potenciales de problemas que exceden al ámbito técnico y, como tales, no han recibido demasiada atención desde las ciencias de la computación (ámbito natural del desarrollo científico del aprendizaje computacional). Hacemos referencia a cuestiones que recién se están comenzando a abordar de manera sistemática desde las ciencias sociales. Entre ellas, el paso de un régimen burocrático hacia un régimen que delega atribuciones de gobierno en diferentes algoritmos tiene un impacto en la gobernanza del sistema y requiere de una serie de regulaciones y actualizaciones normativas (Issar & Aneesh, 2021). Se suele decir que este tipo de algoritmos funcionan como “cajas negras”.
A diferencia de los modelos estadísticos paramétricos utilizados durante buena parte del siglo 20 para abordar problemas cuantitativos de Estado, que decantaban casi indefectiblemente en una fórmula polinómica, los algoritmos de aprendizaje computacional son, por lo general, métodos “no paramétricos”. Es decir, no hay un encadenamiento causal que permita explicar al ciudadano la lógica aplicada para la determinación del precio de una propiedad. La imposibilidad de reconstruir el proceso que llevó a una decisión administrativa de gobierno deriva en una reducción del espacio de negociación entre los ciudadanos y la burocracia estatal afectando negativamente, como dijimos, la gobernanza del sistema (asumiendo que ese espacio antes existía y que la burocracia era permeable a la recepción de reclamos por parte de la ciudadanía). Por lo tanto, al implementar políticas que se apoyen de manera intensiva en la utilización de algoritmos, es importante diseñar paralelamente procesos burocráticos que sean receptivos a la crítica ciudadana y dotar al personal administrativo del Estado de elementos para ampliar al máximo la cantidad de información con la que cuentan los ciudadanos y, llegado el caso, canalizar posibles reclamos. Una política de datos abiertos que acompañe a la implementación de las valuaciones, en conjunto con estrategias de difusión metodológica dirigida hacia actores relevantes pueden contribuir de manera crítica en el abordaje de este tipo de problemas.