Notas

Tesista de la Facultad de Informática de la UNLP aporta al curado automático de avisos de oferta inmobiliaria

Desde el LIFIA se está trabajando en la construcción de un repositorio de datos de oferta inmobiliaria que vincula múltiples avisos a un mismo inmueble.

 

Agosto 2023

Colaboración: Felipe Dioguardi (LIFIA-UNLP) 

 

Dada la ausencia de un repositorio que centralice información inmobiliaria actualizada y confiable, el Observatorio se ha planteado como objetivo la creación de dicha herramienta a partir de la información disponible en Internet.

Las páginas de oferta inmobiliaria son una fuente de datos clave, pero no están exentas de problemas. Crear una base de datos incluyendo avisos incompletos o erróneos puede ser un desafío. Sin embargo, el problema a sortear más interesante hasta la fecha es el problema de los avisos duplicados.

 

¿Qué son los avisos duplicados?

Cuando dos avisos inmobiliarios ofertan la misma propiedad, son considerados avisos duplicados. Estos avisos no siempre tienen la misma información; algunos son publicados por distintas inmobiliarias, en distintas páginas web que solicitan datos diferentes para su publicación, o simplemente fueron realizados en distintos períodos de tiempo. Por esto, algunos avisos estarán desactualizados, otros incompletos, y muchos serán contradictorios. El primer desafío a resolver por el Observatorio es, entonces, el de identificar estos avisos duplicados y presentar su información de tal forma que no dificulten los cálculos estadísticos.

 

¿Cómo se identifican?

Si bien una persona podría darse cuenta fácilmente si dos avisos se refieren a la misma propiedad, el desafío crece cuando se realiza un tratamiento automático. El análisis de coordenadas resulta inútil cuando los anunciantes indican otros puntos distintos de los reales. El análisis de imágenes que pudieran acompañar a los anuncios necesita mucho espacio de almacenamiento y casos particulares como departamentos de un mismo edificio y ofertas sin fotos pueden causar problemas.

Para resolver este desafío, se optó por usar una herramienta que calcule el porcentaje de diferencia entre dos avisos, teniendo en cuenta las características más representativas de cada uno. Se tomaron en consideración desde la ubicación de los inmuebles, la cantidad de ambientes, el tipo de propiedad y su tamaño, hasta la descripción y el título elegidos para su publicación.

Esta herramienta, que utiliza un enfoque bayesiano para el cálculo de probabilidades, permitió encontrar en una base de datos reducida el 70,4% de los avisos duplicados, consiguiendo un 66,8% de precisión. Aplicada en una base de datos con 800.000 avisos, esta herramienta permite realizar un primer curado de la información en menos de 4 horas.

Tratándose de una primera aproximación al curado de una matriz de datos de avisos inmobiliarios multifuente, los resultados se evaluaron como satisfactorios.