Ứng dụng của phân tích dữ liệu lớn trong phát triển hệ thống quản trị thông tin bất động sản thông minh
- Sự cần thiết của phát triển hệ thống quản trị thông tin Bất động sản thông minh
Thị trường bất động sản được coi là một thị trường đặc biệt ở trên thế giới bởi tính “bất động” của nó. Hầu như mọi lúc, thị trường này luôn có giao dịch, kể cả lúc đóng băng [2]. Các hoạt động liên quan đến bất động sản chiếm 30% tổng hoạt động kinh tế. Theo các chuyên gia, tổng giá trị vốn chưa được khai thác vào bất động sản ở các nước thế giới thứ ba rất lớn lên tới hàng nghìn tỷ USD, nhiều hơn tổng vốn ODA của các nước phát triển. Nó đã có sẵn ở các nước đang phát triển trong 30 năm. [4], [12].
Với sự phát triển của công nghệ, nhiều website giao dịch về thị trường bất động sản đã ra đời. Rất nhiều tin nhắn giao dịch được tạo ra trên trang web này đã trở thành lượng dữ liệu khổng lồ, khó quản lý và hiểu được tình trạng của thị trường bất động sản. Vì vậy, mọi người cần một công cụ có thể hỗ trợ thông tin từ tổng quan đến chi tiết về thị trường bất động sản [5], [6], [8], [9], [13].
Tại Việt Nam, các dự án nhà ở đang phát triển, số lượng giao dịch nhiều đến từng giờ, từng ngày. Mỗi dự án thường được nhiều công ty khác nhau rao bán, đôi khi thông tin bị “nhiễu” nên nhà đầu tư rất khó quyết định đâu là nơi phù hợp để đầu tư.
Hiện nay các công ty bất động sản đều thông qua các website trên Internet để thực hiện các giao dịch. Tuy nhiên, đôi khi những thông tin này không kiểm chứng được tính chính xác hay sự trùng lặp của tin tức khi đăng tải. Ngoài ra, hầu hết giá chào bán đều được định giá dựa trên kỳ vọng của người bán hoặc kinh nghiệm của Công ty bất động sản mà không đề cập đến bất kỳ tiêu chí cụ thể nào [9], [10, [13]. Với việc thông tin bất động sản Việt Nam quá rời rạc, việc quản lý thị trường bất động sản trở nên khó khăn hơn như giá cả, phân tích và dự báo.
Nhận thức được rằng dữ liệu bất động sản rất quan trọng đối với mục đích phân tích, thống kê và hơn nữa thông tin này có thể được sử dụng cho tương lai. Nên cần có một hệ thống tổng hợp và phân tích dữ liệu lớn từ các website trên Internet và đồng thời dữ liệu được cập nhật theo thời gian thực. Hệ thống quản trị thông tin bất động sản này sẽ có thể được phát triển với các chức năng:
- Truy xuất thông tin dựa trên một số tiêu chí khác nhau, trực quan hóa trên bản đồ số [11], [15], [16]
- Phân tích và thống kê dữ liệu: phân tích giá, phân tích ý kiến khách hàng, thống kê giao dịch theo thời gian thực, địa điểm,…hiển thị dữ liệu đã phân tích trên biểu đồ.
- Định giá bất động sản
- Dự báo thị trường bất động sản
Hệ thống quản trị thông tin bất động sản thông minh sẽ sử dụng các kỹ thuật khai phá dữ liệu lớn, xử lý ngôn ngữ tự nhiên, sử dụng tập luật để đưa về cùng một thang đo, từ đó đo lường các giá trị trên biểu đồ. Hệ thống cũng có thể được phát triển cả trên App dùng cho các hệ điều hành IOS hoặc Android để tăng lượng truy cập cho người dùng.
Một quy trình phát triển hệ thống quản trị thông tin bất động sản thông minh được cho như ở dưới đây.
Hình 1. Hệ thống quản trị thông tin bất động sản thông minh
- Phương pháp và kỹ thuật sử dụng phát triển hệ thống quản trị thông tin bất động sản thông minh
Trong những năm gần đây, khái niệm dữ liệu lớn đã được nhắc đến trong nhiều lĩnh vực kinh tế – xã hội. Trong lĩnh vực bất động sản, các giao dịch trực tuyến tạo ra một lượng dữ liệu khổng lồ. Giao dịch bất động sản giữa người mua và người bán hiện nay khá tự do trên mạng. Nhà nước gần như không kiểm soát được giá cả khi người dân đăng tin giao dịch. Dữ liệu này khi khai thác mang lại lượng thông tin lớn, có thể giúp hiểu rõ hiện trạng thị trường nhà ở tự do bao gồm giá của từng loại bất động sản, giá theo phân khúc, số lượng giao dịch theo khu vực, nhu cầu mua bán của mỗi thời điểm trong năm, v.v. [13], [14].
Việc ứng dụng big data trong bất động sản có sức hấp dẫn đối với các học giả và nhà nghiên cứu trong lĩnh vực này, nhưng chưa nhiều, mặc dù ngành bất động sản rất quan trọng ở một số quốc gia. Chứng tỏ rằng rất khó để khai thác dữ liệu này. Trong một số nghiên cứu, nó thường sử dụng một số phương pháp hoặc kỹ thuật như khai thác văn bản và học máy để xử lý dữ liệu [14], [15], [16] bởi các giao dịch trên một website thường không có cấu trúc. Hình 2 là một tin nhắn đăng tải trên 1 website
Hình 2. Một tin rao vặt trên website đăng tin bất động sản.
Có thể sử dụng các quy tắc để trích xuất thực thể và sử dụng khung GATE để xác định các quy tắc trích xuất. GATE là một nền tảng và môi trường phát triển giao diện cho các ngôn ngữ kỹ thuật. Nó được tạo ra và phát triển bởi một nhóm nhà phát triển do Giáo sư Cun-ningham tại Đại học Sheffield. Hiện nay, nó được sử dụng rộng rãi trên thế giới bởi cộng đồng các nhà nghiên cứu trong nhiều lĩnh vực, đặc biệt là NLP [3].
Sử dụng khung GATE để xây dựng các quy tắc để phân loại tin nhắn, hạng mục nhà ở, khu vực. Trích rút thực thể về giá, loại dự án, chủ đầu tư hoặc địa điểm (thành phố, tỉnh, quận, phường), tên người bán, phương thức liên hệ (email, địa chỉ, số điện thoại),…
- Kết quả xây dựng hệ thống quản trị thông tin bất động sản thông minh
Dữ liệu được thu thập dữ liệu từ một số website là doanh nghiệp bất động sản. Trong nghiên cứu này đã thu thập dữ liệu của một số website như www.nhadatso.com, batdongsan.com.vn, alonhadat.com.vn.[4-7]
Tiếp theo, chúng tôi thực hiện xác định và trích rút thực thể từ các tin rao vặt được thu thập từ các trang web. Hình 3 minh họa việc trích rút thực thể từ trong một tin rao vặt.
Hình 3. Trích rút thực thể từ một tin rao vặt.
Dữ liệu sau khi được thu thập lưu trữ tại database của máy tính. Tiếp theo hệ thống phát triển tiếp trên nền tảng App Store. Trên App có các chức năng tìm kiếm dữ liệu, đồng thời có thể tìm được theo giá trung bình. Nhưng chức năng quan trọng nhất là quản lý được thông tin của các tin đăng bất động sản:
- Giá trung bình hiện nay theo quận, huyện, vùng, và phân loại theo loại hình bất động sản và theo năm.
- Thống kê tỉ lệ các loại hình bất động sản theo hình thức cần bán hoặc cần mua.
- Thống kê theo chỉ số giá theo từng loại hình bất động sản và hình thức cần bán, cần mua. Có phân loại theo tỉnh thành, khu vực, quận huyện.
- Thống kê theo nguồn cung các tin bất động sản theo các tỉnh và theo các loại hình bất động sản.
- Ước lượng dự báo nhu cầu hoặc định vị được bất động sản khu vực nào đang hot.
Hình 4. Một số giao diện phân tích dữ liệu của hệ thống trên ứng dụng giao diện Iphone.
Trên đây là nghiên cứu ứng dụng của việc phân tích dữ liệu lớn các tin rao vặt bất động sản để phát triển hệ thống quản trị thông tin bất động sản trên thị trường. Đây là một kênh giúp cho các nhà quản lý có thể định hình tình hình bất động sản trên thị trường để có những định hướng, quyết sách phù hợp hoặc những người có ý định mua hoặc bán bất động sản tham khảo tình hình trước khi thực hiện quyết định mua hoặc bán. Các nhà đầu tư bất động sản cũng có cái nhìn và hỗ trợ ra quyết định khi nắm được thông tin tổng hợp trên thị trường theo thời gian thực.
References
[1] | S. K. Dey and S. Urolagin, “Real estate price prediction using data mining techniques,” in 2021 IEEE 4th International Conference on Computing, Power and Communication Technologies (GUCON), 2021. |
[2] | V. Skribans, M. Jurušs, M. Demianchuk, N. Maslii, and D. Pastory, “Real estate announcements monitoring dataset for Latvia 2018,” Data Brief, vol. 28, no. 105064, p. 105064, 2020. |
[3] | H. S. Munawar, S. Qayyum, F. Ullah, and S. Sepasgozar, “Big data and its applications in smart real estate and the disaster management life cycle: A systematic analysis,” Big Data Cogn. Comput., vol. 4, no. 2, p. 4, 2020. |
[4] | Y. Yan and Y. Ren, “Research on application value analysis of real estate registration based on big data mining,” J. Phys. Conf. Ser., vol. 1992, no. 2, p. 022192, 2021. |
[5] | J. Ma, “A case analysis on optimal use of real estate by text mining and qualitative data analysis,” Jpn. J. Real Estate Sci., vol. 34, no. 2, pp. 86–94, 2020. |
[6] | D. Wang, “The information management of real estates registration Under the background of big data,” Academic Journal of Science and Technology, vol. 3, no. 3, pp. 23–24, 2022. |
[7] | W. Coleman, B. Johann, N. Pasternak, J. Vellayan, N. Foutz, and H. Shakeri, “Using machine learning to evaluate real estate prices using location big data,” in 2022 Systems and Information Engineering Design Symposium (SIEDS), 2022. |
[8] | D. Du, A. Li, and L. Zhang, “Survey on the applications of big data in Chinese real estate enterprise,” Procedia Comput. Sci., vol. 30, pp. 24–33, 2014. |
[9] | E. Hromada, “Real estate valuation using data mining software,” Procedia Eng., vol. 164, pp. 284–291, 2016. |
[10] | Y. Yu, J. Lu, D. Shen, and B. Chen, “Research on real estate pricing methods based on data mining and machine learning,” Neural Comput. Appl., 2020. |
[11] | X. Chen and F. Biljecki, “Mining real estate ads and property transactions for building and amenity data acquisition,” Urban Inform., vol. 1, no. 1, 2022. |
[12] | M. A. Berawi, P. Miraj, G. Saroji, and M. Sari, “Impact of rail transit station proximity to commercial property prices: utilizing big data in urban real estate,” J. Big Data, vol. 7, no. 1, 2020. |
[13] | T. Yoshida, D. Murakami, and H. Seya, “Spatial prediction of apartment rent using regression-based and machine learning-based approaches with a large dataset,” J. Real Estate Fin. Econ., 2022. |
[14] | S. Khare, M. K. Gourisaria, G. M. Harshvardhan, S. Joardar, and V. Singh, “Real estate cost estimation through data mining techniques,” IOP Conf. Ser. Mater. Sci. Eng., vol. 1099, no. 1, p. 012053, 2021. |
[15] | L. Cao, P. Xu, and W. Shang, “A text-based mining approach for real estate policy impact monitoring and analysis,” in 2021 IEEE International Conference on Big Data (Big Data), 2021. |
[16] | R. Bekkerman, V. Josifovski, and F. Provost, “Data science for the real estate industry,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020. |