二手房类论文范例 跟基于聚类分析的二手房推荐----以北京市为例有关毕业论文题目范文

本文关于二手房论文范文,可以做为相关论文参考文献,与写作提纲思路参考。

基于聚类分析的二手房推荐----以北京市为例

摘 要:为了从属性相似的房源中挑选出性价比更高的二手房,提高二手房交易市场的调整效率,运用聚类分析方法及爬取数据,针对北京市二手房进行研究,在各属性相似的簇中挑选出更低的房源推荐.北京市的二手房主要分为5类,近城蜗居房、近城中型房、近城大型房、远城中型房和远城大型房,每个类簇中更低的房源认为具有更高性价比,也是在推荐时需要重点关注的项目.

关键词关键词:二手房;聚类分析;数据挖掘;属性分析

中图分类号中图分类号:TP391.3

文献标识码:A

DOIdoi:10.3969/j.issn.16722272.2018.05.041

基金项目*基金项目:

作者简介作者简介:毛凤华(1997),女,华中师范大学学生,研究方向:推荐系统.

收稿日期收稿日期:20180315

0引言

住房一直是人们长期关注的热点话题.近年来,房价更是一涨再涨,二手房的也逐步攀升,尤其是"北上广深"4大城市.但是二手房房价的高涨没有影响人们买房的热情.二手房房价除了受到最基本的面积、地理位置与设施等影响,更受到了很多社会因素影响.如何寻找条件合适(如老人更适合低楼层住房,家庭人数较多的需要更多的卧室等),合适的二手房成为人民群众关注的焦点,同时这也是二手房网站在对消费者进行推荐时亟待解决的问题.

1文献综述

通过对已有研究进行梳理发现,目前与聚类相结合的推荐主要有基于用户的聚类和基于情景的聚类两个层面.在以用户聚类为基础进行推荐的研究中,陈克寒等提出了一种基于两阶段聚类的推荐算法,实现了基于用户兴趣的主题推荐.王晓耘等将粗糙用户聚类与协同过滤推荐相结合,离线时利用粗糙kmeans用户聚类生成用户的初始近邻集,在线时从初始近邻集中寻找最近邻进行推荐.明小红从离线用户聚类和用户相似度计算两个方面改进了传统的协同过滤推荐算法.在以情景聚类为基础进行推荐的研究中,周涛提出了一种基于用户情境的协同过滤推荐算法,使得每一个用户都能准确找到与自己相似度高的邻居.乔磊对多类用户情境信息进行分析和建模,提出了一种基于多维情境信息的移动信息服务个性化推荐算法.胡阳从用户历史记录得到情境-服务质量数与质量相关性计算方法,以此改善推荐效果.

目前国内对二手房的研究众多,但部分文献的研究主要关注二手房的影响因素,部分文献基于影响因素得出了二手房的预测模型.霍姝宇、王春萍、史朝阳通过聚类分析对二手房进行了研究.阮连法,张跃威,张鑫使用特征模型与支持向量机方法,就二手房的区位、建筑结构、邻里环境、时间因素等特征训练了一个拟合优度较好的二手房评估模型,但其应用的支持向量机得到的模型未能显性化,且研究区域局限在总面积为7km2的区块内.杨沐晞基于随机森林模型进行了二手房评估研究,比之传统方法有着更高的精度,但其同样存在着无法得出明确的函数表达式,不能直观的得出各个特征因素对房价影响及研究区域较小的问题.梁军辉、林坚、吴佳雨研究了北京市公共服务设施配置对住房的影响,得出了一些有关影响因素,未对其影响进行量化.霍姝宇、王春萍、史朝阳通过聚类分析对昆明市二手房进行了研究,对于聚类分析的结果进行了描述,并未对其经济意义进行探讨.

本文将通过聚类分析对北京市二手房进行推荐研究,对各个特征因素进行聚类,在各属性相似的簇中挑选出更低的房源,弥补国内有关研究空白.

2研究思路

本文借助于八抓鱼软件从链家网爬取北京二手房的总价、单位等信息,进行数据清洗后对其进行描述性统计分析.挑选顾客买房时普遍会关注的属性:户型、面积、装修程度、楼层,是否近地铁,距离市中心的距离,通过SOM、DBSCAN与KMeans多种聚类方法对数据进行聚类,将基本属性相近的房子聚为一类;对聚类结果进行描述性统计分析,确定每一类的属性特征并对每一类进行定义,例如该类距离市中心距离均值小且面积均值较小,认定该类为近城中心蜗居房.可以通过聚类结果寻找类中总价较低的房子,认定为该类房源中性价比较高的房子,推荐给顾客,本文的研究思路如图1所示.

3数据收集与清洗

本文利用八爪鱼软件爬取数据,爬取了北京市二手房共23159条数据.每一条房源信息包含房屋总价、单价、面积、户型、楼层、建筑年限、装修程度、所处城区、具体位置、交通状况(是否靠近地铁).在对数据进行基本的处理之前,本文对一些不属于常见住宅的房屋数据进行了清洗,删除了地下室、车库这类特殊的数据.

针对各属性的数据处理如下所示:

(1)总价、单价、面积、房屋年限已是具有实际意义的数值型数据,不需进行处理.

(2)户型.户型数据为字符型数据,格式为"某室某厅".为更好的分析,将其拆分为两部分:厅的数量(chamber_num)和卧室(hall_num)的数量,拆分为两个变量进行分析.

(3)楼层.在原始数据中该数据包含了两部分内容,房屋相对建筑的相对高度(floor)和建筑的层高(floor_num),为区分这两种信息对于房价的影响,将其拆分为两部分.其中floor变量的在原始数据中的取值为底层、低层、中层、高层、顶层,将其依次赋值为0~4.层高则为原始数据中的数值.

(4)装修状况.经统计发现装修状况可分为为精装、简装、毛坯以及其他的一些特殊状况,据此将字符型转化为数字型.0代表毛坯,1代表简装,2代表精装,3代表其他装修形式.

(5)城区.经统计本次爬取的数据共有10个城区,将它们按照房价的均值进行排序,得到的结果是:房山、昌平、通州、大兴、石景山、丰台、朝阳、海淀、东城、西城,将它们进行标号:0~9.

(6)具体位置.通过该变量衡量距离市中心的远近.通过计算距离天安门的距离来衡量此变量.

(7)交通状况.原始数据中该变量的取值为靠近地铁或不靠近地铁,据此将该变量设置为0/1变量,0代表不靠近地铁,1代表靠近地铁.

由于本文聚类分析阶段使用的Rapidminer软件的限制,本文随机选取了9286条二手房数据,在筛选数据时,按照原始数据中各个城区收集的数据量的比例,进行了筛选,以保证数据的代表性.

4描述性统计分析

本文主要针对总价、每平米、房屋面积、楼层、地区分布、地铁分布、装修状况、不同地区单位房价的情况等进行了描述性统计分析,分析结果如表1、表2、表3、表4、表5、表6、图2所示.

5聚类分析

本文针对客厅数、卧室数、房屋面积、建筑层高、房屋相对高度、装修情况、城区、距市中心距离、交通状况这些属性对二手房数据进行聚类分析,由于各属性量纲不同,在聚类分析前,对数据进行了zscore标准化处理.

聚类分析过程中,本文分别采用了SOM、Kmeans、DBScan三种聚类方法,结果分别如表7、表8、表9所示.

通过计算各聚类算法结果的Withinclustersumofsquarederrors发现,kmeans的Withinclustersumofsquarederrors最小,表示其聚类结果中聚在一个簇中的实例间距离最小,故选用Kmeans的聚类结果进行分析.

5.1户型分析

如表10所示,簇0的卧室个数主要集中在2和3;簇1的卧室个数主要集中在3,数量为4的也较多;簇2的卧室个数主要集中在2,数量为1的房子也较多;簇3的卧室个数主要集中在2,数量为1和3的也较多;簇4的卧室个数主要集中在2,数量为3的也较多.

如表11所示,簇0的厅的个数主要为1,数量为2的也较多;簇1的厅的个数主要为2;簇2的厅的个数主要为1;簇3的厅的个数主要为1;簇4的厅的个数主要为1.

5.2装修状况分析

如表12所示,簇0中精装的个数最多,但简装的也较多;簇1中精装的最多,远超过其他装修类型;簇2中精装与简装的个数差距不大;簇3中,精装的个数较多;簇4中精装的个数最多,但是与简装的差距不大.

5.3城区分析

如表13所示,簇0的房子都位于昌平;簇1的房子位于朝阳的最多,之后时位于海淀,位于昌平、大兴、石景山的数量相差不大;簇2的房子大多位于朝阳,其次是海淀,之后是丰台,其他地区的较少;簇3的房子大多位于朝阳,其次是丰台,之后是海淀;簇4的房子大多位于昌平,之后是大兴.

5.4交通状况分析

5.5面积分析

如图3所示,簇1属于大户型,平均面积在160平米以上.簇0、3、4属于中等户型,平均面积在90-100平米之间.簇2属于小户型,平均面积在80平米以下.

5.6距离市中心距离分析

如图4所示,和其它簇相比,簇0的房子距离市中心的距离明显远,簇1、2、3的房子离市中心的平均距离较小,其中2最近,3次之,1较远.而簇4的房子市中心和簇1、2、3比起来较远.

5.7平均单价分析

如图5所示,簇1和簇3的平均单价比较相近,簇0和簇4的平均单价比较相近,平均单价大致可分为两个层次:40000-45000的低单价层次和69000-78000的高单价层次.

5.8平均总价分析

如图6所示,各簇的总价区分也比较明显.由单价图和总价图对比可知,簇2平均单价最高但平均总价最低,属于高价精品小户型房源,与市中心比较接近.

簇1和簇3平均单价相近,但平均总价却相差甚远,由面积图可看出这基本是因为平均面积的不同造成的,可以认为簇1是高价大户型房源,簇3是高价中等户型房源,两类房源距离市中心也比较近.

簇0可归类为郊区房源,距离市中心很远,但在郊区可能形成了新的小型的中心区.簇4可归类为距离市中心较远的房源.

根据以上属性的分析,可以得到以下结论:

(1)簇0中的房子都是位于昌平区,厅的个数主要为1或2,卧室的个数主要为2或3,装修主要为精装或简装,大部分不靠近地铁.主要位于离市中心很远的郊区,中等户型,单价和总价均较低.在此,将这类房定义为远城中型房.

(2)簇1中的房子位于的地区较多,最多的是朝阳区,厅的个数主要为2,卧室的个数主要为3或4,装修主要为精装.主要位于市中心附近,大户型,单价和总价均较高.在此,将这类房定义为近城大型房.

(3)簇2中的房子主要位于朝阳、海淀和丰台,厅的个数主要为1,卧室的个数主要为2,但1的也较多,装修主要为精装或简装,大部分都靠近地铁.离市中心很近,小户型,单价较高,总价较低.在此,将这类房定义为近城蜗居房.

(4)簇3中的房子主要位于朝阳、海淀、丰台,厅的个数主要为1,卧室的个数主要为2,但1,3的也较多,装修主要为精装或简装,大部分都靠近地铁.主要位于市中心附近,中等户型,单价较高,总价较高.在此,将这类房定义为近城中型房.

(5)簇4中的房子主要位于昌平、大兴,厅的个数主要为1,卧室的个数主要为2,数量为3的也较多,装修主要为精装或简装,大部分都不靠近地铁.离市中心较远,中等户型,单价和总价均较较低.在此,将这类房定义为远城中型房.

6结语

目前,如何寻找条件合适,合适的二手房成为了广大人民群众关注的问题,本文使用聚类分析的方法,从属性相似的房源中挑选出性价比更高的二手房,解决了这一问题,帮助买房者从海量的二手房数据中挑选出合适且便宜的房子.同时,研究结果也有助于提高二手房交易市场的调整效率,使得二手房更加理性化.

参考文献:

1陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络推荐算法[J].计算机学报,2013,36(2):349359.

2王晓耘,钱璐,黄时友.基于粗糙用户聚类的协同过滤推荐模型[J].现代图书情报技术,2015(1):4551.

3明小红.基于用户聚类的协同过滤推荐算法研究[D].北京:北京交通大学,2017.

4周涛.基于用户情境的协同推荐算法研究与应用[D].重庆:重庆大学,2010.

5乔磊.基于多维情境的移动信息服务个性化推荐算法研究[D].北京:北京交通大学,2016.

6胡阳.情境感知的网络服务推荐方法研究与设计[D].北京:北京邮电大学,2017.

7霍姝宇,王春萍,史朝阳.基于聚类分析技术的昆明二手房源分析[J].中国集体经济,2017(33):5961.

8阮连法,张跃威,张鑫.基于特征与SVM的二手房评估[J].技术经济与管理研究,2008(5):7578.

9杨沐晞.基于随机森林模型的二手房评估研究[D].长沙:中南大学,2012.

10梁军辉,林坚,吴佳雨.北京市公共服务设施配置对住房的影响[J].城市发展研究,2016,23(9):8287.

责任编辑(责任编辑要毅)

二手房论文范文结:

大学硕士与本科二手房毕业论文开题报告范文和相关优秀学术职称论文参考文献资料下载,关于免费教你怎么写二手房方面论文范文。