新闻中心

数据分析案例--以武汉二手房为例(分析二手房数据的意义)

2023-09-29
浏览次数:
返回列表

之前看刘顺祥老师的一片分析文章,比较感兴趣而且实操性很强,于是基于老师的部分源代码对武汉地区二手房情况进行一些分析(仅基于链家的数据-个人学习使用)。

不过打开源代码打开后获取页数和内容都不行,重新研究了下多用于网页爬虫的Beautifulsoup4库和武汉链家网页结构内容,重写一些代码才获取了主要分析内容。

调试过程中主要问题有:

1. 最大页码的获取问题,武汉和上海的定位tag是有区别的,而且即便是源代码获取上海的也有问题;

2. 重新分析网页结构,部分内容获取后还需要用str强制转为标准文本格式,有的BS4文本格式不能直接使用;

3. 存档csv乱码问题,后来将encoding=utf8改为encoding=gb18030即可;

4. 刚开始是事先分割好户型再放入Excel,发现还是有问题,因为户型等标签个数不同,于是改为先获取整个内容,再在Excel里面通过VBA来分解,这个是我的长处,比较简单的就搞定;

5. 存档文件用逗号隔开不准确,因为标题等可能带有逗号,这样就和分隔符混淆,导致放EXCEL内容错位,于是改为用@整合内容后,在Excel里面分列;

6. 整体获取内容在6-10分钟左右,但是前期后期的调试和数据整理花费好几天的功夫;

7. 部分内容没办法补全,比如有的写精装或者简装的,但是大部分都是都填写的其他或者空的,只能放弃分析这个点。

8. 聚类的归一化后发现有Na的数据,源文件里面删除后ok。

还有很多其他小问题,不过网络都能间接帮助到解决,前期总体获得14262行数据(2月2日晚),分列后,修正一些错位等(不多)情况,处理情况如下:

A. 标题重复条目,只保留一条(假设这是为了吸引顾客故意发的重复信息,例如下面的);

B. 去掉车位出售的条目;

C. 去掉大面积商铺,比如1329.84平米的商铺,整楼房出售的;

D. 有无电梯这个也缺失很多内容,2300条没有写,这个手动补全了一部分,同小区的根据有的信息进行填补,总层数>9层的全部写有电梯(住宅建筑设计规范中规定:七层及七层以上的住宅,或最高住户入口层楼面距底层室内地面的高度在16m以上的住宅,应设置电梯。),<=9层>6层,建设年份比较新的,都写有电梯,年份2000以前的写无电梯,<=6层以下无电梯。最后留508条空白数据,当做缺失处理,占总比不大。

剩下的最终数据包含武汉主要10个区域--江岸、江汉、硚口、东西湖、武昌、青山、洪山、汉阳、东湖高新、江夏的12533条商品房和188条别墅情况。

分获取内容代码截图:

结果Excel表格图:

词语分析

标语词语分析

词云图如上,取高频词个数163个,其他词语都是低于80次的忽略掉。

通过上述主要关键字,我想主要可以从几个方面来总结下中介公司写标题的套路:

1. 户型方向:很多都涉及通透、南北、采光等词,很多人选择房子的时候,南北通透的房子基本上户型都还不错,是一个值得推荐的点,即便是开发商售房子的时候现在也很注重这个宣传。

2. 户型结构:两房和三房是需求量比较大,可以说是刚需的第一选择,面积适中,价格不会太贵,三房是第一选择,不那么富裕的会选择两房。

3. 装修相关:装修需要人力物力时间,装修好以后还要闲置1-3个月,如果能直接有精装修,价格不贵的情况下,这个也是比较吸引人。

4. 楼层相关:现在高楼居多,小高层基本上新建住宅都不会做,所以视野、中间楼层这些词语,好的楼层选择,附带的是否有电梯都是考虑的关键。

5. 功能相关:办公住宅的功能区分,直截了当,一般只有办公的地方会加上办公使用。

6. 位置相关:地铁附近,便利等词语比较多的使用。

7. 修饰语:诚心、诚意、经典、安静、优质等,至于是否诚心这个就不好说了。

还有一些是两证相关的,武汉目前的政策是这样的,营业税:房产证未满2年的交5.6%,产证满五年可以免交营业税,这是一个大头,一套100万的房子,这个税费就要6万,如果能省下是最好,不过大部分房源来看基本上都满足这点,除非卖家比较新的盘或者一直没有办理两证。

综上来说,中介在定标语的时候可以从以上几个方面来一起考虑,或许现在的中介已经形成固定套路,适当的修改再看效果反馈情况,当然还是要房源真正好,群众才会真正的喜欢。

小区名字词语分析

小区的名字一直是个迷,普通小区起名太高大上估计会有反的效果,而且会忌讳很多词语,国家对这方面也是有规定的,目前起名形成了很多套路,比如住宅地址(香山美墅),环境靠湖(阳光琴海),数字(阳光100),公司名(金地艺境)等等方法,我使用全部记录条数的小区名字,未做任何更改,重复的也算做个词云:

然后大概去掉一期、二期、北区、A区、小区、一区、南区,XX街等这类无关的词语,再去重复后统计,剩下2206条做词云图:

比较可以看出,“花园,小区,国际,家园,社区,公馆”等都是大量使用的名称,估计改名字的人也是懒得改,又不会犯错忌讳等,这其中是否有门道不得而知,当然我们也可以进一步深究保利,万科常用的名字规律,这里因为单独提取一个公司的名字样本量太少,做不了什么实质性的内容。

总体在售情况

片区发布条数

从整体发布数量情况来看(可能有重复发布),青山和江夏的二手商品房发布条数比较少,其他的条数看起来没有什么大的问题。二手别墅售卖情况上东湖高新和东西湖地区的为主,这里要说明下的是别墅因为售卖周期长,是不是二手别墅需也是要确认。

从小区名字统计来看,有2390个小区或者楼盘在售,其中世纪江尚最多,这个楼盘高59层,均价达到37083元/平米。

片区单价情况

按照中位数的大小来对比平均单价来看,武昌区、洪山区、青山区算最高位,江岸,江汉,东湖高新次之,东西湖、江夏最低,其中江夏的单价稳定度比较均衡,武昌地区的低位和高位浮动最大。

在个人印象中,青山是个偏远地区,但是房价在2W附近也是比较出乎意料,总体来看,三环内除了一些老房子外,都在15000-20000,江夏和东西湖是否后续能发力,看规划了。

下面是总价和单价的分布情况,基本上都是峰态长尾形状

户型分布情况

户型是看房人重点考察的地方,由于种类较多,出现较少次数的户型合并为其他。

常见的最多的是3室两厅,次之就是2室2厅,这应该都是最好卖的,可以这样说,现在建设的商品房户型以前面这几个为主。 我们来看看不同户型的单价,面积大小和标准差情况。

根据数据其实就可以大概看出一点眉目,这里用图比较明显,横坐标用面积,纵坐标单价:

各个户型的房价均价在2000-23500,差别并不是很大,不过不同户型的标准差有比较大的差别,可以看上面的表格。图的气泡大小是发布的套数,按照常规理论把这几个分为五类:

Ø 1室1厅/0厅,50平米左右的,一般是单人居住为主,或者投资型,或者买不起更大的房子人群;

Ø 2室1厅/2厅,70-90平米,刚需型,需求量大,发布的数量也多;

Ø 3室1厅/2厅,100-120平米,刚需型,大小相比较于2室更佳,价格差不多的情况下,很多人相信还是愿意多付钱买这种的。

Ø 4室/多室/1-2厅,140-160平米,改善型,手头富裕的一般都会买这种,或者卖掉原来刚需类的房子进一步改善生活品质。

Ø 5室或以上,160平米以上,非别墅的商品房,一个字,壕。

单价和面积大小分布

上面分析了户型其实和面积/单价很有关系,这里来看下面积大小和单价的散点图情况:

也是类似峰态,虽然总体的直方图类似正态分布,不过因为建筑大小过于集中于100平米左右,正态的参数检验是通过不了,PP图这里就不贴上了。

朝向和楼层分布

坐北朝南的和南的房子占比82%,比例很高,表格比较长就不贴出全部了:

下图是整体楼层高度和对应的套数,最高有60层的,57层的有100多条主要是世纪江尚,比较集中的就是小高层(应该不是很新的)和33层左右的新建建筑。

关注人数和带看次数

因为此数据缺乏一定的参考性,所以不作分析,不然可以作为一个很好的反馈结果来使用。

聚类分析探索

样本数据的数量级差别比较大(比如楼层1和单价1W比较),如果用到全部数据必须归一化才能保证小数据能起作用,因为上面的数据正态性未通过,Z变化不是很适合,于是我采用0-1归一,公式为(X-Xmin)/(Xmax-Xmin),之前刘老师采用的面积、房价和单价这三个变量聚类,个人觉得过于简单,而且这三者存在明显的线性关系:房价=单价*面积,所以加入建筑年份和层数来进行尝试:

数据表如下

聚类的个数多少用碎石图来观察取值,先做出来取值,再用后面的代码得出图形。

碎石图:

下面是变量关系图和聚类后的点图,效果一般,也没有看出什么实质性内容(大图略)

左图为归一化数据制作图形,右图未归一化数据制作图形,可以见室和厅这类小数据不明显,因为室和厅的数据变化(集中1234为主)不大,所以作图我们去掉这两个变量。保留5个变量:

对比归一化和未归一化的图后,取未归一的数据:

由于是多变量,多维度做一个图里面是很困难的,尤其是五维空间更没办法,这里通过观察两两间的关系和聚类的效果,基本上有用的聚类不多,比较明显的都是和单价相关的,可以划分4-5种层次,低中高的细分。

同时观察的话发现建筑时间集中在20年内,时间越短的层数建设的越高,20年以外的都是集中10层左右,而且高单价的也是集中20年内的,大于20年份的单价都维持在2W左右(单价如果聚类K=5的话,上面的会细分)。

横坐标为距今年份,纵坐标分别为层数和单价

下面是只做单价和面积做聚类效果:

看起来聚类并没达到想要的效果,就是根据内容分出个类别来,可能实质数据比较单一,这里并不能根据简单的效果就进行强行划分什么内容。

别墅的大概情况

分析起来和商品房其实差不多,这里就不详细说明了,贴上部分截图,了解大概

洋洋洒洒的写了几千字,主要是数据的探索为主,至少能对目前的二手市场,位置,均价等有个大致了解。具体还可以进行回归分析预测单价或者房价,这里不再罗嗦了。

这过程中学到了不少知识,尤其了解BS4库和部分作图,聚类处理,尤其元数据的清洗等工程量确实是花费很多功夫。

以上探索基于少部分数据体量,至于能否说明武汉地区二手房情况,还需要更多平台数据分析。

搜索