北京地铁13号线的“北苑站”因临近古代皇家游猎的“北苑”而得名。所谓的“苑”也称“囿”,最初是指水草丰美、林木茂盛,适合饲养禽兽的地方,后来成为供帝王游玩射猎的皇家园林。元明清时期此地为皇族围猎之处,因地处京城北郊而称北苑。当年这一带方圆数十里是草深林密,皇家派人在此饲养了大量的鹿、獐等动物,并建有亭台、水榭,景色宜人。每年的春秋两季,皇帝便来此狩猎,寻欢作乐。清末时此禁苑逐渐衰落,至民国年间,一度为屯兵重地。民国以后,逐渐荒弃成为村落。上个世纪九十年代,在此建设了北苑家园居住区,为京城的超大型社区之一。(来自百度百科)
1数据来源
本次分析的数据源来自链家网。链家网中有二手房-成交房源这个板块,可以查看到所有通过链家成交的二手房的信息,其中最值得称赞的是成交价格的真实性。买过房子的朋友都清楚,房子的实际成交价格和在房管局信息中心的网签价格是不一样的,处于避税的考虑,一般来说网签价格都会比真实的成交价格低,因为在房屋买卖过程中的各种税费都是以网签价格来确定的。因此,一般*府部门出具的关于房价的报告,其实是不可信的。
我利用Python写了一个简单的爬虫,获取了从年7月到年5月,在北苑地区通过链家成交的约套二手房成交的数据。经过手工的数据清洗,获取到的数据大概是这个样子:
对于每一套成交的房屋,收集到了小区、户型、面积、朝向、楼层、房龄、楼型、成交时间、成交单价、成交总价及其他信息。
其中,链家的数据在年11月之后精确到了成交日期,但是为了和年11月之前的数据粒度统一,我都统一成了成交月份。链家可以查询到的最晚成交是两周前的数据,因此年5月数据在爬取时刻只有5月3日之前,所以在之后的分析中5月数据是不可用的。
2分析框架
本次分析不是要解决什么特定问题(其实最初就是想学习一下爬虫而已),因此分析以数据探索为主,分成两大块:
涨幅分析
单价分析
3涨幅分析
3.1整体涨幅显著
从整体来看,北苑地区房价在近10个月内经历了一个显著的涨幅:年4月相对年7月增幅达31%;年4月环比3月增长12%。
对照5月18日国家统计局发布的4月份70个大中城市住宅价格变动情况,发现*府的数据似乎温和了很多……信谁大家可以自己判断……
“4月份,北京二手住宅环比涨幅最大,达2.1%……
4月,北京二手住宅价格同比下降1.6%”
(