盒子
盒子
文章目录
  1. 地理分布
  2. 现今人的婚姻观
  3. 常规条件统计
    1. 就业单位
      1. 身高
    2. 体重
    3. 年龄
    4. 学历
    5. 收入
    6. 房和车的情况
  4. 照片的分析

杭州单身人士数据分析报告

最近爬了一波某大型相亲网站的数据,并做了一点点分析,还是挺有趣的,哈哈
data

地理分布

在杭州相亲的人总有这么一个习惯,问问对方是不是“新杭州人”,很多杭州“土著人”不喜欢去和外地人结婚,虽然现在提倡自由婚姻,但是还是有很多人被这一条束缚着,因为在上一辈眼里两个人的婚姻是两个家庭的事,杭州人认为和外地人在习俗上交流成本高,导致他们不怎么愿意接纳外地女婿外地媳妇。这也是很无奈的(facepalm)。
本文将所有样本的户籍分布做了统计,如下图
data

统计图上的程度数值是由当前统计人数*10^6再除以全国第六次人口普查各省份的总数计算得来,由图可以看出很安徽(5.0),江西(4.5)是浙江的主要输出,另外和浙江接壤的南北省份有江苏(1.0),上海(0.6)和福建(0.7)相对就少很多,主要是因为这些省份是沿海省份,这里我们可以看出最近一些年的人们的迁移模式,不断从内陆往沿海迁。这也是比较正常的人口密度变化方式吧,所以大家可以考虑早早在这些地方买房~大趋势在这里至少不会贬值(facepalm)。

现今人的婚姻观

本文将爬取的所有样本的自我介绍择偶要求进行了文本分析,采用jieba分词对所有文本进行了关键词提取。并按女生和男生进行了分类。在自我介绍方面可以看下图:



果然女生都喜欢旅游,男生都喜欢工作,运动(笑cry),另外也可以看到男生和女生的一些介绍差异比如男生喜欢用“本人”,女生喜欢用“自己”,“比较”之类的口头禅,比较符合了。

然后我们看看对择偶要求的分析:



这里我们可以看到大部分词汇都是软条件~男生集中在“善良”,“孝顺”,“温柔”,“大方”当然肯定有“眼缘”(facepalm),女生集中在“责任心”,“阳光”,“上进心”,“成熟稳重”等。然后男女生都喜欢用“最好”这个有回旋余地的词,并且男生的比重更大一点(哈哈哈,对上眼其他条件都次要,都可以重新考虑),另外女生对“杭州”的要求相比男生大很多,看来都不想外嫁~

常规条件统计

就业单位

下图是男女生所在公司的分布:


   


女生就业单位
                                                                          
男生就业单位

由上图可以看出女生主要是事业单位,医院,学校,而男生则主要是汽车制造业,互联网公司等。

接下来看看身高,体重,年龄的普遍分布。

身高



女生身高基本上集中在160-165之间,而男生集中在170-175之间。

体重



女生的体重集中在45-50kg,而男生则集中在61-65kg之间。有个比较有趣的现象就是体重分布都显现出一个近似”U”型分布,女生在71-85kg之间人很少,而男生在91-110kg之间人也很少,就是说要是真胖子,一定会很胖很胖(facepalm)。

年龄




年龄方面男生女生都集中在29岁,但是两者分布有各自的特点,女生的话跟卡方分布有点吻合(如果 $x$ 服从正态分布,那么$x^2$服从卡方分布,女生对年龄敏感可能是造成这个分布的原因),男生的话就比较符合正态分布了。这里也有一个奇怪的现象就是男女生都在49岁的时候发生了突变,女生相对没有那么明显,然后一个猜想就是相亲网站上出身年默认是1970年,很多人上来注个册,没有很认真的填,是不是也从侧面说明了男生对待事情比较马虎,而女生比较认真呢(facepalm again!)

### 行业分布

在行业方面的分布如下图:


因为杭州是一个互联网兴盛的城市,所以无论男生女生,在互联网行业都是多数,而销售,银行/金融/保险也是都在占有蛮大一块并且男女比例相当,对于行业差异点,女生的话教育/科研,财会/审计,医疗/护理,人事/行政比较多一点,男生的话在生产/制造,建筑/房地产相对多一点。

学历

学历方面可以看出女生的学历总体上要比男生好一点。

收入

在收入方面女生相比男生更集中于5-15万之间,而男生的话收入相对均衡一点,其中15万以上男生的数量明显要比女生多。

房和车的情况


受传统观念的影响,一般男性需要有房有车,这样在婚恋市场上有一定竞争力。由上面的饼图也可以看出,男性打算婚后购房和已购房的比例要比女性大很多,拥有自己车的比例也是男性要多于女性近20个百分点。

照片的分析

在爬取这些数据的同时,本文也顺带爬取了样本的照片:

觉得这些数据对分析真没用!就去用来玩深度学习模型了,以下内容是专业内的东西,大家随意看看就行。

一个是用来测试“resnet50”训练出来的颜值评分模型,另一个的话是人脸框确定并且带有alignment的MTCNN模型

我在几千个样本里面混入了Angelababy的照片,进行测试,颜值评分区间是[0, 5],然后设了一个4.2的阈值将高于这个分数的照片打印出来。果然Angelababy不负众望,以4.53的高分名列前茅,其实整个数据集高于4.2的也就只有十几个。

那么整个样本颜值分布是怎样的呢?

嗯。。。均值2.8的正态分布。

然后接下来试了试MTCNN模型,实在想不出什么名堂,就出一个“露脸率”的指标吧,然后最后的结果是男生露脸率是93%,女生的露脸率是86%,嗯。。。女生要害羞一点。。

最后我所有的代码上传到git上了,代码质量请大神轻拍~