全中国有多少个黄月新?
“黄姓”每月新增人口约3000+,2019年“黄姓”人口达到780万,排在第16位;而“黄月新”这个名字在《百家姓》中排第549位! 根据二八定律(20%的人拥有80%的资源),全国大概每20个人里就有一个叫黄月新的,这个比例还是蛮大的,那么按照这个比例推算的话,全中国有大约3亿多人跟黄月新同姓——也就是说这个问题下答主们回答的“黄月新”应该不是同一个人……
不过呢,虽然同一个姓氏的人比比皆是,但是每个人的八字不同,运势也是千差百异的啦~如果“黄月新”是你或者你身边的人,你可以继续往下看哦o(* ̄︶ ̄*)o 我翻看了好几个问题下的答案,发现大家好像都喜欢用一些比较“高级”的统计方式,比如什么聚类分析、关联分析啥的,其实我个人认为这种问题用简单的Excel表就能解决,而且结果也更可靠!因为人名是文本数据嘛,所以简单的人工清洗肯定是不行的,必须要用文本分析的算法才能把“黄月新”从大数据海里给揪出来。 首先,我们要明确一点认知:人名是非常不规范的数据,不同的语言有不同的书写顺序,同样拼音或者英文名的拼写也有很多人称谓不一,如Peter/Petter/Piotr等等,所以人名分析是一个世界性的难题啊……
为了简化问题,我们假定“黄月新”这三字是严格按照汉语拼音书写的,并且没有书写错误(这种情况其实是很理想化的……),那么我们就要用到Excel的函数功能了。 这里我用到了VLOOKUP函数(这函数太万能了,一定要学会呀),以姓氏作为关键字的列进行模糊查询,找到“黄”姓的第一个字符串,这样我们就可以把“黄”姓的人群筛选出来了。然后我们再用COUNTIF函数统计每一个“黄”姓人员名单里的“月新”出现的个数,出现个数大于等于2的,就是我们要的“黄月新”。
当然啦,也有人可能姓黄的,但是名字里没有月新的,这时就可以采用上面提到的“高级统计方法”——聚类分析和关联分析,把名字中有月新的人全部找出来,再对这些姓名进行排序,看哪个姓氏的人群中月新出现的频率最高,这样就可以得到“黄月新”的名字了。