大数据分析福布斯富豪榜 揭开全球亿万富豪们的财富密码

哪个国家的亿万富豪最多?男女比例如何?哪个国家的富豪拥有的财富比例最高?他们的钱都是哪来的?谁是最年轻和最老的亿万富翁?目前他们的身价有何变化?每个国家的首富分别是谁?近日,纽约数据科学学院的Nilesh Patel采用爬虫对福布斯富豪榜进行大数据分析,揭开了全球亿万富豪们的财富密码。

世界财富的分布是一个倒金字塔形状的,来自71个国家的2212人共同拥有9.1万亿美元的财富。他们中的大多数人是白手起家,在科技、金融、时尚和体育行业建立起了自己的“帝国”。有一些人事业刚起步时就处在领先位置上,因为他们从自己的家族企业继承了一大笔财产。这个项目就是要通过数据可视化,分析这些富豪们。

▍项目介绍

在数据源方面我选择了福布斯富豪榜(福布斯杂志于1917年发起的富豪排名的榜单)的数据,我用Selenium工具进行了数据爬取。

至于为什么是福布斯?因为它是一家聚焦商业、投资、科技、企业家、领导艺术以及生活方式的超过百年历史的媒体。他现在有超过3800万的社交网络粉丝。重要的是它维护着一个富豪数据库,并且一直进行着及时更新。

▍项目目标

我的项目是为了回答下面的所有问题:

● 哪个国家的亿万富豪最多?

● 男女比例如何?

● 哪个国家的富豪拥有的财富比例最高?

● 他们的钱都是哪来的?

● 谁是最年轻和最老的亿万富翁?

● 目前他们的身价有何变化?

● 每个国家的首富分别是谁?

▍数据爬取

爬取数据的过程如下:

● 进入福布斯亿万富翁专题首页

● 找到页面的URL地址

● 爬取每个人的细节信息(排名、姓名、身价、年龄、收入来源、国籍、性别)

● 在过程中寻找X path时遇到一些麻烦,因为有时候扫描全网页会发现并没有什么独特的X path

● 对于性别和最新身价的信息,我单独进行了爬取,因为它们和其他信息不在同一页面

▍数据清洗

在得到初步的数据后,新的挑战是如何清洗数据并不丢失重要信息。我使用了Python Numpy、Pandas、正则表达式以及其他方法。我利用我拥有的另一组数据框架,给我的数据增加了两列。之后我增加了一列数据,它显示的是年初的身价和最新身价相比的变化。

 

清洗后的数据长这样:

▍数据清洗

在制作数据可视化图表时,我使用了Matplotlib和Seaborn文库包。

● 哪个国家亿万富翁数最多?

从下图可以看到,美国最多,有585名亿万富翁,其次是中国,有373名。之后是德国、印度和俄罗斯。

● 男女比例

男性1972人,占比89.2%,女性240人,占比10.8%。我自己是觉得有点吃惊,我本来以为女性占比会更多一些。

● 哪个国家亿万富翁们的财富占整体的比例最高?

如我们所期待的那样,美国排名第一,而且由于数据和其他国家情况差别很大,所以没有在图中展示。第二是中国。第三到第五比较有意思,分别是巴西、加拿大和澳大利亚。

● 最主要的收入来源?

下图可以看出人们的收入来源都很相似,地产收入是所有人的重要收入来源,投资排在第二。药物、零售、对冲基金、银行等也是很重要的收入来源。

● 最年轻和最老的富翁

在分析年龄方面我做了一个直方图,我发现大多数人的年龄在50到75岁之间,平均年龄是63岁,中位数是64岁。

最年轻的亿万富翁是安德烈森,她是丹麦人,年龄22岁,身价达到14亿美元。最老的是新加坡航运公司的创始人Chang Yun Chung,今年已经100岁了,身价为19亿美元。

● 身价最新变化

下图是前11位富豪在2018年1月和10月的身价变化。

● 各国首富

下图是各国首富的身价以及具体的信息。美国首富贝索斯,身价在1470亿美元左右。

▍结论

这个项目只是一个开始,并没有结束。未来,我希望对过去5年的情况进行分析,这样可以更好地看到这些变量带来的影响。此外我还希望解答下列问题:

● 哪些人加入或者离开了这个富豪榜?

● 富豪个人的排名等变化如何影响了他们的国家?

● 他们每年的财产增减幅度是怎样的?

关于作者:

Nilesh Patel 拥有通信工程学位,最初曾担任程序员,之后在商业方面积累了许多工作经验。他是纽约数据科学院的数据科学家,他喜欢团队合作,并且工作努力,热衷于发现新的方式来解决各种问题。

关于纽约数据科学学院

纽约数据科学学院 (NYC Data Science Academy) 成立于2013年,是美国行业领先的数据科学教学机构。学院提供最高质量的数据科学和数据工程培训,致力于推进全球数据科学和大数据应用进程、以及向企业界输送数据分析人才。欲了解更多欢迎扫描下方二维码关注纽约数据科学学院官方公号。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-01-25
大数据分析福布斯富豪榜 揭开全球亿万富豪们的财富密码
哪个国家的亿万富豪最多?男女比例如何?哪个国家的富豪拥有的财富比例最高?他们的钱都是哪来的?谁是最年轻和最老的亿万富翁?目前他们的身价有何变化?每个国家的首富分别是谁?近日,纽约数据科学学院的Nilesh Patel采用爬虫对福布斯富豪榜进行大数据分析,揭开了全球亿万富豪们的财富密码。

长按扫码 阅读全文

Baidu
map