Python数据分析:利用机器学习发掘行业指数分布

发布日期:2021-01-19 08:537 文章来源:友链网 点击:

Python数据分析:利用机器学习发掘行业指数分布情况02

本文将继续通过数据分析对影响涨幅的因子进行探索和分析,前一篇可以算作是数据预处理的一种思路,它告诉我们必须对于自身使用的数据要了解和熟悉,所以才能够有的放矢的对数据进行合理的处理。这一篇则是通过简单的统计学中的相关性进行探索,配上热力图进行图文说明。下一篇,将进行机器学习的无监督学习的探索,希望能够发掘出更多有趣的结论,敬请期待。

三、对数据相关性说明:

print(df01.corr())

数据展示:


由于数据过大,导致手机无法访问和阅读,所以删除展示。

可视化展示之热力图:

import matplotlib.pyplot as plt
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']#显示中文
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

#相关性检查
df01corr=df01.corr()
import seaborn as sns
sns.heatmap(df01corr,xticklabels=df01corr.columns.values,
            yticklabels=df01corr.columns.values)

plt.show()
Python数据分析:利用机器学习发掘行业指数分布情况02

 

这个热力图看起来不是很清楚,我们再进行调整一下:

#相关性检查
df01corr=df01.corr()
#以涨幅为关键字进行排序,降序处理,与后面的热力图刻度保持一致,便于观察和分析
df01corr=df01corr.sort_values(by='涨幅%',ascending=False)
# print(df01corr)

import seaborn as sns
sns.heatmap(df01corr,xticklabels=df01corr.columns.values,
            yticklabels=df01corr.columns.values)
#将x轴标签进行45度调整,便于观察
plt.xticks(rotation = 45)
plt.show()
Python数据分析:利用机器学习发掘行业指数分布情况02

 

量比是衡量相对成交量的指标。它是指股市开市后平均每分钟的成交量与过去5个交易日平均每分钟成交量之比。其计算公式为:量比=(现成交总手数 / 现累计开市时间(分) )/ 过去5日平均每分钟成交量。

这是笔者的浅谈,大家可以结合代码和数据自行运行得出更多的结论。一天的分析肯定是不够的,所以笔者将进行封装以后,将有空进行测试和分析,便于得出更为有利的证据来证明。

Python数据分析:利用机器学习发掘行业指数分布情况02