Python图书阅读路径
1.Python数据分析基础
链接:https://pan.baidu.com/s/1GwYla9Z4vfmidPPedOF3KA
提取码:4hv7
复制这段内容后打开百度网盘手机App,操作更方便哦
前言~
Python目前是入门者学习编程的首选语言,它不仅被应用于传统的编程任务,如Web应用程序设计;也被大量“被赶鸭子上架的程序员”——科学家、数据专员以及工程师所采用,他们编程并非出于兴趣,而是必须靠编程才能在自己的领域中更进一步。一门简单的编程语言为业余编程人员提供的便利是不容小觑的。
本书面向的读者
按照书中的介绍:
本书面向的读者主要是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。
Lemon觉得这个范畴还是很清晰的。当然,Lemon阅读完这本书之后,觉得范围也可以适当的拓宽些,包括经常处理电子表格的、需要定期生成报表的、有一定的数据可视化需求的、以及需要对数据进行统计性描述的,都可以参考下本书的部分内容。
对于这点,Lemon也是深有感触。前些年,Lemon还没有开始学Python ,当时管理许多的项目,用Excel处理数据感觉有些力不从心。于是,开始寻找解决方案,找了一圈,最后发现微软的Access,用SQL语句撸了一个小型的项目管理工具。现在看来,如果当时会Python,会方便很多。
内容介绍
本书展示如何用 Python 程序将不同格式的数据处理和分析任务规模化和自动化。主要内容包括 :Python 基础知识介绍、CSV 文件和 Excel 文件读写、数据库的操作、示例程序演示、图表的创建,等等。
阅读完本书,读者将能掌握基本Python编程方法,学会编写出处理电子表格和数据库中的数据的脚本,并了解使用Python模块来解析文件、分组数据和生成统计量的方法。
● 学习基础语法,创建并运行自己的Python脚本
● 读取和解析CSV文件
● 读取多个Excel工作表和工作簿
● 执行数据库操作
● 搜索特定记录、分组数据和解析文本文件
● 建立统计图并绘图
● 生成描述性统计量并估计回归模型和分类模型
● 在Windows和Mac环境下按计划自动运行脚本
高级库总结
这里是对你会经常接触的重要的库的简要总结:
NumPy:拥有大量的科学计算的核心功能。由于它的内部运算是通过C语言实现的,所以比用Python写成的同样的函数,它的速度会快许多。但它并不是最用户友好的包。
SciPy:跟NumPy非常相似,但是有更多的方式来从分布中取样,计算检验统计量,等等。
MatPlotLib:主要的画图框架。不太讨喜,但却是必备的包。
Seaborn:在导入MatPlotLib包之后导入Seaborn包,默认地,它会使你的绘图变得漂亮许多。它也有一些独特的功能,但是我发现它最酷炫的功能运行起来实在太慢了。
Pandas:基本上是对NumPy/SciPy进行轻量的包装,使它们更用户友好一些。对于和表格数据交互非常理想,Pandas中把表格数据称为数据框(DataFrame)。对画图功能也有一些包装,使得无需使用MPL(Meta-Programming Library,元编程库)就可以快速实现画图。我使用Pandas而非其他的工具来操作数据。
Scikit-learn:包含大量的监督和非监督机器学习算法,以及许多做模型选择的度量工具,是一个优秀的预处理库。这个预处理库可以做主成分分析(Principal Component Analysis),对分类变量进行编码,等等。
小技巧
1. 在Jupyter笔记本中,在运行代码块(Cell)前,于任何一个对象前放置一个问号,它会为你打开这个对象的文档。在你遗忘了你所使用的函数的细节的时候,这是非常方便的。比如说,my_dataframe.apply会解释pandas.DataFrame对象中的apply方法,而这个my_dataframe是pandas.DataFrame的一个实例。
2. 无论你在使用什么库,你通常都需要一直查阅文档,那么就干脆一直在浏览器中打开它。可选变量以及细微的差别实在是太多了。
3. 当你遇到无可避免的故障检修的时候,stackoverflow上也许已经有了问题的答案。
4. 接受这个事实吧:你正在做并不是完全理解的事情,又或者你会被并不重要的细节拖入泥淖。某一天你也许需要理解虚拟环境,它并没有那么困难,只是会有一些弯路给新手增加一些不必要的痛苦而已。
5. 阅读别人的代码。这是最好的方式,可以学习到规范,也是最佳的实践。这就是Kaggle kernels能够帮助你的地方。Github同样也支持在浏览器中展示Jupyter笔记本。互联网上有大量的例子可供参考学习。
书中的Python环境
书中的代码使用的Python版本是Python 3.5版,本书作者在Windows平台对代码进行测试的,如果你电脑上的Python版本是3.5以及之上,应该是可以运行的。
由于Python是跨平台的,因此,Windows、Linux以及MacOS系统应该都没问题。
对用Python安装,书中推荐安装Anaconda ,Lemon一般也是直接安装 Anaconda,主要是比较省事。
关于Python环境的安装,这个还是需要自己去弄。不同的电脑环境,有时候会出现一些小小的问题,这个主要还是需要自己通过搜索来解决。
书中的代码,原书作者已经发布其Github上,大家可以免费去获取,地址如下:
https://github.com/cbrownley/foundations-for-analytics-with-python
数据文件处理
书中花了比较大的篇幅来讲解关于数据文件的处理,主要包括CSV文件、Excel文件以及数据库。
对于数据分析入门而言,可能遇到比较多的文件类型还是Excel和CSV,所以书中对这两类介绍也是比较多。
书中介绍了用Python脚本、内置模块、第三方库等途径来操作这两类文件,涉及到内置CSV模块、Xlrd、Xlwt等。对于需要读取数据,尤其是需要写入数据,用这些工具还是挺方便的。
如果只是读取数据,然后进行数据清洗等处理,Lemon一般喜欢用Pandas 。
此外,对于数据库,书中也介绍了内置的Sqlite3模块,以及流行的数据库MySQL 。
数据可视化
主要涉及四个可视化库,分别是Matplotlib、Pandas、ggplot和seaborn 。
除了ggplot ,其余三个, Lemon也是经常使用的。
下面分享一个随书的案例:
运行后效果如下:
关于Matplotlib,前不久Lemon整理了一份100个项目入门Matplotlib的内容,有兴趣的同学可以前往查看:
100个案例,Matplotlib从入门到大神
自动运行脚本
Lemon觉得还有一个内容估计大家是感兴趣的,那就是使用Python来按计划自动运行脚本,由于是在商业环境中,有一些需要定期上报的内容,比如日报、周报、月报、季报,年报等(特别烦!!!)。
前不久,阿里取消周报,都能上热搜,可见这些报表多么重要,又是多么招人厌!
如果你用Python来自动运行一些格式高度一致的内容,那自然会省事很多。别人在埋头苦干的时候,估计你就有功夫摸鱼啦。
小结
在本书的封面,给本书的定位是“零基础经验也可学会用最火的Python语言进行数据分析”,如果你想用Python来进行数据分析,本书可以作为初级参考书来使用。
转载请注明:XAMPP中文组官网 » 百度网盘分享《Python数据分析基础》下载与源码