另类爬虫：从PDF文件中爬取表格数据

Anchorer 发布于2019-07-31 11:14 / 3901人阅读

摘要：本文将展示如何利用的模块从文件中爬取表格数据。但如何从文件中提取其中的表格，这却是一个大难题。我们以输出文件为例从文件中提取表格将表格数据转化为文件得到的文件如下例在例中，我们将提取页面中的某一区域的表格的数据。

简介

本文将展示一个稍微不一样点的爬虫。
以往我们的爬虫都是从网络上爬取数据，因为网页一般用HTML,CSS,JavaScript代码写成，因此，有大量成熟的技术来爬取网页中的各种数据。这次，我们需要爬取的文档为PDF文件。本文将展示如何利用Python的camelot模块从PDF文件中爬取表格数据。
在我们的日常生活和工作中，PDF文件无疑是最常用的文件格式之一，小到教材、课件，大到合同、规划书，我们都能见到这种文件格式。但如何从PDF文件中提取其中的表格，这却是一个大难题。因为PDF中没有一个内部的表示方式来表示一个表格。这使得表格数据很难被抽取出来做分析。那么，我们如何做到从PDF中爬取表格数据呢？
答案是Python的camelot模块！
camelot是Python的一个模块，它能够让任何人轻松地从PDF文件中提取表格数据。可以使用以下命令安装camelot模块（安装时间较长）：

pip install camelot-py

camelot模块的官方文档地址为：https://camelot-py.readthedoc...。
下面将展示如何利用camelot模块从PDF文件中爬取表格数据。

例1

首先，让我们看一个简单的例子：eg.pdf，整个文件只有一页，这一页中只有一个表格，如下：

使用以下Python代码就可以提取该PDF文件中的表格：

import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf("E://eg.pdf", pages="1", flavor="stream")

# 表格信息
print(tables)
print(tables[0])
# 表格数据
print(tables[0].data)

输出结果为：



[["ID", "姓名", "城市", "性别"], ["1", "Alex", "Shanghai", "M"], ["2", "Bob", "Beijing", "F"], ["3", "Cook", "New York", "M"]]分析代码，camelot.read_pdf()为camelot的从表格中提取数据的函数，输入的参数为PDF文件的路径，页码（pages）和表格解析方法（有stream和lattice两个方法）。对于表格解析方法，默认的方法为lattice，而stream方法默认会把整个PDF页面当做一个表格来解析，如果需要指定解析页面中的区域，可以使用table_area这个参数。
  camelot模块的便捷之处还在于它提供了将提取后的表格数据直接转化为pandas，csv，JSON，html的函数，如tables[0].df，tables[0].to_csv()函数等。我们以输出csv文件为例：
import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf("E://eg.pdf", pages="1", flavor="stream")

# 将表格数据转化为csv文件
tables[0].to_csv("E://eg.csv")
得到的csv文件如下：
例2  在例2中，我们将提取PDF页面中的某一区域的表格的数据。PDF文件的页面（部分）如下：
为了提取整个页面中唯一的表格，我们需要定位表格所在的位置。PDF文件的坐标系统与图片不一样，它以左下角的顶点为原点，向右为x轴，向上为y轴，可以通过以下Python代码输出整个页面的文字的坐标情况：
import camelot

# 从PDF中提取表格
tables = camelot.read_pdf("G://Statistics-Fundamentals-Succinctly.pdf", pages="53", 
                          flavor="stream")

# 绘制PDF文档的坐标，定位表格所在的位置
tables[0].plot("text")
输出结果为：
UserWarning: No tables found on page-53 [stream.py:292]
整个代码没有找到表格，这是因为stream方法默认将整个PDF页面当作表格，因此就没有找到表格。但是绘制的页面坐标的图像如下：
仔细对比之前的PDF页面，我们不难发现，表格对应的区域的左上角坐标为（50,620），右下角的坐标为（500,540）。我们在read_pdf()函数中加入table_area参数，完整的Python代码如下：
import camelot

# 识别指定区域中的表格数据
tables = camelot.read_pdf("G://Statistics-Fundamentals-Succinctly.pdf", pages="53", 
                          flavor="stream", table_area=["50,620,500,540"])

# 绘制PDF文档的坐标，定位表格所在的位置
table_df = tables[0].df

print(type(table_df))
print(table_df.head(n=6))
输出的结果为：

         0               1                2           3
0  Student  Pre-test score  Post-test score  Difference
1        1              70               73           3
2        2              64               65           1
3        3              69               63          -6
4        …               …                …           …
5       34              82               88           6
总结  在具体识别PDF页面中的表格时，除了指定区域这个参数，还有上下标、单元格合并等参数，详细地使用方法可参考camelot官方文档网址：https://camelot-py.readthedoc...。
注意：本人现已开通微信公众号： Python爬虫与算法（微信号为：easy_web_scrape）， 欢迎大家关注哦~~
参考文献camelot模块的官方文档：https://camelot-py.readthedoc...
Camelot：一个从pdf抽取表格数据的Python库：https://blog.csdn.net/qq_4092...

                 
                                                                                                                    
                         GPU云服务器
                                             
                         云服务器
                                                                                                                                                 
                                      
                     
                    
                                                                                               中爬取
                                                                                                           爬虫爬取数据
                                                                                                           java爬虫爬取数据
                                                                                                           js如何从表格里获取数据
                                                         
                 
               
              

                    文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。
                 
                   转载请注明本文地址：https://www.ucloud.cn/yun/44853.html
               

                 
                                  上一篇：Scrapy 实战之爬取妹子图  
                                                
                                       下一篇：【虫术】资深爬虫师带你爬取代理IP
                                  

                相关文章
                
                             
                                                                                                    
                                                
                          爬虫 - 收藏集 - 掘金
                                                     摘要：在这之前，还是有必要对一些概念超轻量级反爬虫方案后端掘金前言爬虫和反爬虫日益成为每家公司的标配系统。

爬虫修炼之道——从网页中提取结构化数据并保存（以爬取糗百文本板块所有糗事为例） - 后端 - 掘金欢迎大家关注我的专题：爬虫修炼之道 上篇 爬虫修炼之道——编写一个爬取多页面的网络爬虫主要讲解了如何使用python编写一个可以下载多页面的爬虫，如何将相对URL转为绝对URL，如何限速，...
                                                   
                          
                                
                                    1fe1se
                                    2019-07-31 10:58
                                    评论0 
                                    收藏0 
                                
                          
                      
                     
                                                                                       
                                                
                          记一次还可以抢救一下的爬虫私活，求接盘!
                                                     摘要：前言最近接了一个爬虫的私活，收益颇丰。项目需求一个类似百度文库的网站，要求给出获得文章，以形式保存下来。但是这次需要保存到这不难，难在要求格式不变。文章都是以许多标签组合在一起的。知情人请告知，感激不尽。

前言
最近接了一个爬虫的私活，收益颇丰。自认为对爬虫掌握的还算不错，爬过很多国内外网站，数据超过百万，应对过封IP、设验证码、假数据、强制登录等反爬虫手段。于是乎，我毫不犹豫的接下了...
                                                   
                          
                                
                                    alanoddsoff
                                    2019-07-31 10:19
                                    评论0 
                                    收藏0 
                                
                          
                      
                     
                                                                                       
                                                
                          python爬虫——爬取小说  |  探索白子画和花千骨的爱恨情仇
                                                     摘要：先打开花千骨小说的目录页，是这样的。网页结构分析首先，目录页左上角有几个可以提高你此次爬虫成功后成就感的字眼暂不提供花千骨全集下载。打开盘查看花千骨文件。


知识就像碎布，记得缝一缝，你才能华丽丽地亮相。

1.Beautiful Soup
1.Beautifulsoup 简介
此次实战从网上爬取小说，需要使用到Beautiful Soup。Beautiful Soup为python的...
                                                   
                          
                                
                                    newsning
                                    2019-07-30 14:30
                                    评论0 
                                    收藏0 
                                
                          
                      
                     
                                                                                       
                                                
                          使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~
                                                     摘要：上面只爬取了京东首页的图片内容，假设我的需求进一步扩大，需要爬取京东首页中的所有标签对应的跳转网页中的所有的文字内容，最后放到一个数组中。

showImg(https://segmentfault.com/img/bVbtVeV?w=3840&h=2160);
本文适合无论是否有爬虫以及Node.js基础的朋友观看~
需求：

使用Node.js爬取网页资源，开箱即用的配置
将爬取到的...
                                                   
                          
                                
                                    seasonley
                                    2019-08-30 11:12
                                    评论0 
                                    收藏0 
                                
                          
                      
                     
                                                                           
                
              

                  
                  发表评论
                   
                                      
                      
                        登陆后可评论
                      
                   
               

                
                  0条评论   
                 
                      
              

               
                
                    
                    Anchorer
                    男|高级讲师
                    
                     
                                                                      我要关注
      
                                                                                        我要私信
                     
                                            
                    
                    
                          TA的文章
                          阅读更多
                    
                      
                                                  实用的 CSS — 贝塞尔曲线(cubic-bezier)
                            阅读 1760·2019-08-30 12:51
                                                       2018年底前端面试总结
                            阅读 759·2019-08-29 17:30
                                                       初识css层叠上下文
                            阅读 3815·2019-08-29 15:17
                                                       CSS用法的一些总结
                            阅读 929·2019-08-28 18:10
                                                       UCloud云主机更新CentOS系统
                            阅读 1473·2019-08-26 17:08
                                                       数组
                            阅读 2292·2019-08-26 12:16
                                                       react native搭建运行环境(一)
                            阅读 3606·2019-08-26 11:47
                                                       拥有一款属于自己的小程序之入门-天气小程序
                            阅读 3603·2019-08-23 16:18
                                                
                      
                

                   
              
  
                  最新活动 
           
         
                    
                      
                                                                                                                       
                          
                                                             
                          
                        
                                                
                          
                                                             
                          
                        
                                                                   
                    
                        
                      
                    
                      
                    
                    
              



                                
              
           

      
    

         阅读需要支付1元查看  
              
       

        
            
              
                    
                    UCloud （优刻得科技股份有限公司）是中立、安全的云计算服务平台，坚持中立，不涉足客户业务领域。公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品，并深入了解互联网、传统企业在不同场景下的业务需求，提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。
              
              
                  
                      
                        UCloud与云服务
                         公司介绍
                         加入我们
                         UCan线上公开课
                         行业解决方案
                                                  产品动态
                      
                      
                        友情链接
                                             GPU算力平台
                                             UCloud私有云
                                             SurferCloud
                                             工厂仿真软件
                                                                                       AI绘画
                                              Wavespeed AI 
                                             
                      
                      
                        社区栏目
                         专栏文章
                     专题地图
                      
                      
                        常见问题
                         安全中心
                         新闻动态
                         媒体动态
                                                  客户案例                                                
                         公告
                      
                      
                          
                          扫扫了解更多
            
            Copyright © 2012-2025 UCloud 优刻得科技股份有限公司｜沪公网安备 31011002000058号｜ 沪ICP备12020087号-3｜ 




 
        
    
<

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

另类爬虫：从PDF文件中爬取表格数据

相关文章

爬虫 - 收藏集 - 掘金

记一次还可以抢救一下的爬虫私活，求接盘!

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇

**使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~**

发表评论

0条评论

Anchorer

男|高级讲师

TA的文章

实用的 CSS — 贝塞尔曲线(cubic-bezier)

2018年底前端面试总结

初识css层叠上下文

CSS用法的一些总结

UCloud云主机更新CentOS系统

数组

react native搭建运行环境(一)

拥有一款属于自己的小程序之入门-天气小程序

最新活动