资讯专栏INFORMATION COLUMN

pythonpdfplumber库成批提取pdf表格内容转换成excel

89542767 / 501人阅读

  此篇文章关键给大家介绍了python使用pdfplumber库成批提取pdf表格内容转换成excel格式的实例详细说明,感兴趣的小伙伴可以参考借鉴一下,希望可以有一定的帮助,祝愿大家多多的发展,尽早涨薪

  要求

  需要提取pdf的信息,储存到excel中。尽管是完全可以运用WPS将pdf文件导出成excel,但是这个作用是收取费用的,而且如果把很多pdf转excel的情况下,手动式去导出是很用时的。我们能运用python的第三方工具库pdfplumber迅速进行隐私功能。

  一、完成设计效果图

03.png

  二、pdfplumber库

  pdfplumber是1个开源系统python工具库-,能够容易地获得pdf的所有信息,包含文字、报表、数据图表、规格等。进行大家文中的需要,关键使用pdfplumber提取pdf表格内容。

  组装指令

  pipinstallpdfplumber

  三、代码编写

  1、导进相关包

  importpdfplumber
  importpandasaspd

  2、载入pdf,并获得pdf的页码

  pdf=pdfplumber.open("/Users/wangwangyuqing/Desktop/1.pdf")
  pages=pdf.pages

  3、获取多带带pdf文件,储存成excel

  iflen(pages)>1:
  tables=[]
  foreachinpages:
  table=each.extract_table()
  tables.extend(table)
  else:
  tables=each.extract_table()
  data=pd.DataFrame(tables[1:],columns=tables[0])
  data
  data.to_excel("/Users/wangwangyuqing/Desktop/1.xlsx",index=False)

  4、提取文件夹下多个pdf文档,储存成excel

  importos
  importglob
  path=r'/Users/wangwangyuqing/Desktop/pdf文件'
  forfinglob.glob(os.path.join(path,"*.pdf")):
  res=save_pdf_to_excel(f)
  print(res)
  defsave_pdf_to_excel(path):
  #print('文件夹名称为:',path.split('/')[-1].split('.')[0]+'.xlsx')
  pdf=pdfplumber.open(path)
  pages=pdf.pages
  iflen(pages)>1:
  tables=[]
  foreachinpages:
  table=each.extract_table()
  tables.extend(table)
  else:
  tables=each.extract_table()
  data=pd.DataFrame(tables[1:],columns=tables[0])
  file_name=path.split('/')[-1].split('.')[0]+'.xlsx'
  data.to_excel("/Users/wangwangyuqing/Desktop/data/{}".format(file_name),index=False)
  return'保存成功!'

  总结

  python中还有一些库能够解决pdf,例如PyPDF2、pdfminer等,文中挑选pdfplumber的主要原因是可以轻松浏览相关PDF的所有详细资料,包含创作者、由来、时间等,而且用以提取特征和报表的办法灵便支持定制。你们可以依据手头上数据需求,前去开启pdfplumber的大量使用方法。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/129052.html

相关文章

  • .NET图像处理ImageGear for .NET v23,新增AcroForm功能和亚洲OCR

    摘要:亚洲包括中文日文和韩文的语言自动检测和输出增加了其先进的光学字符识别功能。语言支持亚洲支持横向和纵向文字的亚洲语言。此功能可以帮助你的业务在亚洲市场取得成功。目前该功能仅适用于。 ImageGear for .NET是一款图形图像处理控件,可以轻松地为程序添加扫描/压缩/条形码识别/PDF/文件查看与处理/图形编辑与处理等功能。具有扫描,压缩,浏览、添加注释,打印,图像编辑,OCR以及...

    zhongmeizhi 评论0 收藏0
  • 分享一个免费的在线表格转换工具 - TableConvert

    摘要:是一个可以在线转换表格的工具,支持表格表格和表格,并且还内嵌了一个表格编辑器,像微软的一样编辑,使用非常方便。拿到对应表格的后,可以直接在文档中使用该文本。 showImg(https://segmentfault.com/img/bVbwJCE?w=1200&h=674); TableConvert 是一个可以在线转换表格的工具,支持 Markdown 表格、CSV、JSON、XML...

    邹强 评论0 收藏0
  • #私藏项目实操分享# 使用 JavaScript 上传 PDFExcel 等二进制文件到 AB

    摘要:这是年的第篇文章,也是汪子熙公众号总共第篇原创文章。使用通过格式发送和文件到服务器关于格式的详细说明,参考开发社区和的文档我在前文例子的基础上稍作修改在里使用两个类型为的标签,分别上传和文件用来测试的本地文件,大小为字节。 这是 Jerry 2021 年的第 71 篇文章,也是汪子熙公众号总共第 348 篇原创文章。 Jerry 之前发布过一篇文章 不使用任何框架,手写纯 Jav...

    peixn 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做一些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    SQC 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<