资讯专栏INFORMATION COLUMN

python docx文档转html页面

Cristalven / 1703人阅读

摘要:文章链接说到文档转的,网上一搜一大把,各种在线转页面,使用起来也方便。这里是对本地的文件进行处理,进一步部署到服务器上,我使用的是的项目,前端页面通过表单进行上传文件。介绍下平台下的代码转换方法,安装这个库,里面有,将文档转成的。

文章链接:https://mp.weixin.qq.com/s/uMb2ziRS1NJ1GXIjofeANg

说到word文档转html的,网上一搜一大把,各种在线word转html页面,使用起来也方便。但是在实际项目中要使用的话,需要自己开发,这里就提供一个简单的方法。
后缀 .doc 和 .docx 都是word文档,doc是word2003以及之前版本保存的文档,docx是word2007、word2010等保存的新型文档,本质都是属于文字排版的文件。注意 这里提供的方法暂时是针对docx的。

这里使用pydocx的库,安装pip3 install pydocx,可以直接对docx文件进行处理,简单粗暴,PyDocX.to_html("**.docx"),返回值就是转换后的html的源码,然后再通过写文件,写到html文件里面。

from pydocx import PyDocX
html = PyDocX.to_html("test.docx")
f = open("test.html", "w", encoding="utf-8")
f.write(html)
f.close()

这里对文件的处理都是当前文件夹下面的,得到的html文件可以直接打开查看,通过对html查看,可以发现文字转换成了P标签,图片使用base64 的方式显示的。

这里是对本地的文件进行处理,进一步部署到服务器上,我使用的是Django的项目,前端页面通过form 表单进行上传docx 文件。

type属性定为file,accept="application/vnd.openxmlformats-officedocument.wordprocessingml.document" 筛选docx 的文件。

使用地址:https://www.manjiexiang.cn/blog/wordtohtml

这里上传的文件是docx格式的word文档,针对doc 的文档,可以手动改成docx后缀名,进行上传使用。 尝试用代码转换成docx,window平台下有相应的库,ubantu 暂时无果,欢迎码友提供解决方法。
介绍下window平台下的代码转换方法,pip3 install pypiwin32安装这个库,里面有win32com,将doc文档转成docx 的。

from win32com import client
word = client.Dispatch("Word.Application")
doc = word.Documents.Open("D:*****.doc") //绝对路径 doc文件
doc.SaveAs("D:*****.docx",16) //保存的docx 文件,绝对路径
doc.Close()
word.Quit()

欢迎关注我的个人博客:https://www.manjiexiang.cn/

更多精彩欢迎关注微信号:春风十里不如认识你
一起学习,一起进步,欢迎上车,有问题随时联系,一起解决!!!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45021.html

相关文章

  • python 实用程序 | PDF Word

    摘要:虽然现在市面上有很多转软件,比如,但大多数的软件是要收费的,并且价格不菲。于是乎我就想到了利用来写个程序,把转成文档。具体的程序逻辑,可以去查看原文。本文首发于公众号痴海,每天分享干货,后台回复,领取最新教程。 showImg(https://segmentfault.com/img/remote/1460000015686184); 阅读文本大概需要 6 分钟。 现在网上有很多文档是...

    sorra 评论0 收藏0
  • Python办公系统WordExcel文件批量编辑

      此篇文章主要是给大家介绍了Python办公系统Word转Excel文件批量编辑实例详细说明,感兴趣的小伙伴可以参考借鉴一下,希望可以有一定的帮助,祝愿大家多多的发展,尽早涨薪。  序言  小伙伴们好,今日有个公务员的小伙伴们授权委托我给他帮帮忙,应该是有一份Word(因为涉及到文档私秘因此原文中具体内容已经做了改动)  一共有近2600条类似格式的表格细栏,每个栏目包括的信息有:  日期  发...

    89542767 评论0 收藏0
  • Python截图识字简单地完成流程

      工作上需要把繁体版转化成简体中文版手机上网找了点材料,接下来本文关键为大家介绍了有关Python完成截图识字的资料,原文中根据案例编码推荐的十分详尽,须要的小伙伴可以参考一下  1、opencc-python  首先介绍opencc中的Python实现库,它具有安装简单,翻译准确,使用方便等优点。对于我们日常的需求完全能够胜任。  1.1安装opencc-python  首先在terminal...

    89542767 评论0 收藏0
  • Python 操作 Word

    摘要:操作用模块读取安装中输入即可安装模块常用函数创建空白文档生成空白读取文档读取现有的建立文档对象获取文档段落读取现有的建立文档对象打印出中每段的样式名称打印每一个段落的文字循环读取每个段落里的内容一个对象是相同样 ...

    Donald 评论0 收藏0
  • 记一次还可以抢救一下的爬虫私活,求接盘!

    摘要:前言最近接了一个爬虫的私活,收益颇丰。项目需求一个类似百度文库的网站,要求给出获得文章,以形式保存下来。但是这次需要保存到这不难,难在要求格式不变。文章都是以许多标签组合在一起的。知情人请告知,感激不尽。 前言 最近接了一个爬虫的私活,收益颇丰。自认为对爬虫掌握的还算不错,爬过很多国内外网站,数据超过百万,应对过封IP、设验证码、假数据、强制登录等反爬虫手段。于是乎,我毫不犹豫的接下了...

    alanoddsoff 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<