资讯专栏INFORMATION COLUMN

收藏一个python通过uft8 编码来提取中文的例子

baiy / 2557人阅读

摘要:提取文件中所有中文小程序问题描述从一个文件中提取所有中文思路打开文件读取文件中的文本用正则匹配获取中文将其内容写入到另一个文本中实现设置默认编码只能是下面要求的判断是否为中文的正则表达式打开要提取的文件打开要写入的文件循环读取要读

Python-提取文件中所有中文小程序
问题描述:

   从一个txt文件中提取所有中文

思路:

打开txt文件
读取txt文件中的文本
用正则匹配获取中文
将其内容写入到另一个文本中
python实现:
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding("utf-8") #设置默认编码,只能是utf-8,下面u4e00-u9fa5要求的
import re
pchinese=re.compile("([u4e00-u9fa5]+)+?") #判断是否为中文的正则表达式
f=open("data.txt") #打开要提取的文件
fw=open("getdata.txt","w")#打开要写入的文件
for line in f.readlines(): #循环读取要读取文件的每一行
m=pchinese.findall(str(line)) #使用正则表达获取中文
if m:
str1="|".join(m)#同行的中文用竖杠区分
str2=str(str1)
fw.write(str2)#写入文件
fw.write(" ")#不同行的要换行
f.close()
fw.close()#打开的文件记得关闭哦!

未验证    

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37489.html

相关文章

  • 首次公开,整理12年积累博客收藏夹,零距离展示《收藏夹吃灰》系列博客

    摘要:时间永远都过得那么快,一晃从年注册,到现在已经过去了年那些被我藏在收藏夹吃灰的文章,已经太多了,是时候把他们整理一下了。那是因为收藏夹太乱,橡皮擦给设置私密了,不收拾不好看呀。 ...

    Harriet666 评论0 收藏0
  • unicode和utf8 —— 从一个遍历文件名脚本,谈谈对Python2和Python3中字符编

    摘要:如果传一个中文,下和下编码分别是和,可以自己用打印看看文件中写死,本来理解是跟这个文件本身编码有关,但文件编码同样是的情况下,下打印了的超集,下仍然是。 对编码问题一直一知半解,之前也是得过且过,正好有个同事要我帮忙写个脚本,涉及这方面的问题,借这个契机研究了一下. 先贴几篇比较好的: 1.阮老师的上古文章(07年…),虽然古老但对理解帮助很大,从最基础讲起,逻辑清晰易理解. (ps:...

    宠来也 评论0 收藏0
  • BeautifulSoup:网页解析利器上手简介

    摘要:文档写得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代码中派上用场了。 关于爬虫的案例和方法,我们已讲过许多。不过在以往的文章中,大多是关注在 如何把网页上的内容抓取下来 。今天我们来分享下,当你已经把内容爬下来之后, 如何提取出其中你需要的具体信息 。 网页被抓取下来,通常就是 str 字符串类型的对象 ,要从里面寻找信息,最直接的想法就是直接通过字符串的 find 方法 ...

    Carl 评论0 收藏0

发表评论

0条评论

baiy

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<