资讯专栏INFORMATION COLUMN

python简单的分析文本

_ipo / 3187人阅读

摘要:读取文件内容,正则去除非中英文字符,正则去除非中英文字符筛选出所有英文单词筛选出所有英文单词筛选出所有的中文筛选出所有的中文如果参数为空,则按照从高频到低频依次全部打印打印频率最高的五个字符反序输出打印大于等于小于指定值的转化成取得

import collections
import re


#读取tips.txt文件内容,type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:
    
    mytips=tip.read().lower()

#正则去除非中英文字符,
strip_file=re.sub(r"W+","",mytips)
print("正则去除非中英文字符:
{}".format(strip_file))
print()

#筛选出所有英文单词
only_enlish=re.findall(r"[a-z]+",mytips)
print("筛选出所有英文单词:
{}".format(only_enlish))

#筛选出所有的中文
only_chinese=re.sub(r"[a-z1-9W]+","",mytips)
only_chinese_split=[c for c in only_chinese]
print("筛选出所有的中文
{}".format(only_chinese_split))

#如果most_common()参数为空,则按照从高频到低频依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印频率最高的五个字符{}".format(most_comm_word))


#sorted(iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序输出most_comm_word{}".format(low_comm_word))

#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4)指定值的most_comm_word{}".format(specified_most_comm_word))

#转化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print("转化成字典:{}".format(dict_most_comm_word))

#zip在python3中是惰性计算,需要转化成list
word,count=list(zip(*most_comm_word))
print("多带带打印word:{}".format(word))
print("多带带打印count:{}".format(count))

#defaultdict简单应用
#分析单词出现的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):
    enlish_dict[v].append(k)
print("统计每个单词出现的位置:{}".format(enlish_dict))


#orderdict简单应用
#单词从a-z进行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print("单词从a-z进行排序:
{}".format(order_english_dict))

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/44558.html

相关文章

  • Python文本分析:2016年政府工作报告有哪些高频词?

    摘要:据小编简单了解,已知对工作报告高频词汇进行梳理的媒体包括法制日报和新华网。高频词词频年以来政府工作报告中的提及总数发展经济改革建设社会推进创新政策企业加强下面是新华网数据新闻部统计的高频词汇。 本文首发于微信公众号号编程派。微信搜索编程派,获取更多Python编程一手教程及优质资源吧。 上周六,总理在大会堂作政府工作报告,全球媒体瞩目。每年都会有媒体对报告中的高频词汇进行梳理,我们也可...

    CntChen 评论0 收藏0
  • 【正经AI on Python入门系列】1.2 斗图工具优化——文本宽度自适应(来做点小数据分析

    摘要:在上一篇文章图工具的优化实现文本居中中,我们已经实现了对插入字体的左中右对齐显示,那因为上期文章混进去了不少语法讲解,所以后面的内容就顺延到这啦,哈哈哈。 showImg(https://segmentfault.com/img/bVbeIu4?w=250&h=250); 在上一篇文章【图工具的优化——实现文本居中】中,我们已经实现了对插入字体的左中右对齐显示,那因为上期文章混进去了不...

    fireflow 评论0 收藏0
  • Python 提取《釜山行》人物关系

    摘要:项目代码下载地址基于共现提取釜山行人物关系更多经典项目全部项目 项目简介:本项目将带大家使用 Python 提取《釜山行》人物关系,对于给定的剧本文本,通过分析文本中人物的共现关系,提取整个文本表示的人物关系,并将人物关系可视化表示。本项目教程由Forec发布在实验楼。 一、项目介绍 1. 内容简介 《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。这个项目将介...

    hoohack 评论0 收藏0
  • Python——基本数据类型(模块2: time库使用)(实例3:文本进度条)

    摘要:前言本篇主要介绍基本数据类型,以文本进度条为例,介绍库的使用。 前言 本篇主要介绍基本数据类型,以文本进度条为例,介绍time库的使用。 并在最后对蟒蛇绘制的代码进...

    Jenny_Tong 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<