摘要:通过查看版本,检查是否已经安装成功测试用例繁体转简体歐幾里得西元前三世紀的希臘數學家欧几里得西元前三世纪的希腊数学家简体转繁体欧几里得西元前三世纪的希腊数学家歐幾里得西元前三世紀的希臘數學家可以通过以下方式直接对文件进行繁简转换
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。
好啦,接下来总结下OpenCC的安装方法,万一以后又用到它了呢?主要参考这篇博客:
检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。
$ yum install cmake $ yum install git
克隆下OpennCC开源项目OpennCC开源项目。
$ git clone https://github.com/BYVoid/OpenCC
编译OpenCC
$ cd OpenCC $ make $ make install
创建libopencc.so.2链接
如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。
$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
通过查看 OpenCC 版本,检查OpenCC是否已经安装成功
$ opencc --version
测试用例
# 繁体转简体 $ echo "歐幾里得 西元前三世紀的希臘數學家" | opencc -c t2s 欧几里得 西元前三世纪的希腊数学家 # 简体转繁体 $ echo "欧几里得 西元前三世纪的希腊数学家" | opencc -c s2t 歐幾里得 西元前三世紀的希臘數學家 # 可以通过以下方式直接对文件进行繁简转换 $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/10105.html
工作上需要把繁体版转化成简体中文版手机上网找了点材料,接下来本文关键为大家介绍了有关Python完成截图识字的资料,原文中根据案例编码推荐的十分详尽,须要的小伙伴可以参考一下 1、opencc-python 首先介绍opencc中的Python实现库,它具有安装简单,翻译准确,使用方便等优点。对于我们日常的需求完全能够胜任。 1.1安装opencc-python 首先在terminal...
Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`/ __` /__`/ _ ` /___ /___/ __`/ / / L L / __// / / \__// \__/ L \_ \____/ ,__/ \____ \_ \_ \____ \____ ,__//`__...
摘要:而腾讯和宝马保时捷,网易和宝马保时捷将会离得较远一些。关于的使用方法,可以参考基于的实践。下面我们分别查看同宝马和腾讯最相近的前个词语。可以发现和宝马相近的词大都属于汽车行业,而且是汽车品牌和腾讯相近的词大都属于互联网行业。 Word2Vec简介 Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与...
摘要:创作缘由对于中文的繁简体转换是一种很常见的需求。存在一个严重的问题特殊词组的转换可能存在问题。是一款非常优秀的转换工具。使用方式引入转为简体生命不息,奮鬥不止结果为生命不息,奋斗不止转为繁体生命不息,奋斗不止结果为生命不息,奮鬥不止 创作缘由 对于中文的繁简体转换是一种很常见的需求。 但是很多工具类都是简单的做个映射。(使用map,集合,properties)等。 存在一个严重的问题:...
摘要:下载数据方法使用官方的数据最新打包的中文文档下载地址是。中文维基数据繁简混杂大家都说存在这个问题,但的网站是将繁体中文和简体中文分开处理的,所以一直觉得从数据库到结构都应有方法将两者区分开,暂罢,待有空研究其数据时再议。 照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:http...
阅读 2712·2021-07-30 15:30
阅读 361·2019-08-30 15:55
阅读 1522·2019-08-26 17:04
阅读 534·2019-08-26 11:36
阅读 1882·2019-08-26 10:58
阅读 3445·2019-08-23 14:34
阅读 1404·2019-08-22 18:48
阅读 2408·2019-08-21 17:51