资讯专栏INFORMATION COLUMN

linux - 安装OpenCC(简体繁体转换)

高璐 / 3601人阅读

摘要:通过查看版本,检查是否已经安装成功测试用例繁体转简体歐幾里得西元前三世紀的希臘數學家欧几里得西元前三世纪的希腊数学家简体转繁体欧几里得西元前三世纪的希腊数学家歐幾里得西元前三世紀的希臘數學家可以通过以下方式直接对文件进行繁简转换

最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。
好啦,接下来总结下OpenCC的安装方法,万一以后又用到它了呢?主要参考这篇博客:

检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。

$ yum install cmake
$ yum install git

克隆下OpennCC开源项目OpennCC开源项目。

$ git clone https://github.com/BYVoid/OpenCC

编译OpenCC

$ cd OpenCC
$ make
$ make install

创建libopencc.so.2链接

如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

通过查看 OpenCC 版本,检查OpenCC是否已经安装成功

$ opencc --version

测试用例

# 繁体转简体
$ echo "歐幾里得 西元前三世紀的希臘數學家" | opencc -c t2s
欧几里得 西元前三世纪的希腊数学家
# 简体转繁体
$ echo "欧几里得 西元前三世纪的希腊数学家" | opencc -c s2t
歐幾里得 西元前三世紀的希臘數學家
# 可以通过以下方式直接对文件进行繁简转换
$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/10105.html

相关文章

  • Python截图识字简单地完成流程

      工作上需要把繁体版转化成简体中文版手机上网找了点材料,接下来本文关键为大家介绍了有关Python完成截图识字的资料,原文中根据案例编码推荐的十分详尽,须要的小伙伴可以参考一下  1、opencc-python  首先介绍opencc中的Python实现库,它具有安装简单,翻译准确,使用方便等优点。对于我们日常的需求完全能够胜任。  1.1安装opencc-python  首先在terminal...

    89542767 评论0 收藏0
  • Python中文繁简体转换工具

    Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`/ __` /__`/ _ ` /___ /___/ __`/ / / L L / __// / / \__// \__/ L \_ \____/ ,__/ \____ \_ \_ \____ \____ ,__//`__...

    SimonMa 评论0 收藏0
  • 基于gensim的Wiki百科中文word2vec训练

    摘要:而腾讯和宝马保时捷,网易和宝马保时捷将会离得较远一些。关于的使用方法,可以参考基于的实践。下面我们分别查看同宝马和腾讯最相近的前个词语。可以发现和宝马相近的词大都属于汽车行业,而且是汽车品牌和腾讯相近的词大都属于互联网行业。 Word2Vec简介 Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与...

    stdying 评论0 收藏0
  • java 中文繁简体转换工具 opencc4j

    摘要:创作缘由对于中文的繁简体转换是一种很常见的需求。存在一个严重的问题特殊词组的转换可能存在问题。是一款非常优秀的转换工具。使用方式引入转为简体生命不息,奮鬥不止结果为生命不息,奋斗不止转为繁体生命不息,奋斗不止结果为生命不息,奮鬥不止 创作缘由 对于中文的繁简体转换是一种很常见的需求。 但是很多工具类都是简单的做个映射。(使用map,集合,properties)等。 存在一个严重的问题:...

    nodejh 评论0 收藏0
  • 中文维基百科文本数据获取与预处理

    摘要:下载数据方法使用官方的数据最新打包的中文文档下载地址是。中文维基数据繁简混杂大家都说存在这个问题,但的网站是将繁体中文和简体中文分开处理的,所以一直觉得从数据库到结构都应有方法将两者区分开,暂罢,待有空研究其数据时再议。 照例,先讲下环境,Mac OSX 10.11.2 ,Python 3.4.3。 下载数据 方法1:使用官方dump的xml数据 最新打包的中文文档下载地址是:http...

    loostudy 评论0 收藏0

发表评论

0条评论

高璐

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<