资讯专栏INFORMATION COLUMN

在mint下导入csv数据到mongodb中,转换utf8编码

remcarpediem / 2813人阅读

摘要:先将里面的表格预处理清理下复杂格式把第一行置为英文字段名将导出为格式这时在中导入会提示是因为会使用系统编码到处的文件编码在中使用系统自带的转换该文件为格式具体参数可以参考这样转换好的文件就是使用导入安装即自带导入工具

先将excel里面的表格预处理,清理下复杂格式,把第一行置为英文字段名
将xls导出为csv格式: points.csv
这时在mongoimport中导入会提示:
exception:Invalid UTF8 character detected

是因为excel会使用系统编码到处GBK的文件编码.
在linux-mint中,使用系统自带的iconv转换该文件为utf8格式

iconv -f gbk -t UTF-8 points.csv > points_utf8.csv

具体参数可以参考:
iconv --help

这样转换好的文件就是points_utf8.csv
使用mongoimport导入(安装mongodb即自带导入工具)
mongoimport -d test -c students --type csv --file ./points_utf8.csv --headerline --upsert

同样 具体参数解释可以参见 mongoimport -h
points里面的内容就会被转换到mongodb:test db的students集合中.
每一行作为一个object有一个唯一的id,之前在表格中定义的headerline为key的document插入.

{ "_id" : ObjectId("553edfdac4e551239d3c975b"), "name" : "张三", "teamName" : "某某班", "ss1" : 12, "ss2" : "", "ss3" : 37, "ss4" : 45, "ss5" : "", "ss6" : "", "ss7" : 18, "ss8" : 24, "ss9" : 17, "ss10" : 11, "ss11" : 9, "ss12" : 15, "ss13" : 10, "ss14" : 13, "ss15" : 24, "ss16" : 26, "po1" : 21, "po2" : 38, "fn1" : "", "fn2" : 25, "fn3" : 23 }

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/18759.html

相关文章

  • 80行代码爬取豆瓣Top250电影信息并导出csv数据

    摘要:查看源码下载页面并处理提取数据观察该网站结构可知该页面下所有电影包含在标签下。使用语句获取该标签在标签中遍历每个标签获取单个电影的信息。以电影名字为例清洗数据其余部分详见源码页面跳转检查后页标签。 查看源码 1 下载页面并处理 DOWNLOAD_URL = http://movie.douban.com/top250/ html = requests.get(url).text tr...

    galaxy_robot 评论0 收藏0

发表评论

0条评论

remcarpediem

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<