资讯专栏INFORMATION COLUMN

MySQL 乱码之我见

Mike617 / 2536人阅读

摘要:的字符集支持有两个方面字符集和排序方式。具体使用那种编码解码方式就是根据以及表对应的字符集,如果没有显示的指定,那么会有一个默认值。通过上面这些例子可以得出结论,只有当与表的字符集一致才不会出现乱码。

先着重介绍一下mysql的字符集,这样能对产生mysql的根源有一个了解。
mysql 的字符集支持有两个方面:字符集(Character set)和排序方式(Collation)。另外对于字符集的支持细化到四个层次: 服务器(server),数据库(database),数据表(table)和连接(connection)。

连上mysql 后使用status 命令,可以看到类似如下输出:

>mysql status
Connection id:          305
Current database:
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    utf8
Client characterset:    utf8
Conn.  characterset:    utf8

Server characterset 就是mysql默认字符集,当创建数据库没有指定字符集时数据库就采用此默认值。可以在mysql的配置文件中的 mysqld 段中对此值进行修改

[mysqld]
port        = 3306
socket      = /tmp/mysql.sock
character-set-server = utf8
collation-server = utf8_general_ci 

Db characterset:是当前数据库默认的字符集,当创建表时没有指定字符集,此表就使用当前默认值。例如创建一个 db_test 数据库,字符集使用 latin1

CREATE DATABASE `db_test` CHARACTER SET "latin1" COLLATE "latin1_swedish_ci";

use db_test;

然后再使用 status 命令,可以看到这个时候 Db characterset 变为 latin1 了

>mysql status
Connection id:          305
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

在数据库中分别创建两种表 test1 和 test2,其中 test1 使用默认字符集, test2 指定字符集为GBK

create table test1 (name varchar(20));

create table test2 (name varchar(20)) default charset=GBK;

使用 show create table 命令查看上述两张表,可以看到 test1 使用了当前数据库的默认字符集latin1,而test2使用的字符集是GBK。

mysql> show create table test1;
+-------+-------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                    |
+-------+-------------------------------------------------------------------------------------------------+
| test1 | CREATE TABLE `test1` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+-------+-------------------------------------------------------------------------------------------------+

mysql> show create table test2;
+-------+----------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                 |
+-------+----------------------------------------------------------------------------------------------+
| test2 | CREATE TABLE `test2` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=gbk |
+-------+----------------------------------------------------------------------------------------------+

mysql 存储信息最终是已二进制的形式来存储的。所以在存储之前就需要对信息进行编码,同时从数据库读取信息后需要解码。具体使用那种编码、解码方式就是根据Client characterset以及表对应的字符集,如果没有显示的指定,那么会有一个默认值。当使用命令行的方式连接mysql,可以在mysql 配置中 mysql 段来指定默认Client characterset。例如:

[client]
port        = 3306
socket      = /tmp/mysql.sock
default-character-set   = utf8

也可以使用在连接时候指定

mysql -uroot -p --default-character-set=utf8 

另外在登录mysql 后也可以使用 set names 来指定

set names utf8

关于优先级,set names utf8 最高,mysql -uroot -p --default-character-set=utf8 其次、my.cnf 最后。

上面对字符集做了一个简单的介绍,建议大家也把上面的mysql 命令试一下,这样理解或更加深刻。现在再来说一下乱码的情况,一般出现乱码就是因为字符集(编码)不同,换句话说就是当字符集(编码)一致时就不会出现乱码。前面介绍了一下字符集,所以知道了好几种,那到底是需要什么字符集一致呢?答案是:Client characterset 与 数据库表的字符集。 下面还是通过例子来说明,使用上面创建的表 test1。

由于test1使用的字符集是 latin1,那么使用下面的方式连上mysql

mysql -uroot -p  db_test --default-character-set=latin1

再次确认一下Client characterset 与 数据库表的字符集

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    latin1
Conn.  characterset:    latin1

-------------------------

mysql> show create table test1;
+-------+-------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                    |
+-------+-------------------------------------------------------------------------------------------------+
| test1 | CREATE TABLE `test1` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+-------+-------------------------------------------------------------------------------------------------+

可以看到Client characterset与表的字符集是一致的,然后插入一条含有中文的记录,同时查询看看。

mysql> insert into test1(name) values("中test文1234测试");

mysql> select * from test1;
+----------------------+
| name                 |
+----------------------+
| 中test文1234测试 |
+----------------------+

现在证明当Client characterset与表的字符集一致时,没有出现乱码。那现在使用set names 来修改一下 Client characterset 看看效果。

mysql> set names utf8;
Query OK, 0 rows affected (0.00 sec)

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

mysql> select * from test1;
+--------------------------------------+
| name                                 |
+--------------------------------------+
| 中test文1234测试 |
+--------------------------------------+

utf8 出现乱码,再试试gbk

mysql> set names gbk;
Query OK, 0 rows affected (0.00 sec)

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    gbk
Conn.  characterset:    gbk

mysql> select * from test1;
+------------------------+
| name                   |
+------------------------+
| ???test?1234???? |
+------------------------+

上面把Client characterset 设置分别设置为 utf8 或 GBK 后,然后查询都出现了乱码,而且乱码显示还不一样。下面再测试一样不同Client characterset字符集先插入在读取的情况。

mysql -uroot -p  db_test --default-character-set=utf8

 mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          312
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ""
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

mysql> truncate table test1;
Query OK, 0 rows affected (0.01 sec)

mysql> select * from test1;
Empty set (0.00 sec)

mysql> insert into test1(name) values("中test文1234测试");                                                                                                                                             
Query OK, 1 row affected, 1 warning (0.00 sec)

mysql> select * from test1;
+--------------+
| name         |
+--------------+
| ?test?1234?? |
+--------------+

上面的例子说明当字符集不一致出现乱码了。 如果再把Client characterset 修改为和数据库表一致,然后看看刚刚插入的记录是否还是显示乱码

mysql> set names latin1;
Query OK, 0 rows affected (0.00 sec)

mysql> select * from test1;
+--------------+
| name         |
+--------------+
| ?test?1234?? |
+--------------+
1 row in set (0.00 sec)

还是乱码,也就是通过字符集设置也无法把乱码还原了。

通过上面这些例子可以得出结论,只有当Client characterset与表的字符集一致才不会出现乱码

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/46471.html

相关文章

  • 《CDN 我见》系列二:原理篇(缓存、安全)

    摘要:真正要做高性能的系统,不仅需要在数据结构与算法层面深入,更要从硬件操作系统文件系统底层原理等多个领域做更多的研究例如阿里云自研的系统使用了裸盘技术。 《CDN之我见》共由三个篇章组成,分为原理篇、详解篇和陨坑篇。本篇章适合那些从未接触过、或仅了解一些 CDN 专业术语,想深入了解和感受 CDN 究竟是什么的同学。本次由白金老师继续为大家分享《CDN之我见》系列二,主要讲解缓存是什么、工...

    maxmin 评论0 收藏0
  • 《CDN 我见》系列二:原理篇(缓存、安全)

    摘要:真正要做高性能的系统,不仅需要在数据结构与算法层面深入,更要从硬件操作系统文件系统底层原理等多个领域做更多的研究例如阿里云自研的系统使用了裸盘技术。 《CDN之我见》共由三个篇章组成,分为原理篇、详解篇和陨坑篇。本篇章适合那些从未接触过、或仅了解一些 CDN 专业术语,想深入了解和感受 CDN 究竟是什么的同学。本次由白金老师继续为大家分享《CDN之我见》系列二,主要讲解缓存是什么、工...

    rainyang 评论0 收藏0
  • 初级理解async实现我见

    摘要:在我们写项目代码的过程中,要经常请求接口数据,在某些异步请求数据之后,将得到的值进行处理。 在我们写项目代码的过程中,要经常请求接口数据,在某些异步请求数据之后,将得到的值进行处理。通俗的一句话就是,我要把这个值放到另一个函数中,按行数顺序处理,即同步的概念! 例子:第一步,涉及异步函数 假设我有一个函数abc, function abc(){ //异步方法,请求数据得到re...

    CastlePeaK 评论0 收藏0
  • Spring框架我见(五)——Spring Boot

    摘要:通过我们可以更轻松地入门,更简单的使用的框架。团队为了摆脱框架中各类繁复纷杂的配置,使用约定优于配置的思想,在基础上整合了大量常用的第三方库的开发框架。这里还要说的一点,的出现并不是单纯的为了简化开发,更是为做铺垫。 说完了Spring 我们来聊聊Spring的进阶版Spring Boot,如果你还不知道Spring Boot,那希望这篇文章能够为你指明方向。 Spring Boot ...

    张巨伟 评论0 收藏0
  • Spring框架我见(一)——工厂模式

    摘要:相对于工厂模式,抽象工厂模式生产的对象更加具体,也更加丰富,但相对编码也更加复杂。具体的抽象工厂模式的实现大家可以参考菜鸟教程。知道了工厂模式和抽象工厂模式的区别,请大家使用的时候应该根据具体的情况进行选择。 大家好,今天给大家分享一些Spring的学习心得,在讲Spring之前,先和大家分享Spring中核心的设计模式。 工厂模式 在聊概念之前我先问问大家:什么是工厂? 这个很简单,...

    venmos 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<