php mysql 表情录入_php + mysql 存入表情 【如何转义emoji表情,让它可以存入utf8的数据库】...-程序员宅基地

技术标签: php mysql 表情录入  

方法1:base_encode64

这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。

1

方法2:urlencode

这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?

=======================

一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?

=======================

方法3:采用了下面采纳的那个方法,因为我觉得它有下面几个优点:

1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的

数据库中存储起来是这样的,如何转义emoji表情,让它可以存入utf8的数据库

后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的, 如何转义emoji表情,让它可以存入utf8的数据库

2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。

3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。

缺点:

1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。

数据库中发现有这样的 ,是漏杀了,但是不知道为什么,这个可以直接存数据库。

/** 把用户输入的文本转义(主要针对特殊符号和emoji表情) */ function userTextEncode($str){ if(!is_string($str))return $str; if(!$str || $str=='undefined')return ''; $text = json_encode($str); //暴露出unicode $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){ return addslashes($str[0]); },$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。 return json_decode($text); } /** 解码上面的转义 */ function userTextDecode($str){ $text = json_encode($str); //暴露出unicode $text = preg_replace_callback('/\\\\\\\\/i',function($str){ return '\\'; },$text); //将两条斜杠变成一条,其他不动 return json_decode($text); } //处理名字的emoji符号 $tmpStr = json_encode($text); //暴露出unicode $tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动 $text = json_decode($tmpStr); return $text;

方法4: 一个标准的解决方案:

1、mysql的版本必须为v5.5.3或更高

2、把数据库的编码改成utf8mb4 -- UTF-8 Unicode 3、然后需要存储emoji表情的字段选择utf8mb4_general_ci 4、数据库连接也需要改为utf8mb4 设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。 mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%'; +--------------------------+--------------------+ | Variable_name | Value | +--------------------------+--------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8mb4 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8 | | collation_connection | utf8mb4_unicode_ci | | collation_database | utf8mb4_unicode_ci | | collation_server | utf8mb4_unicode_ci | +--------------------------+--------------------+ 我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。 MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。 ![这里写图片描述](https://img-blog.csdn.net/20160612155302911) 试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx] 或 /wx 。不过表情多了之后4个字符不怎么够用。。。 urldecode 我看了一下 decode 的源码,应该是不会出现问题。 只要没有 % 解码后肯定还是原来的字符(串),有 % 会出现两种情况,一种是解码成功,这个时候肯定就不是原来的字符串了,一种是解码失败,抛出异常(其实这个异常可以作为是否 encode的标准)。 解码还算是比较严格吧,作为用户名的情况下 出现 % 还解码成功的概率比较小吧,对于这部分你可以手动改数据库,应该不会有很多。 你试试这个函数,之前弄微信自定义菜单的时候,也接触过Emoji表情,当时看到用的这个函数把Emoji表情的编码给转换了。 function utf8_bytes($cp) { if ($cp > 0x10000){ # 4 bytes return chr(0xF0 | (($cp & 0x1C0000) >> 18)). chr(0x80 | (($cp & 0x3F000) >> 12)). chr(0x80 | (($cp & 0xFC0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else if ($cp > 0x800){ # 3 bytes return chr(0xE0 | (($cp & 0xF000) >> 12)). chr(0x80 | (($cp & 0xFC0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else if ($cp > 0x80){ # 2 bytes return chr(0xC0 | (($cp & 0x7C0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else{ # 1 byte return chr($cp); } } 我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。 1、修改存储emoji字段编码,例如放在username字段中: ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null; 2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。 使用BOLO类型 将数据库编码改为 utf8mb4 https://github.com/iamcal/php-emoji 我是用这个处理的~ http://www.emoji-cheat-sheet.com/ 有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码 喏,你的 MySQL 版本必须为 5.5 以上的 不用转,直接数据库转成utf8mb4, 我以前就是这么干的 不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把 因为我的项目中需要对字数有限制的需求,涉及到逐字计数,在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我,我提供给你。

方法5 干掉emoji表情

emoji表情是个麻烦的东西,即使你能存储,也不一定能完美显示。在iOS以外的平台上,例如PC或者android。如果你需要显示emoji,就得准备一大堆emoji图片并使用第三方前端类库才行。即便如此,还是可能因为emoji图片不够全而出现无法显示的情况

在大多数业务场景下,emoji也不是非要不可的。我们可以适当地考虑干掉它,节约各种成本

经过一番苦苦的google,终于找到靠谱能用的代码:

// 过滤掉emoji表情

function filterEmoji(str)

{str)  {str = preg_replace_callback(

‘/./u’,

function (array match)returnstrlen($match[0])>=4?′′:$match[0];,match)returnstrlen($match[0])>=4?″:$match[0];,str);

return $str;

}

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39929877/article/details/113555485

智能推荐

什么是RAIN RFID?-程序员宅基地

文章浏览阅读2.6k次。什么是RAIN RFID?RAIN RFID是一种无线技术,连接数十亿日常用品到物联网(IOT),使消费者和企业识别,定位,验证和参与每个项目。物联网应用需要物理和数字世界之间的数据连接,而RAIN RFID是填补这些领域并带来低成本,独特的识别到日常用品的能力的理想技术。RAIN RFID是一个全球联盟,以类似于其他无线技术组织(包括NFC论坛,无线网络联盟和蓝牙SIG)的方式推动UHF ..._rain rfid

如何做好BUG回归_回归bug正确做法-程序员宅基地

文章浏览阅读5.7k次。BUG贯穿研发体系、测试质量衡定的始终,做好BUG回归,即能保证质量,又能提高个人测试能力。做好BUG回归,能够很大程度的避免漏测。BUG的处理流程回归BUG的思路从回归BUG的思路来看,首先验证原BUG现象是否仍然复现。然后需要进行BUG扩展回归,主要从哪几方面扩展呢?首先是开发原理。根据开发原理评估问题的原因、改动的方法、以及可能产生的影响。然后BUG..._回归bug正确做法

springboot+vue志愿者在线报名服务管理系统java毕业设计源码+数据库_基于springboot+vue的志愿者报名管理系统的设计与实现-程序员宅基地

文章浏览阅读1.2k次,点赞18次,收藏28次。志愿服务管理系统在对开发工具的选择上也很慎重,为了便于开发实现,选择的开发工具为IDEA,选择的数据库工具为MySQL。志愿服务管理系统是一款运用软件开发技术设计实现的应用系统,在信息处理上可以达到快速的目的,不管是针对数据添加,数据维护和统计,以及数据查询等处理要求,志愿服务管理系统都可以轻松应对。详细技术:HTML+CSS+JS+JAVA+springboot+MYSQL+Vue+MAVEN。password: 123456 用户密码 123456。关键词:志愿服务管理系统;_基于springboot+vue的志愿者报名管理系统的设计与实现

Android gradle aar不能传递依赖_安卓aar不能层层传递-程序员宅基地

文章浏览阅读5.3k次。先来看下gradle依赖的几种常见的关键词新配置 已弃用配置 行为 本Module 上层Module implementation compile 依赖项在编译时对模块可用,并且仅在运行时对模块的消费者可用。 对于大型多项目构建,使用implementation而不是api/compile可以显著缩短构建时间,因为它可以减少构建系统需要重新..._安卓aar不能层层传递

深度学习中神经网络的几种权重初始化方法_神经网络权重初始化方法-程序员宅基地

文章浏览阅读7.2w次,点赞113次,收藏490次。深度学习中神经网络的几种权重初始化方法       在深度学习中,神经网络的权重初始化方法对(weight initialization)对模型的收敛速度和性能有着至关重要的影响。说白了,神经网络其实就是对权重参数w的不停迭代更新,以期达到较好的性能。在深度神经网络中,随着层数的增多,我们在梯度下降的过程中,极易出现梯度消失..._神经网络权重初始化方法

随便推点

个人项目-地铁出行线路规划程序-程序员宅基地

文章浏览阅读533次。欢迎大家关注我们的软工团队:http://www.cnblogs.com/Default1406/PSP表格PSP 2.1Personal Software Process StagesPlanning Time(H)Used Time(H)Planning计划0.50.25· Estimate· 估计这个任务需要多少时间0.5..._尽可能快地遍历地铁的所有车站呢(只用经过一次,不用下车,就算经过车站)。 例如,注

S/N,C/I,Ec/Io,Eb/No之间的关系_c/i和c/n-程序员宅基地

文章浏览阅读4k次,点赞2次,收藏8次。定义了业务比特能噪比Eb/N0,用于在业务比特级进行接收性能(功率效率)的衡量。实际上因为业务比特级的能量是无法测量的,Eb/N0必须通过实测的S/N进行推算。以上各参量的参考点如下图所示。Ec就是导频专用,Eb就是业务信道专用1 各种符号1.1 信号符号1. C :载波功率2. Ec:码片的能量3. Eb:业务信道上的比特能量,在95与1x上与Ec的关系为Eb=Ec+W/_c/i和c/n

编码练习——Java-2-流程控制-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏3次。条件条件语句 - ifpublic class Test { public static void main(String[] args) { int a = 100; if(a==100) { System.out.println("a的值是 100"); } }}public class Test {

mouseMoveEvent 函数中判断鼠标那个按键按下_if(event->button()&qt::leftbutton)-程序员宅基地

文章浏览阅读1.1w次,点赞15次,收藏21次。我们可以用if (event->button() == Qt::LeftButton){TODO:}来判断鼠标那个键按下,但是在mouseMoveEvent函数中,event->button()总是返回NoButton,这让这个判断完全失去了意义,经查找,发现大家都是用这个if (event->buttons() & Qt::LeftButton){TODO_if(event->button()&qt::leftbutton)

python中的utils模块_使用Python的package机制如何简化utils包设计详解-程序员宅基地

文章浏览阅读423次。package 机制package是模块的集合,每一个Package的根目录下面都应当有一个__init__.py 文件。当解释器发现目录下有这个文件时,他就会认为这是一个Package,而不是一个普通的目录。对于 package 机制的说明,其实官方文档已经有非常详尽的论述了,本文并不着眼于此。简单来说,一个目录下如果包含 __init__.py ,则被 Python 视作一个 Python p..._python中from utils啥意思

外挂开发 大漠插件注册_怎么看注册大漠成功-程序员宅基地

文章浏览阅读8.5k次,点赞3次,收藏12次。在开发外挂中,其实有很多厉害的插件可以供我们使用,不再自己再去额外的写复杂的代码,类似的插件很多,比如:天使插件、DD、大漠等,各个插件都有比较擅长的功能,有些小众的插件更是给力,因为可以过NP。1.准备大漠的Dll动态链接库(里面包含了类文件)名字为:dm(mat).dll,把dm(mat).dll复制到工程的代码目录和运行目录Debug 2.添加Lib类方法:对着解决方案名..._怎么看注册大漠成功

推荐文章

热门文章

相关标签