js的string变量存储字符串使用的是unicode编码,要保存时必须选择其他编码后进行传输,比如转成utf-8,utf-32等。存储到数据库中为utf-8编码,读取出来如何转换成正确的字符串就成了问题。现在给出解决方案,可以正确支持中文、emoji表情、英文混合的字符串编码互转。

/**
 * Created by hdwang on 2019/1/28.
 */
var convertUtf8 = (function() {

  /**
   * unicode string to utf-8
   * @param text 字符串
   * @returns {*} utf-8编码
   */
  function toBytes(text) {
    var result = [], i = 0;
    text = encodeURI(text);
    while (i < text.length) {
      var c = text.charCodeAt(i  );

      // if it is a % sign, encode the following 2 bytes as a hex value
      if (c === 37) {
        result.push(parseInt(text.substr(i, 2), 16))
        i  = 2;

        // otherwise, just the actual byte
      } else {
        result.push(c)
      }
    }

    return coerceArray(result);
  }


  /**
   * utf8 byte to unicode string
   * @param utf8Bytes
   * @returns {string}
   */
  function utf8ByteToUnicodeStr(utf8Bytes){
    var unicodeStr ="";
    for (var pos = 0; pos < utf8Bytes.length;){
      var flag= utf8Bytes[pos];
      var unicode = 0 ;
      if ((flag >>>7) === 0 ) {
        unicodeStr = String.fromCharCode(utf8Bytes[pos]);
        pos  = 1;

      } else if ((flag &0xFC) === 0xFC ){
        unicode = (utf8Bytes[pos] & 0x3) << 30;
        unicode |= (utf8Bytes[pos 1] & 0x3F) << 24;
        unicode |= (utf8Bytes[pos 2] & 0x3F) << 18;
        unicode |= (utf8Bytes[pos 3] & 0x3F) << 12;
        unicode |= (utf8Bytes[pos 4] & 0x3F) << 6;
        unicode |= (utf8Bytes[pos 5] & 0x3F);
        unicodeStr = String.fromCodePoint(unicode) ;
        pos  = 6;

      }else if ((flag &0xF8) === 0xF8 ){
        unicode = (utf8Bytes[pos] & 0x7) << 24;
        unicode |= (utf8Bytes[pos 1] & 0x3F) << 18;
        unicode |= (utf8Bytes[pos 2] & 0x3F) << 12;
        unicode |= (utf8Bytes[pos 3] & 0x3F) << 6;
        unicode |= (utf8Bytes[pos 4] & 0x3F);
        unicodeStr = String.fromCodePoint(unicode) ;
        pos  = 5;

      } else if ((flag &0xF0) === 0xF0 ){
        unicode = (utf8Bytes[pos] & 0xF) << 18;
        unicode |= (utf8Bytes[pos 1] & 0x3F) << 12;
        unicode |= (utf8Bytes[pos 2] & 0x3F) << 6;
        unicode |= (utf8Bytes[pos 3] & 0x3F);
        unicodeStr = String.fromCodePoint(unicode) ;
        pos  = 4;

      } else if ((flag &0xE0) === 0xE0 ){
        unicode = (utf8Bytes[pos] & 0x1F) << 12;;
        unicode |= (utf8Bytes[pos 1] & 0x3F) << 6;
        unicode |= (utf8Bytes[pos 2] & 0x3F);
        unicodeStr = String.fromCharCode(unicode) ;
        pos  = 3;

      } else if ((flag &0xC0) === 0xC0 ){ //110
        unicode = (utf8Bytes[pos] & 0x3F) << 6;
        unicode |= (utf8Bytes[pos 1] & 0x3F);
        unicodeStr = String.fromCharCode(unicode) ;
        pos  = 2;

      } else{
        unicodeStr = String.fromCharCode(utf8Bytes[pos]);
        pos  = 1;
      }
    }
    return unicodeStr;
  }



  function checkInt(value) {
    return (parseInt(value) === value);
  }

  function checkInts(arrayish) {
    if (!checkInt(arrayish.length)) { return false; }

    for (var i = 0; i < arrayish.length; i  ) {
      if (!checkInt(arrayish[i]) || arrayish[i] < 0 || arrayish[i] > 255) {
        return false;
      }
    }

    return true;
  }

  function coerceArray(arg, copy) {

    // ArrayBuffer view
    if (arg.buffer && arg.name === 'Uint8Array') {

      if (copy) {
        if (arg.slice) {
          arg = arg.slice();
        } else {
          arg = Array.prototype.slice.call(arg);
        }
      }

      return arg;
    }

    // It's an array; check it is a valid representation of a byte
    if (Array.isArray(arg)) {
      if (!checkInts(arg)) {
        throw new Error('Array contains invalid value: '   arg);
      }

      return new Uint8Array(arg);
    }

    // Something else, but behaves like an array (maybe a Buffer? Arguments?)
    if (checkInt(arg.length) && checkInts(arg)) {
      return new Uint8Array(arg);
    }

    throw new Error('unsupported array-like object');
  }

  return {
    toBytes: toBytes,
    fromBytes: utf8ByteToUnicodeStr
  }
})()

针对emoji的字节字符,占两个unicode字符。使用String.fromCharCode也可以实现,需要进行两次fromCharCode,没有fromPointCode方便。下面展示了utf-8的4字节转换为unicode(utf-16)的过程。

//高char10位[一个unicode字符] (2 6 2=10)
unicode =  ((utf8Bytes[pos] & 0x3)) << 8 |((utf8Bytes[pos 1] & 0x3f) << 2) |((utf8Bytes[pos 2] >> 4) & 0x03);

//减去‭1F600‬中的1,这里减去6个0即可,低位char已经占据10位
unicode = unicode - parseInt('1000000',2)

//加上utf-16高char的标识符
unicode = 0xD800   unicode;
console.log(unicode);
unicodeStr  = String.fromCharCode(unicode);

//低char10位[一个unicode字符](4 6)
unicode = ((utf8Bytes[pos 2] & 0x0F) << 6) | (utf8Bytes[pos 3] & 0x3F);
//加上utf-16低char的标识符
unicode = 0xDC00   unicode;
console.log(unicode);
unicodeStr = String.fromCharCode(unicode);
pos  = 4;

以上所述是小编给大家介绍的js实现unicode码字符串与utf8字节数据互转详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对Devmax网站的支持!

js实现unicode码字符串与utf8字节数据互转详解的更多相关文章

  1. html5 拖拽及用 js 实现拖拽功能的示例代码

    这篇文章主要介绍了html5 拖拽及用 js 实现拖拽,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  2. amaze ui 的使用详细教程

    这篇文章主要介绍了amaze ui 的使用详细教程,本文通过多种方法给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

  3. ios – 如何使用Unicode十六进制值(UTF-16)在Swift中表达字符串

    我想在Swift中使用十六进制值编写一个Unicode字符串.我已经阅读了字符串和字符的documentation,所以我知道我可以使用特殊的Unicode字符直接在字符串如下:版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请发送邮件至dio@foxmail.com举报,一经查实,本站将立刻删除。

  4. 三 Swift学习之字符串和字符Strings and Characters

    Swift的String和Character类型提供了一个快速的,兼容Unicode的方式来处理代码中的文本信息。更多关于在Foundation和Cocoa中使用String的信息请查看UsingSwiftwithCocoaandObjective-C。Swift默认字符串拷贝的方式保证了在函数/方法中传递的是字符串的值。所以Swift中的字符在一个字符串中并不一定占用相同的内存空间。

  5. Swift字符unicode编码

    1、字符在C#Object语言中,字符放在单引号(')之间,但是在swift语言中,必须把字符放在双引号之间;(1)unicode编码unicode编码可以有单字节编码,双字节编码和四字节编码,它们的表现形式是"\u{n}",其中n为1到8个十六进制字符letandSign1:Character="&"letandSign2="\u{26}"letlamda1:Character=""letlam

  6. Swift语法基础:15 - Swift的Unicode使用以及标量

    接续接着说,Unicode是文本编码和表示的国际标准。它使您可以用标准格式表示来自任意语言几乎所有的字符,并能够对文本文件或网页这样的外部资源中的字符进行读写操作。Swift的字符串和字符类型是完全兼容Unicode的,它支持如下所述的一系列不同的Unicode编码。一个unicode标量是字符或者修饰符的唯一21位数(和名称),例如U+0061表示小写的拉丁字母A(“a”),U+1F425表示正面站立的鸡宝宝(“

  7. Swift学习:6.字符串和字符

    字符串字面量可以包含以下特殊字符:转义字符\0(空字符)、\\(反斜线)、\t、\n(换行符)、\r(回车符)、\"(双引号)、\'(单引号)。Unicode标量,写成\u{n},其中n为任意的一到八位十六进制数。

  8. 【swift】15-0518 自增,自减 选并 字符串的比较 Unicode

    :blet底线品牌=“小米4”var理想品牌:String?理想品牌=“iPhone6”var实际入手=(理想品牌??

  9. swift皮筋弹动发射飞机ios源码

    这是一个款采用swift实现的皮筋弹动发射飞机游戏源码,游戏源码比较详细,大家可以研究学习一下吧。

  10. Swift学习笔记十五——程序员浪漫之用Swift+Unicode说我爱你

    程序员常常被认为是呆板,宅,不解风情的一帮人。但是有时候,我们也可以使用自己的拿手本领来表现我们的浪漫。由于Swift语言是支持Unicode编码的,而Unicode最新已经支持emoji(绘文字)的表情符号。所以,我想,我们是不是可以使用Swift+Unicode来浪漫一把呢?废话不说,直接上代码:输出结果如下:。当然,Unicode中的还有很多emoji表情,大概有250个,我写的只是很简单的例子。程序员们可以尽情发挥自己的想象吧。当然试试可以用其他语言来实现一下。

随机推荐

  1. js中‘!.’是什么意思

  2. Vue如何指定不编译的文件夹和favicon.ico

    这篇文章主要介绍了Vue如何指定不编译的文件夹和favicon.ico,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教

  3. 基于JavaScript编写一个图片转PDF转换器

    本文为大家介绍了一个简单的 JavaScript 项目,可以将图片转换为 PDF 文件。你可以从本地选择任何一张图片,只需点击一下即可将其转换为 PDF 文件,感兴趣的可以动手尝试一下

  4. jquery点赞功能实现代码 点个赞吧!

    点赞功能很多地方都会出现,如何实现爱心点赞功能,这篇文章主要为大家详细介绍了jquery点赞功能实现代码,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  5. AngularJs上传前预览图片的实例代码

    使用AngularJs进行开发,在项目中,经常会遇到上传图片后,需在一旁预览图片内容,怎么实现这样的功能呢?今天小编给大家分享AugularJs上传前预览图片的实现代码,需要的朋友参考下吧

  6. JavaScript面向对象编程入门教程

    这篇文章主要介绍了JavaScript面向对象编程的相关概念,例如类、对象、属性、方法等面向对象的术语,并以实例讲解各种术语的使用,非常好的一篇面向对象入门教程,其它语言也可以参考哦

  7. jQuery中的通配符选择器使用总结

    通配符在控制input标签时相当好用,这里简单进行了jQuery中的通配符选择器使用总结,需要的朋友可以参考下

  8. javascript 动态调整图片尺寸实现代码

    在自己的网站上更新文章时一个比较常见的问题是:文章插图太宽,使整个网页都变形了。如果对每个插图都先进行缩放再插入的话,太麻烦了。

  9. jquery ajaxfileupload异步上传插件

    这篇文章主要为大家详细介绍了jquery ajaxfileupload异步上传插件,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

  10. React学习之受控组件与数据共享实例分析

    这篇文章主要介绍了React学习之受控组件与数据共享,结合实例形式分析了React受控组件与组件间数据共享相关原理与使用技巧,需要的朋友可以参考下

返回
顶部