x86_64：为什么uint_least16_t比uint_fast16_t快(用于乘法)

2020-09-14 原文

关于uint_fast * _t系列类型,C标准还不太清楚.在 gcc-4.4.4 linux x86_64系统上,类型uint_fast16_t和uint_fast32_t的大小都是8个字节.但是,8字节数的乘法似乎比4字节数的乘法慢得多.以下代码演示了：

#include <stdio.h>
#include <stdint.h>
#include <inttypes.h>

int
main ()
{
  uint_least16_t p,x;
  int count;

  p = 1;
  for (count = 100000; count != 0; --count)
    for (x = 1; x != 50000; ++x)
      P*= x;

  printf("%"PRIuLEAST16,p);
  return 0;
}

在程序上运行time命令,我明白了

real 0m7.606s
user 0m7.557s
sys  0m0.019s

如果我将类型更改为uint_fast16_t(和printf修饰符),则时间变为

real 0m12.609s
user 0m12.593s
sys  0m0.009s

那么,如果stdint.h头文件将uint_fast16_t(以及uint_fast32_t)定义为4字节类型,那会不会更好？

AFAIK编译器仅定义它们自己的(u)int_(快/最小)XX_t类型的版本,如果它们尚未由系统定义.这是因为在单个系统上的所有库/二进制文件中同等定义这些类型非常重要.否则,如果不同的编译器会以不同的方式定义这些类型,那么使用CompilerA构建的库可能与使用CompilerB构建的二进制文件具有不同的uint_fast32_t类型,但是这个二进制文件仍然可以链接到库;没有正式的标准要求,系统的所有可执行代码都必须由同一个编译器构建(实际上在某些系统上,例如Windows,代码已由各种不同的编译器编译是很常见的).如果现在这个二进制文件调用库的一个函数,事情就会破裂！

所以问题是：这里真的是GCC定义uint_fast16_t,还是实际上是Linux(我的意思是这里的内核),甚至可能是标准C Lib(大多数情况下是glibc),它定义了那些类型？因为如果Linux或glibc定义了这些,那么建立在该系统上的GCC除了采用它们已经建立的任何约定之外别无选择.对于所有其他可变宽度类型也是如此：char,short,int,long,long long;所有这些类型在C标准中只有最小保证位宽(对于int,它实际上是16位,因此在int为32位的平台上,它已经比标准要求的大得多).

除此之外,我实际上想知道你的cpu /编译器/系统有什么问题.在我的系统上,64位乘法与32位乘法同样快.我修改了你的代码来测试16位,32位和64位：

#include <time.h>
#include <stdio.h>
#include <inttypes.h>

#define RUNS 100000

#define TEST(type)                                  \
    static type test ## type ()                     \
    {                                               \
        int count;                                  \
        type p,x;                                  \
                                                    \
        p = 1;                                      \
        for (count = RUNS; count != 0; count--) {   \
            for (x = 1; x != 50000; x++) {          \
                p *= x;                             \
            }                                       \
        }                                           \
        return p;                                   \
    }

TEST(uint16_t)
TEST(uint32_t)
TEST(uint64_t)

#define CLOCK_TO_SEC(clock) ((double)clockTime / CLOCKS_PER_SEC)

#define RUN_TEST(type)                             \
    {                                              \
        clock_t clockTime;                         \
        unsigned long long result;                 \
                                                   \
        clockTime = clock();                       \
        result = test ## type ();                  \
        clockTime = clock() - clockTime;           \
        printf("Test %s took %2.4f s. (%llu)\n",\
            #type,CLOCK_TO_SEC(clockTime),result \
        );                                         \
    }

int main ()
{
    RUN_TEST(uint16_t)
    RUN_TEST(uint32_t)
    RUN_TEST(uint64_t)
    return 0;
}

使用未经优化的代码(-O0),我得到：

Test uint16_t took 13.6286 s. (0)
Test uint32_t took 12.5881 s. (0)
Test uint64_t took 12.6006 s. (0)

使用优化代码(-O3),我得到：

Test uint16_t took 13.6385 s. (0)
Test uint32_t took 4.5455 s. (0)
Test uint64_t took 4.5382 s. (0)

第二个输出非常有趣. @R ..在上面的评论中写道：

On x86_64,32-bit arithmetic should never be slower than 64-bit
arithmetic,period.

第二个输出显示32/16位算术不能说同样的事情.即使我的x86 cpu本身可以执行16位运算,32位算术在32/64位cpu上也会明显变慢.与其他一些cpu不同,例如PPC,它只能执行32位算术.但是,这似乎只适用于我的cpu上的乘法,当更改代码进行加/减/除时,16和32位之间没有显着差异.

以上结果来自英特尔酷睿i7(2.66 GHz),但如果有人感兴趣,我也可以在英特尔酷睿2双核处理器(旧一代cpu)和摩托罗拉PowerPC G4上运行此基准测试.

x86_64：为什么uint_least16_t比uint_fast16_t快(用于乘法)的更多相关文章

基于EJB技术的商务预订系统的开发

用EJB结构开发的应用程序是可伸缩的、事务型的、多用户安全的。总的来说，EJB是一个组件事务监控的标准服务器端的组件模型。基于EJB技术的系统结构模型EJB结构是一个服务端组件结构，是一个层次性结构，其结构模型如图1所示。图2：商务预订系统的构架EntityBean是为了现实世界的对象建造的模型，这些对象通常是数据库的一些持久记录。
js中‘!.’是什么意思
InnoDB 和 MyISAM 引擎恢复数据库，使用 .frm、.ibd文件恢复数据库
Error: Cannot find module ‘node:util‘问题解决

控制台安装 Vue-Cli 最后一步出现 Error: Cannot find module 'node:util' 问题解决方案1.问题C:\Windows\System32>cnpm install -g @vue/cli@4.0.3internal/modules/cjs/loader.js:638 throw err; &nbs
yarn的安装和使用(全网最详细)

一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn 缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn 会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn 能够保证在不同系统上无差异的工作。三、y
前端环境本机可切换node多版本问题源头是node使用的高版本

前言投降投降重头再来重装环境也就分分钟的事偏要折腾这下好了1天了还没折腾出来问题的源头是node 使用的高版本方案那就用本机可切换多版本最终问题是因为nodejs的版本太高，导致的node-sass不兼容问题，我的node是v16.14.0的版本，项目中用了"node-sass": "^4.7.2"版本，无法匹配当前的node版本根据文章的提
宝塔Linux的FTP连接不上的解决方法

宝塔Linux的FTP连接不上的解决方法常见的几个可能,建议先排查。1.注意内网IP和外网IP2.检查ftp服务是否启动（面板首页即可看到）3.检查防火墙20端口 ftp 21端口及被动端口39000 - 40000是否放行（如是腾讯云/阿里云等还需检查安全组）4.是否主动/被动模式都不能连接5.新建一个用户看是否能连接6.修改ftp配置文件将ForcePassiveIP前面的#去掉将19
扩展element-ui el-upload组件，实现复制粘贴上传图片文件，带图片预览功能
微信小程序canvas实现水平、垂直居中效果

这篇文章主要介绍了小程序中canvas实现水平、垂直居中效果,本文图文实例代码相结合给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下
使用HTML5做的导航条详细步骤

这篇文章主要介绍了用HTML5做的导航条详细步骤,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下

随机推荐

static – 在页面之间共享数据的最佳实践

我想知道在UWP的页面之间发送像’selectedItem’等变量的最佳做法是什么？创建一个每个页面都知道的静态全局变量类是一个好主意吗？
.net – 为Windows窗体控件提供百分比宽度/高度

WindowsForm开发的新手,但在Web开发方面经验丰富.有没有办法为Windows窗体控件指定百分比宽度/高度,以便在用户调整窗口大小时扩展/缩小？当窗口调整大小时,可以编写代码来改变控件的宽度/高度,但我希望有更好的方法,比如在HTML/CSS中.在那儿？
使用Windows Azure查询表存储数据

我需要使用特定帐户吗？>将应用程序部署到Azure服务后,如何查询数据？GoogleAppEngine有一个数据查看器/查询工具,Azure有类似的东西吗？>您可以看到的sqlExpressintance仅在开发结构中,并且一旦您表示没有等效,所以请小心使用它.>您可以尝试使用Linqpad查询表格.看看JamieThomson的thispost.
windows – SetupDiGetClassDevs是否与文档中的设备实例ID一起使用？

有没有更好的方法可以使用DBT_DEVICEARRIVAL事件中的数据获取设备的更多信息？您似乎必须指定DIGCF_ALLCLASSES标志以查找与给定设备实例ID匹配的所有类,或者指定ClassGuid并使用DIGCF_DEFAULT标志.这对我有用：带输出：
Windows Live ID是OpenID提供商吗？

不,WindowsLiveID不是OpenID提供商.他们使用专有协议.自从他们的“测试版”期结束以来,他们从未宣布计划继续它.
如果我在代码中进行了更改,是否需要重新安装Windows服务？

我写了一个Windows服务并安装它.现在我对代码进行了一些更改并重新构建了解决方案.我还应该重新安装服务吗？不,只需停止它,替换文件,然后重新启动它.
带有双引号的字符串回显使用Windows批处理输出文件

我正在尝试使用Windows批处理文件重写配置文件.我循环遍历文件的行并查找我想要用指定的新行替换的行.我有一个’函数’将行写入文件问题是％Text％是一个嵌入双引号的字符串.然后失败了.可能还有其他角色也会导致失败.如何才能使用配置文件中的所有文本？尝试将所有“在文本中替换为^”.^是转义字符,因此“将被视为常规字符你可以尝试以下方法：其他可能导致错误的字符是：
.net – 将控制台应用程序转换为服务？

我正在寻找不同的优势/劣势,将我们长期使用的控制台应用程序转换为Windows服务.我们为ActiveMQ使用了一个叫做java服务包装器的东西,我相信人们告诉我你可以用它包装任何东西.这并不是说你应该用它包装任何东西;我们遇到了这个问题.控制台应用程序是一个.NET控制台应用程序,默认情况下会将大量信息记录到控制台,尽管这是可配置的.任何推荐？我们应该在VisualStudio中将其重建为服务吗？我使用“-install”/“-uninstall”开关执行此操作.例如,seehere.
windows – 捕获外部程序的STDOUT和STDERR *同时*它正在执行(Ruby)

哦,我在Windows上:-(实际上,它比我想象的要简单,这看起来很完美：…是的,它适用于Windows！
windows – 当我试图批量打印变量时,为什么我得到“Echo is on”

我想要执行一个简单的批处理文件脚本：当我在XP中运行时,它给了我预期的输出,但是当我在Vista或Windows7中运行它时,我在尝试打印值时得到“EchoisOn”.以下是程序的输出：摆脱集合表达式中的空格.等号(=)的两侧可以并且应该没有空格BTW：我通常在@echo关闭的情况下启动所有批处理文件,并以@echo结束它们,所以我可以避免将代码与批处理文件的输出混合.它只是使您的批处理文件输出更好,更清洁.