带CUDA的大整数加法

2019-05-26 原文

我一直在GPU上开发一种加密算法,目前还在使用算法来执行大的整数加法.大整数以一般的方式表示为一堆32位字.

例如,我们可以使用一个线程来添加两个32位字.为了简单起见,假设
要添加的数字具有相同的长度和每个块的线程数==字数.然后：

__global__ void add_kernel(int *C,const int *A,const int *B) {
     int x = A[threadIdx.x];
     int y = B[threadIdx.x];
     int z = x + y;
     int carry = (z < x);
     /** do carry propagation in parallel somehow ? */
     ............

     z = z + newcarry; // update the resulting words after carry propagation
     C[threadIdx.x] = z;
 }

我很确定有一种方法可以通过一些棘手的减少程序进行传播,但无法理解.

我看了一下CUDA thrust extensions,但是大整数包似乎还没有实现.
也许有人可以给我一个提示如何在CUDA上这样做？

解决方法

你是对的,进位传播可以通过前缀和计算完成,但是定义这个操作的二进制函数有点棘手,并证明它是关联的(并行前缀和需要).事实上,这个算法(理论上)在 Carry-lookahead adder中被使用.

假设我们有两个大的整数a [0..n-1]和b [0..n-1].
然后我们计算(i = 0..n-1)：

s[i] = a[i] + b[i]l;
carryin[i] = (s[i] < a[i]);

我们定义了两个功能：

generate[i] = carryin[i];
propagate[i] = (s[i] == 0xffffffff);

具有相当直观的意义：generate [i] == 1表示进位是在…生成的
位置i当传播[i] == 1表示进位将从位置传播
(i-1)至(i 1).我们的目标是计算用于更新所得和s [0..n-1]的函数进位[0..n-1].递归可以递归计算如下：

carryout[i] = generate[i] OR (propagate[i] AND carryout[i-1])
carryout[0] = 0

这里carryout [i] == 1如果在位置i产生进位,或者它有时较早生成并传播到位置i.最后,我们更新结果总和：

s[i] = s[i] + carryout[i-1];  for i = 1..n-1
carry = carryout[n-1];

现在证明进位函数确实是二进制关联是非常简单的,因此并行前缀和计算适用.为了在CUDA上实现这一点,我们可以将两个标志’generate’和’propagate’合并在一个变量中,因为它们是互斥的,即：

cy[i] = (s[i] == -1u ? -1u : 0) | carryin[i];

换一种说法,

cy[i] = 0xffffffff  if propagate[i]
cy[i] = 1           if generate[i]
cy[u] = 0           otherwise

然后,可以验证以下公式计算进位功能的前缀和：

cy[i] = max((int)cy[i],(int)cy[k]) & cy[i];

对于所有k <一世.下面的示例代码显示2048个字整数的大量加法.这里我用了512个线程的CUDA块：

// add & output carry flag
#define UADDO(c,a,b) \ 
     asm volatile("add.cc.u32 %0,%1,%2;" : "=r"(c) : "r"(a),"r"(b));
// add with carry & output carry flag
#define UADDC(c,b) \ 
     asm volatile("addc.cc.u32 %0,"r"(b));

#define WS 32

__global__ void bignum_add(unsigned *g_R,const unsigned *g_A,const unsigned *g_B) {

extern __shared__ unsigned shared[];
unsigned *r = shared; 

const unsigned N_THIDS = 512;
unsigned thid = threadIdx.x,thid_in_warp = thid & WS-1;
unsigned ofs,cf;

uint4 a = ((const uint4 *)g_A)[thid],b = ((const uint4 *)g_B)[thid];

UADDO(a.x,a.x,b.x) // adding 128-bit chunks with carry flag
UADDC(a.y,a.y,b.y)
UADDC(a.z,a.z,b.z)
UADDC(a.w,a.w,b.w)
UADDC(cf,0) // save carry-out

// memory consumption: 49 * N_THIDS / 64
// use "alternating" data layout for each pair of warps
volatile short *scan = (volatile short *)(r + 16 + thid_in_warp +
        49 * (thid / 64)) + ((thid / 32) & 1);

scan[-32] = -1; // put identity element
if(a.x == -1u && a.x == a.y && a.x == a.z && a.x == a.w)
    // this indicates that carry will propagate through the number
    cf = -1u;

// "Hillis-and-Steele-style" reduction 
scan[0] = cf;
cf = max((int)cf,(int)scan[-2]) & cf;
scan[0] = cf;
cf = max((int)cf,(int)scan[-4]) & cf;
scan[0] = cf;
cf = max((int)cf,(int)scan[-8]) & cf;
scan[0] = cf;
cf = max((int)cf,(int)scan[-16]) & cf;
scan[0] = cf;
cf = max((int)cf,(int)scan[-32]) & cf;
scan[0] = cf;

int *postscan = (int *)r + 16 + 49 * (N_THIDS / 64);
if(thid_in_warp == WS - 1) // scan leading carry-outs once again
    postscan[thid >> 5] = cf;

__syncthreads();

if(thid < N_THIDS / 32) {
    volatile int *t = (volatile int *)postscan + thid;
    t[-8] = -1; // load identity symbol
    cf = t[0];
    cf = max((int)cf,(int)t[-1]) & cf;
    t[0] = cf;
    cf = max((int)cf,(int)t[-2]) & cf;
    t[0] = cf;
    cf = max((int)cf,(int)t[-4]) & cf;
    t[0] = cf;
}
__syncthreads();

cf = scan[0];
int ps = postscan[(int)((thid >> 5) - 1)]; // postscan[-1] equals to -1
scan[0] = max((int)cf,ps) & cf; // update carry flags within warps
cf = scan[-2];

if(thid_in_warp == 0)
    cf = ps;
if((int)cf < 0)
    cf = 0;

UADDO(a.x,cf) // propagate carry flag if needed
UADDC(a.y,0)
UADDC(a.z,0)
UADDC(a.w,0)
((uint4 *)g_R)[thid] = a;
}

请注意,由于CUDA 4.0具有相应的内在函数(但我并不完全确定),因此可能不需要UADDO / UADDC宏.

还要指出的是,尽管并行还原相当快,但如果您需要在一行中添加几个大整数,则可能会使用一些冗余表示(上面的注释中提到的),即首先将添加的结果累加在64位字,然后在“一次扫描”中最后执行一个进位传播.

带CUDA的大整数加法的更多相关文章

ios – 类型不符合协议

我仍然无法理解Swift中泛型的一些微妙之处.我定义了以下类型：viewForValue现在我定义了以下功能.我希望T是一个符合协议SomeProtocol的UIView.但是,当我执行代码时,我收到以下编译错误：似乎在where子句中我不能指定不实现协议的类.这是为什么？
ios – 将Swift项目转换为易于使用的Cocoapods框架

编辑1：我更新了项目,因此它已经具有框架结构,我只需要弄清楚我将如何向开发人员提供对自定义部件的访问权限.编辑2：我得到了一个答案,但我认为这个问题可能很容易被误解.目标是使其行为和行为像UICollectionView(与委托,数据源,…
ios – 如何在Swift中解包数组元素？ (即数组为数组)

假设我有一个String数组,我想将它映射到一个Int数组我可以使用map功能：Numbers现在是一个Int？数组,但我想要一个Int数组.我知道我可以这样做：但这似乎并不是很迅速.从Int数组转换？对于ArrayofInt,需要使用相当多的样板函数来调用filter和map.有更快捷的方法吗？解决方法更新：Xcode7.2Swift2.1.1
ios – Swift：方法重载只在返回类型上有所不同

我一直在看Swift类,其中定义了两种方法,它们的返回类型不同.我不习惯使用允许这种语言的语言,所以我去寻找描述它如何在Swift中工作的文档.我在任何地方都找不到任何东西.我本来期望在Swift书中有关于它的整个部分.这记录在哪里？
ios – Swift中没有输入参数的通用函数？

我有一个通用的Swift函数,如下所示：编译器没有错误,但我不知道如何调用此函数.我试过了：但它不起作用.如何在没有输入参数的情况下在Swift中调用Generic函数？解决方法你需要通过一些调用上下文告诉Swift返回类型是什么：注意,在后一种情况下,只有当someCall采用类似于Any的模糊类型作为其参数时,才需要这样做.相反,someCall被指定为[Int]作为参数,函数本身提供上下文,你可以只写someCall事实上,有时可以非常推断出背景！
ios – swift函数返回一个Array

我学习Swift,我可以理解如何创建一个简单的函数,它接收一个Array并返回一个Array.我的代码：我得到的红色错误是：引用通用类型“Array”需要解决方法在SwiftArray中是通用类型,所以你必须指定什么类型的数组包含.例如：如果你希望你的函数是通用的,那么使用：如果您不想指定类型或具有通用功能使用任何类型：
ios – 嵌套递归函数

我试图做一个嵌套递归函数,但是当我编译时,编译器崩溃.这是我的代码：编译器记录arehere解决方法有趣的…它似乎也许在尝试在定义之前捕获到内部的引用时,它是bailing？以下修复它为我们：当然没有嵌套,我们根本没有任何问题,例如以下工作完全如预期：我会说：报告！
ios – 键入’ViewController’不符合协议’UICollectionViewDataSource’

解决方法您必须在ViewController类中实现这两个方法：附：–您的函数原型应该与上述函数完全匹配(如果存在,请删除任何’！
ios – Swift错误：无法将不可变值作为inout参数传递：’pChData’是’let’常量

解决方法您正在尝试访问/修改pChData参数,除非您将其声明为inout参数,否则您无法访问/修改该参数.了解有关inout参数here的更多信息.请尝试使用以下代码.
ios – Swift：不能下标'[UIViewController]类型的值吗？

我试图弄清楚如何在Xcode7(iOS9)上的Swift中解决这个问题,我也遇到了这个错误：Cannotsubscriptavalueoftype‘[UIViewController]?’withanindexoftype‘Int’任何建议表示赞赏.谢谢.我的代码：解决方法尝试：但是,写一下会更安全：另一种选择：这样做的好处是它安全,但不需要将函数的其余部分放在if块中.

随机推荐

从C到C#的zlib(如何将byte []转换为流并将流转换为byte [])

我的任务是使用zlib解压缩数据包(已接收),然后使用算法从数据中生成图片好消息是我在C中有代码,但任务是在C#中完成C我正在尝试使用zlib.NET,但所有演示都有该代码进行解压缩(C#)我的问题：我不想在解压缩后保存文件,因为我必须使用C代码中显示的算法.如何将byte[]数组转换为类似于C#zlib代码中的流来解压缩数据然后如何将流转换回字节数组？
为什么C标准使用不确定的变量未定义？

垃圾价值存储在哪里,为什么目的？解决方法由于效率原因,C选择不将变量初始化为某些自动值.为了初始化这些数据,必须添加指令.以下是一个例子：产生：虽然这段代码：产生：你可以看到,一个完整的额外的指令用来移动1到x.这对于嵌入式系统来说至关重要.
如何使用命名管道从c调用WCF方法？

更新：通过协议here,我无法弄清楚未知的信封记录.我在网上找不到任何例子.原版的：我有以下WCF服务我输出添加5行,所以我知道服务器是否处理了请求与否.我有一个.NET客户端,我曾经测试这一切,一切正常工作预期.现在我想为这个做一个非托管的C客户端.我想出了如何得到管道的名称,并写信给它.我从here下载了协议我可以写信给管道,但我看不懂.每当我尝试读取它,我得到一个ERROR_broKEN_P
“这”是否保证指向C中的对象的开始？

我想使用fwrite将一个对象写入顺序文件.班级就像当我将一个对象写入文件时.我正在游荡,我可以使用fwrite(this,sizeof(int),2,fo)写入前两个整数.问题是：这是否保证指向对象数据的开始,即使对象的最开始可能存在虚拟表.所以上面的操作是安全的.解决方法这提供了对象的地址,这不一定是第一个成员的地址.唯一的例外是所谓的标准布局类型.从C11标准：(9.2/20)Apointe
c – 编译单元之间共享的全局const对象

当我声明并初始化一个const对象时.两个cpp文件包含此标头.和当我构建解决方案时,没有链接错误,你会得到什么如果g_Const是一个非const基本类型！PrintInUnit1()和PrintInUnit2()表明在两个编译单元中有两个独立的“g_Const”具有不同的地址,为什么？
什么是C名称查找在这里？ (&GCC对吗？)

为什么在第三个变体找到func,但是在实例化的时候,原始变体中不合格查找找不到func？解决方法一般规则是,任何不在模板定义上下文中的内容只能通过ADL来获取.换句话说,正常的不合格查找仅在模板定义上下文中执行.因为在定义中间语句时没有声明func,并且func不在与ns::type相关联的命名空间中,所以代码形式不正确.
c – 在输出参数中使用auto

有没有办法在这种情况下使用auto关键字：当然,不可能知道什么类型的.因此,解决方案应该是以某种方式将它们合并为一个句子.这可用吗？解决方法看起来您希望默认初始化给定函数期望作为参数的类型的对象.您无法使用auto执行此操作,但您可以编写一个特征来提取函数所需的类型,然后使用它来声明您的变量：然后你就像这样使用它：当然,只要你重载函数,这一切都会失败.
在C中说“推动一切浮动”的确定性方式

鉴于我更喜欢将程序中的数字保留为int或任何内容,那么使用这些数字的浮点数等效的任意算术最方便的方法是什么？说,我有我想写通过将转换放在解析的运算符树叶中,无需将表达式转化为混乱是否可以使用C风格的宏？应该用新的类和重载操作符完成吗？解决方法这是一个非常复杂的表达.更好地给它一个名字：现在当您使用整数参数调用它时,由于参数的类型为double,因此使用常规的算术转换将参数转换为double用C11lambda……
objective-c – 如何获取未知大小的NSArray的第一个X元素？

在objectiveC中,我有一个NSArray,我们称之为NSArray*largeArray,我想要获得一个新的NSArray*smallArray,只有第一个x对象…
c – Setprecision是混乱

我只是想问一下setprecision,因为我有点困惑.这里是代码：其中x=以下：方程的左边是x的值.1.105=1.10应为1.111.115=1.11应为1.121.125=1.12应为1.131.135=1.14是正确的1.145=1.15也正确但如果x是：2.115=2.12是正确的2.125=2.12应为2.13所以为什么在一定的价值是正确的,但有时是错误的？请启发我谢谢解决方法没有理由期望使用浮点系统可以正确地表示您的帖子中的任何常量.因此,一旦将它们存储在一个双变量中,那么你所拥有的确切的一