ubuntu14.04+cuda8.0+cudnn5.1+torch7配置整理

2020-06-09 原文

实际上教程网上有很多，这里说下自己遇到的一个坑。

很少有人提到（包括torch7官方）CUDA与torch的安装顺序，我这里测试发现先安装torch再cuda，总是各种问题，所以，先cuda,cudnn，再torch,一路顺利。这应该跟opencv与cuda关系类似。跟torch相关的CUDA实现，要重新编译，因此，先CUDA比较保险。

另外就是网络要好，否则经常断！感谢同事提供的VPN。。

2、NVIDIA 驱动安装
1) Ctrl+alt+F1进入字符界面，关闭图形界面
sudo service lightdm stop //必须有，不然会安装失败
2) 安装nvidia driver

sudo chmod 755 NVIDIA-Linux-x86_64-367.27.run //获取权限sudo ./NVIDIA-Linux-x86_64-367.27.run //安装驱动

Accept
Continue installation
安装完成之后

sudo service lightdm start

图形界面出现，然后关机，切换到1080

3、 Cuda8.0安装
开机（桌上桌下来回窜，还好我比较瘦==。）
1) 在终端运行指令 sudo sh cuda_8.0.27_linux.run
选择
Do you accept the prevIoUsly read EULA?
accept/decline/quit: accept

Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?
(y)es/(n)o/(q)uit: n

Install the CUDA 8.0 Toolkit?
(y)es/(n)o/(q)uit: y

Enter Toolkit Location
[ default is /usr/local/cuda-8.0 ]:

Do you want to install a symbolic link at /usr/local/cuda?
(y)es/(n)o/(q)uit: y

Install the CUDA 8.0 Samples?
(y)es/(n)o/(q)uit: y

Enter CUDA Samples Location
[ default is /home/zhou ]:

Installing the CUDA Toolkit in /usr/local/cuda-8.0 …
Missing recommended library: libglu.so
Missing recommended library: libX11.so
Missing recommended library: libXi.so
Missing recommended library: libXmu.so

Installing the CUDA Samples in /home/zhou …
copying samples to /home/zhou/NVIDIA_CUDA-8.0_Samples Now…
Finished copying samples.

===========
= Summary =
===========
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-8.0
Samples: Installed in /home/zhou,but missing recommended libraries

Please make sure that
- PATH includes /usr/local/cuda-8.0/bin
- LD_LIBRARY_PATH includes /usr/local/cuda-8.0/lib64,or,add /usr/local/cuda-8.0/lib64 to /etc/ld.so.conf and run ldconfig as root

To uninstall the CUDA Toolkit,run the uninstall script in /usr/local/cuda-8.0/bin

Please see CUDA_Installation_Guide_Linux.pdf in /usr/local/cuda-8.0/doc/pdf for detailed information on setting up CUDA.

***WARNING: Incomplete installation! This installation did not install the CUDA Driver. A driver of version at least 361.00 is required for CUDA 8.0 functionality to work.
To install the driver using this installer,run the following command,replacing with the name of this run file:
sudo .run -silent -driver

Logfile is /tmp/cuda_install_2961.log
安装完成，但是缺少一些库。

2) 安装所缺少的库

sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

这个因为网络问题，可能要安装很久。如果安装有问题，可以分开安装各个库，
还是有线好点。

sudo apt-get install vim

安装完成。这个可以不装，用gedit

4) 设置环境变量
在终端输入这两句：

export PATH=/usr/local/cuda-8.0/bin:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

然后修改文件中环境变量设置

sudo vi /etc/profile

输入上面export的两句，保存，退出。

sudo ldconfig //环境变量立即生效

5) 验证安装是否完成

nvidia-smi

显示：

nvcc –V

显示：

nvcc -V nvcc: NVIDIA (R) Cuda compiler driver copyright (c) 2005-2016
NVIDIA Corporation Built on Wed_May__4_21:01:56_CDT_2016 Cuda
compilation tools,release 8.0,V8.0.26

6) 测试cuda的samples

cd ‘/home/zhou/NVIDIA_CUDA-8.0_Samples’make

也不知道是我的错觉还是什么的，比以前快很多啊，大概等7分钟左右吧。（听了两首薛之谦的新歌）

7) 安装cudnn5.0（5.1也一样）
安装cuDNN比较简单，解压后把相应的文件拷贝到对应的CUDA目录下即可：

tar -zxvf cudnn-8.0-linux-x64-v5.0-ga.tgz

显示以下信息：
*cuda/include/cudnn.h
cuda/lib64/libcudnn.so
cuda/lib64/libcudnn.so.5
cuda/lib64/libcudnn.so.5.0.5
cuda/lib64/libcudnn_static.a*
继续执行以下指令：

sudo cp cuda/include/cudnn.h /usr/local/cuda/include/

sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/

sudo chmod a+r /usr/local/cuda/include/cudnn.h

sudo chmod a+r /usr/local/cuda/lib64/libcudnn*

8) 验证一下，哈哈哈哈哈啊哈哈哈哈哈
cuda的samples 里面有个deviceQuery 运行之后会显示信息，最后一行出行pass说明成功啦～～～～

下面是这位同学的：http://blog.csdn.net/hungryof/article/details/51557666

总说

附：最后面加上hdf5的安装。
三个前提：
1. ubuntu别太老，最好14.04或以上吧，本人采用14.04
2. cuda别太老，本人试过cuda7.5和cuda8.0。都完美运行。
3. cudnn一定要和cuda版本对应。这是最关键的。比如我以前cuda是7.5的，即cuda-repo-ubuntu1404-7-5-local_7.5-18_amd64，采用的cudnn就要cudnn-7.5-Linux-x64-v5.0-ga.tgz，是为cuda7.5准备的cudnn5.0版本。现在装的是cuda8.0，即cuda-repo-ubuntu1404-8-0-local_8.0.44-1_amd64.deb。采用的是
cudnn-8.0-linux-x64-v5.1.tgz。

安装与测试

用一个例子来跑，从而验证torch以及cuda和cudnn是否安装成功。
我推荐这个。
参考：链接：https://github.com/jcjohnson/neural-style/blob/master/INSTALL.md
neural-style
其实这篇已经讲的很清楚怎么安装了，但是安装时还是碰到了不少坑。
稍微翻译一下吧，顺便加点小解释：安装torch7

cd ~/
curl -s https://raw.githubusercontent.com/torch/ezinstall/master/install-deps | bash
git clone https://github.com/torch/distro.git ~/torch --recursive
cd ~/torch; ./install.sh

这个稍微注意一下，这里的

curl -s https://raw.githubusercontent.com/torch/ezinstall/master/install-deps | bash

是安装torch的依赖库，和官方的版本不是一样的。如果你运行这个出现版本依赖问题从而没法安装的话，这时候采用下面的官方版本

git clone https://github.com/torch/distro.git ~/torch --recursive
cd ~/torch; bash install-deps;
./install.sh

这里可能会出现的问题，在坑一中。
接下来，它会提示是否吧torch加入bashrc中，有”….(yes|no)”提示，输入yes，即可。
为了保险，可以看看bashrc文件

vim ~/.bashrc

查看文档末尾是不是有类似

./home/xxx/torch/install/bin/torch-activate

上面是你torch安装的路径。
然后跟新一下环境变量。

source ~/.bashrc

现在来说，基本的torch就安装好了！！！就是这么简单。但是你可能还想装cuda，其实也很简单。

下载配置neural style（这个只是进行用代码测试torch是否安装好了。）

安装其他依赖库

sudo apt-get install libprotobuf-dev protobuf-compiler
luarocks install loadcaffe

下载neural style代码

cd ~/
git clone https://github.com/jcjohnson/neural-style.git
cd neural-style

安装VGG模型

sh models/download_models.sh

cpu版本的测试
th neural_style.lua -gpu -1 -print_iter 1

若出现

[libprotobuf WARNING google/protobuf/io/coded_stream.cc:505] Reading dangerously large protocol message.  If the message turns out to be larger than 1073741824 bytes,parsing will be halted for security reasons.  To increase the limit (or to disable these warnings),see CodedInputStream::SetTotalBytesLimit() in google/protobuf/io/coded_stream.h.
[libprotobuf WARNING google/protobuf/io/coded_stream.cc:78] The total number of bytes read was 574671192
Successfully loaded models/VGG_ILSVRC_19_layers.caffemodel
conv1_1: 64 3 3 3
conv1_2: 64 64 3 3
conv2_1: 128 64 3 3
conv2_2: 128 128 3 3
conv3_1: 256 128 3 3
conv3_2: 256 256 3 3
conv3_3: 256 256 3 3
conv3_4: 256 256 3 3
conv4_1: 512 256 3 3
conv4_2: 512 512 3 3
conv4_3: 512 512 3 3
conv4_4: 512 512 3 3
conv5_1: 512 512 3 3
conv5_2: 512 512 3 3
conv5_3: 512 512 3 3
conv5_4: 512 512 3 3
fc6: 1 1 25088 4096
fc7: 1 1 4096 4096
fc8: 1 1 4096 1000
WARNING: Skipping content loss  
Iteration 1 / 1000  
  Content 1 loss: 2091178.593750    
  Style 1 loss: 30021.292114    
  Style 2 loss: 700349.560547   
  Style 3 loss: 153033.203125

则安装成功。表示如果这一步都到不了的话，难度挺大。

安装cuda

这个如果你以前装过就不用再装了，其实就是个环境嘛，默认是安装在/usr/local/cuda-8.0的。安装的时候它会创建一个软链接，类似windows的快捷方式。
直接从官网上下载对应版本的cuda 。然后deb文件直接双击安装。你别以为这个deb安装完了，cuda就安装好了，其实还有附加的库，也是要安装的。这些要通过命令行来进行。

sudo apt-get update
sudo apt-get install cuda

上面的apt-get安装的cuda会根据你的deb的cuda的版本的不同，而安装相应的库。比如你如果是采用cuda8.0的deb，那么此时上面会出现一堆cuda8.0-之类的文件名的库。

最后再试试是否安装好了cuda

nvidia-smi

出现你的显卡配置信息的话，就ok。

安装torch的cuda支持

刚才装的cuda是通用的，是所有的程序框架都可以用的啊。但是你让torch用cuda的话，还要安装2个库cutorch和cunn。其实torch安装相应的其他库还是很简单的，直接一条命令搞定。

luarocks install cutorch
luarocks install cunn

测试一下

th -e "require 'cutorch'; require 'cunn'; print(cutorch)"

此时到这里应该还是妥妥的.

安装cudnn

其实cudnn就是一些链接库，怎么安装呢。把cudnn的头文件放入和相应的链接库放入cuda路径的相应位置就行了。显然头文件是放入include文件夹中，而链接库是放入lib64文件夹中。因此有

tar -xzvf  cudnn-8.0-linux-x64-v5.1.tgz
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-8.0/lib64/
sudo cp cuda/include/cudnn.h /usr/local/cuda-8.0/include/

最后在安装torch的cudnn支持

luarocks install cudnn

测试一下：

th neural_style.lua -gpu 0 -backend cudnn

几乎是百分百成功的，妥妥的，可能会出现坑二。

坑1：torch的依赖库很多！！

curl -s https://raw.githubusercontent.com/torch/ezinstall/master/install-deps | bash

运行这个时，一定会经过较长时间的安装！！！！由于我这里的网很差，所以如果你的也有类似的情况，那么可能会出现：“xxx 校验和不符”。这时说明完全没有安装依赖库好吧！！我以前以为已经装好了，直接下完neural-style，然后./install.sh。我擦，结果出现什么cmake not found之类的。然后我还傻乎乎的去 sudo apt-get install cmake。结果又出现其他乱七八糟的，现在就是一句话：curl -shttps://raw.githubusercontent.com/torch/ezinstall/master/install-deps | bash是把所有的依赖库都会安装好！！并且安装完之后会有类似提示：“torch dependencies have already installed.”

坑2 可能出现’libcudnn not found in library path’的情况

截取其中一段错误信息：

Please install CuDNN from https://developer.nvidia.com/cuDNN
Then make sure files named as libcudnn.so.5 or libcudnn.5.dylib are placed in your library load path (for example /usr/local/lib,or manually add a path to LD_LIBRARY_PATH)

LD_LIBRARY_PATH是该环境变量，主要用于指定查找共享库（动态链接库）时除了默认路径之外的其他路径。由于刚才已经将
“libcudnn*”复制到了/usr/local/cuda-8.0/lib64/下面，因此需要

sudo gedit /etc/ld.so.conf.d/cudnn.conf 就是新建一个conf文件。名字随便
加入刚才的路径/usr/local/cuda-8.0/lib64/
反正我还添加了/usr/local/cuda-8.0/include/,这个估计不要也行。
保存后，再sudo ldconfig来更新缓存。（可能会出现libcudnn.so.5不是符号连接的问题，不过无所谓了！！）

此时运行

th neural_style.lua -gpu 0 -backend cudnn

成功了！！！！

发现用cudnn时，变成50个50个一显示了，速度快了些。刚才但存用cuda只是1个1个显示的。不说了，歇会儿。

总结

一定要版本对应！！cuda和cudnn的版本一定要对应，对应！！！！

HDF5安装

torch中如果直接

luarocks install hdf5

是会出错的。要这样：

sudo apt-get install libhdf5-serial-dev hdf5-tools
git clone https://github.com/deepmind/torch-hdf5
cd torch-hdf5
luarocks make hdf5-0-0.rockspec LIBHDF5_LIBDIR="/usr/lib/x86_64-linux-gnu/"

具体的一些用法参照
DeepMind

ubuntu14.04+cuda8.0+cudnn5.1+torch7配置整理的更多相关文章

关于Torch torchvision Python版本对应关系说明

这篇文章主要介绍了关于Torch torchvision Python版本对应关系说明，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
PyTorch中的CUDA的操作方法

这篇文章主要介绍了PyTorch中的CUDA的操作方法，CUDA是NVIDIA推出的异构计算平台，PyTorch中有专门的模块torch.cuda来设置和运行CUDA相关操作，更多相关介绍，需要的朋友可以查看下面文章内容
是否可以在另一个GPU（2 GPU系统）中处理数据

我的算法需要对每个相机的数据进行长期处理，因此每个相机都需要访问相同的GPU内存问题在一个GPU中处理4个摄像头可能会导致内存不足。所以，我认为一个GPU只能处理两个摄像头。但在第一时间，如果cam3在GPU0处被处理，则cam3数据不能在GPU1处处理。我想将cam3数据从GPU0复制到GPU1，但它并没有那么小，所以看起来效率很低。是否可以在GPU1上使用GPU0数据进行处理而无需内存？我在CUDA方面很短，所以如果有好的关键词来解决这个问题，请告诉我。
encoded_sentence=[label2int[start_index]for generated_text in input_sentence]键错误：2

这是一个句子恢复模型，它无法工作importtorchimporttorch.nnasnnimporttorch.optimasoptim当我运行代码时，以下代码出现KeyError:2错误encoded_sentence=[label2int[start_index]forgenerated_textininput_sentence]是将句子转换为数字，但ai模型不接受。
如何编写CUDA内核来加速python代码

几周来，我一直在学习python作为我的第一种编程语言。我决定用Numba编写一个乐透模拟。该代码在我的CPU上每秒大约250k次迭代时运行得很好。我真的很想看看它是如何在我的英伟达GPU上运行的，但我有点力不从心。如果有人能帮我一把，我将非常感激。我想我应该能够运行float16，因为数字并不复杂。此外，@vectorize似乎很重要。但是，老实说，我在踩水。
为什么cuGraphAddMemCopyNode已经获得了两个上下文，却需要额外的上下文？

考虑CUDA图形API函数在此描述。它采用的CUDA_MEMCPY3D结构是一组非常广泛的参数。实际上，它包含两个上下文句柄字段：srcContext和dstContext，用于定义源和目标内存区域或数组的上下文。然而，该函数需要额外的第三个上下文句柄。但是，这意味着什么？节点是一个图，它通过具有上下文的流启动。除此之外，为什么这很重要？两个端点上下文应该足以让CUDA驱动程序执行复制。虽然大多数节点插入API函数都没有？
windows – 未检测到支持CUDA的设备

我是CUDA编程的新手,我完全陷入困境.当我尝试运行提供的deviceQuery实用程序或其中一个示例应用程序时,我收到以下错误：我使用的是Windows7,64位.我安装了VisualStudio2012,然后安装了CUDA5.064位.我的显卡是NVIDIAGeForceGTS250.今天我去了NVIDIA网站并重新安装了该卡的最新驱动程序.除了“确保安装了正在运行的驱动程序”之外,我在Win
windows – 安装Tensorflow的问题 – 不是CUDA / CuDNN问题

我最近开始进入Tensorflow,但我遇到了安装问题.每次我尝试导入它时,我都会收到以下错误我查看了与我有同样问题的其他堆栈溢出帖子,他们建议从NVIDIA获取CUDA库.问题是,我既没有NVIDIA显卡也没有GPU版本的张量流,所以我不认为这是问题所在.还有一些建议可以确保安装VisualStudio的Microsoft可再发行组件.如果这是一个基于系统变量的问题,我很感激帮助改变系统变量,因为我是新手.谢谢！
如何在Windows上模拟CUDA

有没有什么方法可以从没有NVIDIA显卡的电脑上测试CUDA样品和代码？
Windows – 编译没有Visual Studio的CUDA – “在路径中找不到编译器cl.exe”

我刚刚在CUDA开始了一个小项目.我需要知道如下：是否可以编译CUDA代码而不使用/购买MicrosoftVisualStudio？使用Nvcc.exe我得到错误“找不到编译器cl.exe在路径”.我试图为NetBeans安装一个CUDAplugin,但它不起作用.(使用当前版本的NetBeans)平台：Windows7提前致谢.更新如评论中所述,Windows7之后的SDK版本不包括构建工具.如

随机推荐

crontab发送一个月份的电子邮件

ubuntu14.04邮件服务器：Postfixroot收到来自crontab的十几封电子邮件.这些邮件包含PHP警告.>我已经解决了这些警告的原因.>我已修复每个cronjobs不发送电子邮件(输出发送到>/dev/null2>&1)>我删除了之前的所有电子邮件/var/mail/root/var/spool/mail/root但我仍然每小时收到十几封电子邮件.这些电子邮件来自cronjobs,
模拟两个ubuntu服务器计算机之间的慢速连接

我想模拟以下场景：假设我有4台ubuntu服务器机器A,B,C和D.我想在机器A和机器C之间减少20％的网络带宽,在A和B之间减少10％.使用网络模拟/限制工具来做到这一点？
ubuntu-12.04 – 如何在ubuntu 12.04中卸载从源安装的redis？

我从源代码在Ubuntu12.04上安装了redis-server.但在某些时候它无法完全安装,最后一次makeinstallcmd失败.然后我刚刚通过apt包安装.现在我很困惑哪个安装正在运行哪个conf文件？实际上我想卸载/删除通过源安装的所有内容,只是想安装一个包.转到源代码树并尝试以下命令：如果这不起作用,您可以列出软件自行安装所需的步骤：
ubuntu – “apt-get source”无法找到包但“apt-get install”和“apt-get cache”可以找到它

我正在尝试下载软件包的源代码,但是当我运行时它无法找到.但是当我运行apt-cache搜索squid3时,它会找到它.它也适用于apt-getinstallsquid3.我使用的是Ubuntu11.04服务器,这是我的/etc/apt/sources.list我已经多次更新了.我尝试了很多不同的debs,并没有发现任何其他地方的错误.这里的问题是你的二进制包(deb)与你的源包(deb-src)不
ubuntu – 有没有办法检测nginx何时完成正常关闭？

&&touchrestarted),因为即使Nginx没有完成其关闭,touch命令也会立即执行.有没有好办法呢？这样的事情怎么样？因此,pgrep将查找任何Nginx进程,而while循环将让它坐在那里直到它们全部消失.你可以改变一些有用的东西,比如睡1;/etc/init.d/Nginx停止,以便它会休眠一秒钟,然后尝试使用init.d脚本停止Nginx.你也可以在某处放置一个计数器,这样你就可以在需要太长时间时发出轰击信号.
ubuntu – 如何将所有外发电子邮件从postfix重定向到单个地址进行测试

我正在为基于Web的应用程序设置测试服务器,该应用程序发送一些电子邮件通知.有时候测试是使用真实的客户数据进行的,因此我需要保证服务器在我们测试时无法向真实客户发送电子邮件.我想要的是配置postfix,以便它接收任何外发电子邮件并将其重定向到一个电子邮件地址,而不是传递到真正的目的地.我正在运行ubuntu服务器9.10.先感谢您设置本地用户以接收所有被困邮件：你需要在main.cf中添加：然后
ubuntu – vagrant无法连接到虚拟框

当我使用基本的Vagrantfile,只配置了两条线：我看到我的虚拟框打开,但是我的流氓日志多次显示此行直到超时：然后,超时后的一段时间,虚拟框框终于要求我登录,但是太久了！所以我用流氓/流氓记录.然后在我的物理机器上,如果我“流氓ssh”.没有事情发生,直到：怎么了？
ubuntu – Nginx – 转发HTTP AUTH – 用户？

我和Nginx和Jenkins有些麻烦.我尝试使用Nginx作为Jenkins实例的反向代理,使用HTTP基本身份验证.它到目前为止工作,但我不知道如何传递带有AUTH用户名的标头？}尝试将此指令添加到您的位置块
Debian / Ubuntu – 删除后如何恢复/ var / cache / apt结构？

我在ubuntu服务器上的空间不足,所以我做了这个命令以节省空间但是现在在尝试使用apt时,我会收到以下错误：等等显然我删除了一些目录结构.有没有办法做apt-getrebuild-var-tree或类似的？
检查ubuntu上安装的rubygems版本？

如何查看我的ubuntu盒子上安装的rubygems版本？只是一个想法,列出已安装的软件包和grep为ruby或宝石或其他:)dpkg–get-selections