原始地址:http://hyichao.github.io/cv/2016/10/15/ubuntu-cuda-caffe.html

本文实际上是旧文翻新,不小心弄坏了自己的cuda环境,折腾了一天左右重新搞好,然后加深了一点点对整个安装过程的理解,以及更新一点相关问题的解决方案。

Motivation

在近年的深度学习热潮里面,研究者都离不开使用一些流行的深度学习框架,较早期是caffe,后面各大公司各大团队纷纷开源出新的深度框架,各有特色,呈百家争鸣之势,如tensorflow,mxnet等。关于这些框架的优劣比较,可以参考这篇文章。当然,如题所示,本文的重点不在于这些框架,而是在于如何安装使用这些框架。实际上,网络上充斥着各种教程,大部分都是知其然不知其所以然,即使是stackoverflow或者是askubuntu,也遇到大量无用答案,遇到问题搜索起来还是比较痛苦。本文算是为自己做一点笔记,也希望有一天能帮助到有需要的人。

Must KNow

无论我们最终选择使用哪个深度学习框架,都必须使用Nvidia的显卡和cuda(Nvidia是这次深度大潮的真正大赢家)。那么在我们入坑的第一天,毫无疑问,需要做的事情就是装cuda环境。接下俩我们一一分析一些常见教程里面的每一个步骤究竟做了什么,在什么情况下会出问题,又该如何修复。在开始之前,首先问自己以下几个问题:

  1. 你的机器是什么系统?(本文暂时支持Ubuntu14.04 64bit,16.04有特殊的打开方式..)
  2. 你的显卡是什么型号?(本人使用的是TitanX,1000系列有特殊的打开方式..)
  3. 你的系统现在处于什么状态?(新装/装过驱动/装过cuda
  4. 你使用独显渲染GUI吗?还是使用集显输出GUI而独显仅作计算?(非常重要!本人使用集显输出显示独显仅做计算,好处是训练的时候不会卡..)

对于第一个问题和第二个问题,主要是考虑一些驱动的兼容性问题。一般而言14.04相对比较稳定,大多数显卡都能够在14.04使用。然而比较新的型号入NVidia 1070或者1080这个系列仅支持Ubuntu16.04,然后就引起一些编译器版本的兼容性问题,据说是16.04的gcc版本太高,cuda-8.0无法编译,也是比较搞笑。如果显卡不是这么高端的话,且还可以选择系统的话,建议14.04。

对于第三个问题,主要是考虑驱动残留的问题。有时候,小白会根据网上一些教程胡乱安装导致系统残留各种奇怪的程序。大部分情况下,其实都没有什么问题,但是一旦涉及到驱动,很容易就出现无法进入图形界面,登陆循环等问题。一般而言,比较理想的安装环境就是没有任何nvidia驱动,而为了达到这个目的,我们可以通过卸载所有nvidia驱动实现。

# the command uninstall all driver remain in system.
sudo apt-get remove --purge nvidia-*

# if this cause GUI problem,try the following
sudo apt-get install ubuntu-desktop

如果是安装过cuda但是想卸载掉现有的cuda重新安装更新的版本,比较简单的做法自然是进入cuda的安装路径,直接删除,包括一个cuda-x.x和一个软连接。

cd /usr/local sudo rm -rf cuda*

OK,该卸的卸该删的删,既然决定了要重新安装,那就说明你和现有的这个cuda没有感情了,当断则断,否则剪不断理还乱。然后,我们开始选择一个合适的方式去安装。

Installation Guide

为了使用GPU跑深度框架,我们需要完成以下几项安装流程:

1. 必要的基本依赖

参考caffe的instruction。这里面所安装的有些是caffe的依赖如protobuf/leveldb/opencv,有些是c++环境如build-essential,有些是计算库如blas。其中opencv基本上是视觉领域的标配,protobuf和leveldb是caffe为了加速io选择的技术,build-essential包含了如编译器gcc等内容,etc. 那么因为这些依赖基本对系统核心不影响,全部装上即使不用也无所谓,可以放心安装。 ### 2. Nvidia驱动的安装 从此处开始,我们要小心翼翼的选择我们的安装方式,安装驱动这件事情坑实在太多,一不小心就把自己陷入麻烦的漩涡。首先这里我们提出两种安装NvidiaDriver的方式.

  1. 方案一:通过NVIDIA官网下载驱动的.run文件,赋予执行权之后,运行.run文件安装
  2. 方案二:安装cuda toolkit顺便把驱动也装了

两种安装方式都可行,如使用方案一,那么在安装cuda的时候可以选择安装驱动;否则,在cuda安装的同时把驱动也装上其实也是可以的。

!!有一个地方一定要注意!!

假如使用独显仅作计算而使用集显输出GUI,那么我们需要在安装驱动的时候加上一个高级选项--no-opengl-libs。原因是,NVidia的驱动默认会安装openGL,而实际上ubuntu内核本身也有openGL而且和GUI显示息息相关,那么一旦NVidia的驱动覆写了opengl,在GUI需要动态链接opengl库的时候就引起问题。本人遇到的就是登陆界面死循环,英语一般称为“login loop”或者”stuck in login”。所以,如果是使用.run的方式安装,在运行.run的时候,就带上刚刚提到的高级选项。完整流程如下:

# switch to tty by control+alt+f1 sudo service stop lightdm cd /path/to/your/runfile/ # Could use command ll to check if it is executable chmod +x NVIDIA-Linux-x86_64-367.57.run sudo ./NVIDIA-Linux-x86_64-367.57.run -no-opengl-libs
可能遇到的问题以及解决方案

上述要注意的这个地方,万一一个不小心手抖了添加no-opengl的选项,那么如无意外会遇到循环登陆(login loop)的问题。不要慌,首先把刚刚安装的NVIDIA驱动全部卸载干净。

sudo apt-get remove --purge nvidia-* # reboot computer.. sudo reboot Now

google搜到一些其他解决方案在这个情况下一般都没用。

  1. 删除Xauthority。无用,此处问题的关键在于OpenGL。
  2. 重装lightdm或者安装gdm。无用,因为lightdm或者gdm均为显示管理,处于驱动的上层,驱动层出的问题无论重装其上层多少次都不会改变现状。
  3. 安装NVidia-current。可能有用可能没用。实际上通过命令sudo apt-get install nvidia-current所得到的驱动是nvidia-304。不一定是当前机器真正需要用的,而且这个做法也可能覆写了一些其他内容,不推荐这样做。
  4. 重装一个系统图形界面。有用但不好。有一些solution提出的是弃用ubuntu改为使用lubuntu,因为这个安装可以认为是系统层面的,那么驱动也会被覆写称为lubuntu的驱动,那么就可以继续使用了。然而,这个方案最大的缺点是,界面丑…强迫症患者请不要选择这个方案,否则最终会因为无法忍受界面丑陋而重装或者再次折腾。

当彻底卸载NVIDIA的驱动之后,实际上相当于回到的新装系统的状态(刚装机的时候就是没有任何NVIDIA驱动的,全凭系统本身的集成显卡驱动去输出界面。若本身在BIOS选择用独显输出的话,卸载驱动之后理论上应该就是完全无法显示图形界面了)

同样的,利用上述的方案二,实际上可以理解为CUDA Toolkit里面包含了驱动的.run包。那么也是注意根据独显和集显的情况,添加--no-opengl-libs高级选项。

3. CUDA安装

cuda的安装实际上可以大致上分为两种方式:

  1. 通过.run包直接执行然后根据提示一步步往下安装。
  2. 通过.deb包配合apt-get进行自动的安装以及配置。

实际上在cuda的下载页面有官方的指引,此处做一下搬运。

若以方式1安装,则

# You may need to use chmod +x for the run file sudo sh cuda_8.0.44_linux.run # Follow the command-line prompts

若以方式2安装,则

sudo dpkg -i cuda-repo-ubuntu1404-8-0-local_8.0.44-1_amd64.deb sudo apt-get update sudo apt-get install cuda

此处稍微分析一下第一句command。我们可以尝试理解为.deb包是一个安装程序。我们通过dpkg把安装程序解压成为一个可执行的安装程序。然后在sudo apt-get install cuda的时候真正发起安装。

依然,有一个地方要注意…

通过deb包安装的方式,默认情况下,是不会禁用nouveau,也不会禁止openGL覆写。所以对于集显输出GUI的同学乃至部分独显输出GUI的同学,通过这个方式安装容易引起login loop的问题。那么,不慌,解决方案同上,卸载赶紧所有NVIDIA的驱动然后重启是可以恢复的。

Ubuntu安装cuda的更多相关文章

  1. android – 符合Nvidia Tegra profiler 2.0的移动设备

    解决方法通常任何基于Tegra4和K1的设备都可以工作,但我会推荐Nvidia的Shield/Note用于你的工作,不仅是他们退出便宜,而且他们的机器人留下了很多香草使它更容易使用.还有(可用的)更新策略的优点.

  2. PyTorch中的CUDA的操作方法

    这篇文章主要介绍了PyTorch中的CUDA的操作方法,CUDA是NVIDIA推出的异构计算平台,PyTorch中有专门的模块torch.cuda来设置和运行CUDA相关操作,更多相关介绍,需要的朋友可以查看下面文章内容

  3. 是否可以在另一个GPU(2 GPU系统)中处理数据

    我的算法需要对每个相机的数据进行长期处理,因此每个相机都需要访问相同的GPU内存问题在一个GPU中处理4个摄像头可能会导致内存不足。所以,我认为一个GPU只能处理两个摄像头。但在第一时间,如果cam3在GPU0处被处理,则cam3数据不能在GPU1处处理。我想将cam3数据从GPU0复制到GPU1,但它并没有那么小,所以看起来效率很低。是否可以在GPU1上使用GPU0数据进行处理而无需内存?我在CUDA方面很短,所以如果有好的关键词来解决这个问题,请告诉我。

  4. 如何编写CUDA内核来加速python代码

    几周来,我一直在学习python作为我的第一种编程语言。我决定用Numba编写一个乐透模拟。该代码在我的CPU上每秒大约250k次迭代时运行得很好。我真的很想看看它是如何在我的英伟达GPU上运行的,但我有点力不从心。如果有人能帮我一把,我将非常感激。我想我应该能够运行float16,因为数字并不复杂。此外,@vectorize似乎很重要。但是,老实说,我在踩水。

  5. 为什么cuGraphAddMemCopyNode已经获得了两个上下文,却需要额外的上下文?

    考虑CUDA图形API函数在此描述。它采用的CUDA_MEMCPY3D结构是一组非常广泛的参数。实际上,它包含两个上下文句柄字段:srcContext和dstContext,用于定义源和目标内存区域或数组的上下文。然而,该函数需要额外的第三个上下文句柄。但是,这意味着什么?节点是一个图,它通过具有上下文的流启动。除此之外,为什么这很重要?两个端点上下文应该足以让CUDA驱动程序执行复制。虽然大多数节点插入API函数都没有?

  6. windows – 未检测到支持CUDA的设备

    我是CUDA编程的新手,我完全陷入困境.当我尝试运行提供的deviceQuery实用程序或其中一个示例应用程序时,我收到以下错误:我使用的是Windows7,64位.我安装了VisualStudio2012,然后安装了CUDA5.064位.我的显卡是NVIDIAGeForceGTS250.今天我去了NVIDIA网站并重新安装了该卡的最新驱动程序.除了“确保安装了正在运行的驱动程序”之外,我在Win

  7. windows – 安装Tensorflow的问题 – 不是CUDA / CuDNN问题

    我最近开始进入Tensorflow,但我遇到了安装问题.每次我尝试导入它时,我都会收到以下错误我查看了与我有同样问题的其他堆栈溢出帖子,他们建议从NVIDIA获取CUDA库.问题是,我既没有NVIDIA显卡也没有GPU版本的张量流,所以我不认为这是问题所在.还有一些建议可以确保安装VisualStudio的Microsoft可再发行组件.如果这是一个基于系统变量的问题,我很感激帮助改变系统变量,因为我是新手.谢谢!

  8. 如何在Windows上模拟CUDA

    有没有什么方法可以从没有NVIDIA显卡的电脑上测试CUDA样品和代码?

  9. Windows – 编译没有Visual Studio的CUDA – “在路径中找不到编译器cl.exe”

    我刚刚在CUDA开始了一个小项目.我需要知道如下:是否可以编译CUDA代码而不使用/购买MicrosoftVisualStudio?使用Nvcc.exe我得到错误“找不到编译器cl.exe在路径”.我试图为NetBeans安装一个CUDAplugin,但它不起作用.(使用当前版本的NetBeans)平台:Windows7提前致谢.更新如评论中所述,Windows7之后的SDK版本不包括构建工具.如

  10. 在Ubuntu 12.10中安装cuda 5样本

    我正在安装cuda5样本:但是我收到这个错误:但:nvidia安装程序正在寻找什么?Ubuntu12.10中没有/usr/lib64:我也在运行Ubuntu12.10,我发现这个库在文件夹/usr/lib/x86_64-linux-gnu/之后安装freeglut3包.我也做了一个softlink,我已经能够安装CUDA5.0的例子:我还没有检查样品是否可以编辑.

随机推荐

  1. crontab发送一个月份的电子邮件

    ubuntu14.04邮件服务器:Postfixroot收到来自crontab的十几封电子邮件.这些邮件包含PHP警告.>我已经解决了这些警告的原因.>我已修复每个cronjobs不发送电子邮件(输出发送到>/dev/null2>&1)>我删除了之前的所有电子邮件/var/mail/root/var/spool/mail/root但我仍然每小时收到十几封电子邮件.这些电子邮件来自cronjobs,

  2. 模拟两个ubuntu服务器计算机之间的慢速连接

    我想模拟以下场景:假设我有4台ubuntu服务器机器A,B,C和D.我想在机器A和机器C之间减少20%的网络带宽,在A和B之间减少10%.使用网络模拟/限制工具来做到这一点?

  3. ubuntu-12.04 – 如何在ubuntu 12.04中卸载从源安装的redis?

    我从源代码在Ubuntu12.04上安装了redis-server.但在某些时候它无法完全安装,最后一次makeinstallcmd失败.然后我刚刚通过apt包安装.现在我很困惑哪个安装正在运行哪个conf文件?实际上我想卸载/删除通过源安装的所有内容,只是想安装一个包.转到源代码树并尝试以下命令:如果这不起作用,您可以列出软件自行安装所需的步骤:

  4. ubuntu – “apt-get source”无法找到包但“apt-get install”和“apt-get cache”可以找到它

    我正在尝试下载软件包的源代码,但是当我运行时它无法找到.但是当我运行apt-cache搜索squid3时,它会找到它.它也适用于apt-getinstallsquid3.我使用的是Ubuntu11.04服务器,这是我的/etc/apt/sources.list我已经多次更新了.我尝试了很多不同的debs,并没有发现任何其他地方的错误.这里的问题是你的二进制包(deb)与你的源包(deb-src)不

  5. ubuntu – 有没有办法检测nginx何时完成正常关闭?

    &&touchrestarted),因为即使Nginx没有完成其关闭,touch命令也会立即执行.有没有好办法呢?这样的事情怎么样?因此,pgrep将查找任何Nginx进程,而while循环将让它坐在那里直到它们全部消失.你可以改变一些有用的东西,比如睡1;/etc/init.d/Nginx停止,以便它会休眠一秒钟,然后尝试使用init.d脚本停止Nginx.你也可以在某处放置一个计数器,这样你就可以在需要太长时间时发出轰击信号.

  6. ubuntu – 如何将所有外发电子邮件从postfix重定向到单个地址进行测试

    我正在为基于Web的应用程序设置测试服务器,该应用程序发送一些电子邮件通知.有时候测试是使用真实的客户数据进行的,因此我需要保证服务器在我们测试时无法向真实客户发送电子邮件.我想要的是配置postfix,以便它接收任何外发电子邮件并将其重定向到一个电子邮件地址,而不是传递到真正的目的地.我正在运行ubuntu服务器9.10.先感谢您设置本地用户以接收所有被困邮件:你需要在main.cf中添加:然后

  7. ubuntu – vagrant无法连接到虚拟框

    当我使用基本的Vagrantfile,只配置了两条线:我看到我的虚拟框打开,但是我的流氓日志多次显示此行直到超时:然后,超时后的一段时间,虚拟框框终于要求我登录,但是太久了!所以我用流氓/流氓记录.然后在我的物理机器上,如果我“流氓ssh”.没有事情发生,直到:怎么了?

  8. ubuntu – Nginx – 转发HTTP AUTH – 用户?

    我和Nginx和Jenkins有些麻烦.我尝试使用Nginx作为Jenkins实例的反向代理,使用HTTP基本身份验证.它到目前为止工作,但我不知道如何传递带有AUTH用户名的标头?}尝试将此指令添加到您的位置块

  9. Debian / Ubuntu – 删除后如何恢复/ var / cache / apt结构?

    我在ubuntu服务器上的空间不足,所以我做了这个命令以节省空间但是现在在尝试使用apt时,我会收到以下错误:等等显然我删除了一些目录结构.有没有办法做apt-getrebuild-var-tree或类似的?

  10. 检查ubuntu上安装的rubygems版本?

    如何查看我的ubuntu盒子上安装的rubygems版本?只是一个想法,列出已安装的软件包和grep为ruby或宝石或其他:)dpkg–get-selections

返回
顶部