首页 > 资讯

性能瞩目:Tensor RT-LLM,使大语言模型在搭载 RTX 的Windows平台上运行速度提高4倍

来源: 阅读:(7900)评论:(0) 收藏:(0)
生成式 AI(GenerativeAI)是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。

  +++
 
  生成式 AI(GenerativeAI)是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。
 
  GeForceRTX 和 NVIDIARTXGPU配备名为TensorCores的专用AI处理器,将生成式 AI (GenerativeAI)的强大功能原生引入超过1亿台WindowsPC和工作站。
 
  如今,TensorRT-LLM for Windows 使PC生成式AI(GenerativeAI)速度提高4倍,Tensor RT-LLM for Windows是一个开源库,可加速最新AI大语言模型(如Llama2和CodeLlama)的推理性能。此前,TensorRT-LLM for Datacenter 已在上个月发布。
 
  NVIDIA还发布帮助开发者加速LLM 的工具,包括使用TensorRT-LLM优化自定义模型的脚本、TensorRT优化的开源模型,以及一个展示LLM响应速度和质量的开发者参考项目。
 
  TensorRT 加速现已应用于 Automatic 1111 发布的热门应用 Stable Diffusion WebUI。它将生成式 AI(GenerativeAI)扩散模型的速度提升2倍,比此前最快的速度还快。
 
  此外,作为今天发布的 GameReady 驱动的一部分,RTX VSR 视频超分辨率(VideoSuperResolution)v1.5版现已发布,11月初发布的 NVIDIAStudio驱动 也将支持该技术。
 
  Tensor RT为LLM增效
 
  LLM正在提高生产力——聊天、总结文档和网页内容、起草电子邮件和博客,并且是由AI和其他软件所组成的全新工作流的核心,可以自动分析数据并生成大量内容。
 
  Tensor RT-LLM 是 NVIDIA 用于加速LLM推理的库,使开发者和最终用户可以享受运行 LLM 的更多优势。现在,LLM 在搭载 RTX 的 WindowsPC 上的运行速度可提高4倍。
 
  在更大的批量大小下,这种加速可显著改善更复杂的LLM使用体验,如写作和编码助手,可同时输出多个唯一的自动完成结果,从而加速性能并改进质量,让用户可以有最好的选择。
 
  TensorRT-LLM 加速还有利于将LLM功能与其他技术相结合,例如在检索增强生成(RAG)中,LLM与向量库或向量数据库组合。RAG使LLM能根据特定的数据集(如用户的电子邮件或网站文章)提供更有针对性的答案。
 
  在实际应用中,当我们向LLaMa2基础模型提出"《心灵杀手2》(AlanWake2) 集成了 NVIDIA 的哪些技术?"这一问题时,它给出"游戏尚未公布"这一毫无帮助的回答。
 
  相反,使用RAG 将GeForce 新闻添加到向量库中,并连接到相同的Llama2模型,不仅得到正确答案——NVIDIADLSS3.5、NVIDIAReflex和全景光线追踪,而且在TensorRT-LLM加速的助力下响应速度更快。这种速度与能力的结合为用户提供更智能的解决方案。
 
  Tensor RT-LLM 即将能从 NVIDIA开发者网站下载。
 
  Tensor RT优化的开源模型和以GeForce 新闻为示例项目的RAGDemo 可从ngc.nvidia.com和GitHub.com/NVIDIA下载。
 
  自动加速
 
  Diffusion模型(如 StableDiffusion)用于想象和创造令人惊叹的新颖艺术作品。图像生成是一个迭代过程,可能需要数百次循环才能获得完美输出。如果在性能不足的 PC 上进行,这种循环可能会增加数小时的等待时间。
 
  TensorRT旨在通过神经网络层融合、精度校准、内核自动选择和其他功能加速AI模型,从而显著提高推理效率和速度。这使它成为实时应用和资源密集型任务不可或缺的工具。
 
  现在,TensorRT使 StableDiffusion 生成速度翻倍。
 
  兼容最热门的 Automatic1111WebUI,借助 TensorRT 加速的 StableDiffusion 可以帮助用户加快迭代速度,减少PC等待时间,更快生成最终图像。在GeForceRTX4090上,它的运行速度是使用苹果M2Ultra的Mac顶配版的7倍。该扩展即日起可供下载。
 
  基于 StableDiffusion 流程的TensorRTDemo 为开发者提供了如何为Tensor RT加速准备扩散模型并部署加速的参考实现。这是一个起点,它可以为对此感兴趣的开发者加速 Diffusion 流程,并为应用带来快如闪电的推理能力。
 
  超级视频体验
 
  AI 正在改善所有用户的诸多日常PC体验。流媒体视频是PC上最受欢迎的活动之一,其来源几乎无所不包,如YouTube、Twitch、PrimeVideo、Disney+等。得益于 AI 和RTX,它的图像质量又有全新提升。
 
  RTXVSR视频超分辨率在 AI 像素处理方面的重大突破,通过减少或消除压缩视频造成的失真,提高直播视频内容的质量。此外,它还能锐化边缘和细节。
 
  现在,RTXVSR 视频超分辨率v1.5版通过更新模型进一步提升视频画面质量,消除以原始分辨率播放内容的伪影,并增加对采用 NVIDIA Turing 架构的RTX 20 系列GPU的支持,包括:专业图形卡和GeForceRTX20系列GPU。
 
  重新训练VSRAI模型有助于它学会准确识别微妙细节和压缩失真之间的区别。因此,经过AI增强的图像在放大过程中能更准确地保留细节。细节更加清晰可见,整体图像看起来更加锐利清晰。v1.5版的全新功能是消除以屏幕原始分辨率播放视频时的失真。最初的版本仅在视频分辨率被提升时增强视频效果。现在,例如在1080p分辨率显示器上串流1080p视频会更流畅,因为严重的失真会显著改善。
 
 
  RTXVSR现在能消除以原始分辨率播放视频时的失真
 
  即日起,所有RTX用户可在最新的GameReady 驱动中获取 RTXVSR 视频超分辨率v1.5 版使用,下月初发布的NVIDIAStudio驱动也将支持该技术。
 
  RTXVSR 视频超分辨率是NVIDIA软件、工具、库和SDK(如上文提到的软件、工具、库和SDK,以及DLSS、Omniverse、AIWorkbench等软件)的一部分,这些软件、工具、库和SDK为消费者带来超过400款AI加速的应用和游戏。
 
  AI时代即将到来。RTX正为其发展的每一步增加动力。
 
  关于NVIDIA
  自1993年成立以来,NVIDIA (NASDAQ: NVDA) 一直是加速计算领域的先驱。NVIDIA 1999年发明的 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代AI时代,正在推动跨市场的工业数字化。NVIDIA 现在是一家全栈计算公司,其数据中心规模的解决方案正在重塑整个行业。更多信息,请访问https://nvidianews.nvidia.com/。
 
  # # #
 
  媒体咨询:
 
  Jade Li
 
  NVIDIA GeForce, Studio PR
 
  邮箱:jadli@nvidia.com

版权与免责声明:
  凡本网注明“来源:XXX(非本网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如果发现有涉嫌抄袭或侵权的内容,欢迎发送邮件至3210542184@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。