在 NVIDIA RTX AI 工作站和 NVIDIA GeForce RTX 系统上本地运行生成式 AI 的 NVIDIA NIM 微服务。
编者注:本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 NVIDIA RTX PC 和工作站用户展示全新硬件、软件、工具和加速特性。
在快速发展的人工智能领域中,生成式 AI 正在激发人们的想象力并变革各行各业。使这一切成为可能的是一位默默无闻的幕后英雄:微服务架构。
现代 AI 应用的基础模组
微服务已成为一种强大的架构,从根本上改变了人们设计、构建和部署软件的方式。
微服务架构可将应用分解为一系列可独立部署的松散耦合服务。每个服务都负责一项特定的功能,并通过明确定义的应用编程接口 (API) 与其他服务通信。这种模块化方法与传统的一体化架构形成了鲜明的对比。在传统的一体化架构中,所有功能都会捆绑至单个紧密集成的应用中。
解除各个服务之间的耦合后,团队可以同时处理不同的组件,进而加速开发流程。同时,团队还能针对各个服务单独推出更新,避免对整个应用造成影响。开发者可以专注于构建和改进特定服务,进而提高代码质量并加快解决问题的速度。这种专业化开发让开发者能够成为其特定领域的专家。
服务可以根据需求独立扩展,从而优化资源利用率并提高系统的整体性能。此外,不同的服务可以使用不同的技术,这让开发者能够为各个特定任务选择最合适的工具。
完美搭配:微服务与生成式 AI
微服务架构具有可扩展性、增强的模块化属性和灵活性,因而特别适用于开发生成式 AI 应用。
AI 模型(尤其是大语言模型)需要用到大量的计算资源。微服务能够让这些资源密集型组件实现高效扩展,同时避免对整个系统产生影响。
生成式 AI 应用通常涉及多个步骤,例如数据预处理、模型推理和后处理。借助微服务,每个步骤都可以独立开发、优化和扩展。此外,随着 AI 模型和技术的快速发展,微服务架构可使集成新模型及替换现有模型的过程变得更加轻松,同时不会中断整个应用的运行。
NVIDIA NIM:简化生成式 AI 部署
随着人们对 AI 赋能应用的需求不断增长,开发者在有效部署和管理 AI 模型方面面临着挑战。
NVIDIA NIM 推理微服务可将模型作为经优化的容器提供,以便在云端、数据中心、工作站、台式电脑和笔记本电脑中部署这些模型。每个 NIM 容器都包含经过预训练的 AI 模型和所有必要的运行时组件,可让用户轻松地将 AI 功能集成到应用中。
NIM 可简化集成过程,且兼具生产就绪性和灵活性,为希望引入 AI 功能的应用开发者提供了一种具有变革性的开发方法。开发者可以专注于构建应用,而无需担心数据准备、模型训练或自定义会过于复杂,这是因为 NIM 推理微服务针对性能进行了优化,自带运行时优化,还支持行业标准 API。
触手可及的 AI:工作站和 PC 上的 NVIDIA NIM
构建企业级生成式 AI 应用面临着诸多挑战。虽然云托管模型 API 可以帮助开发者着手进行开发,但与数据隐私、安全性、模型响应延迟、准确性、API 成本和扩展相关的问题往往会阻碍应用投入生产环境。
在支持 NIM 的工作站上,开发者可以安全访问各种模型和经过性能优化的推理微服务。
通过消除与云托管 API 相关的延迟、成本和合规性问题并降低模型部署的复杂性,开发者可以专注于应用开发,进而加速生产就绪型生成式 AI 应用的交付,并在数据中心和云端实现流畅的自动扩展及性能优化。
最近宣布可作为 NIM 的 Meta Llama 3 8B 模型正式版可以在 RTX 系统上本地运行,为个人开发者提供先进的语言模型功能,使其无需云资源的支持即可进行本地测试和实验。借助本地运行的 NIM,开发者可以直接在其工作站上创建复杂的检索增强生成 (RAG) 项目。
本地 RAG 是指完全在本地硬件上部署的 RAG 系统,这种 RAG 不依赖基于云的服务或外部 API。
开发者可以在配备一个或多个 NVIDIA RTX 专业旗舰级 GPU 的工作站或 NVIDIA RTX 系统上使用 Llama 3 8B NIM,完全立足于本地硬件构建端到端 RAG 系统。这种设置让开发者能够充分利用 Llama 3 8B 的强大功能,以确保获得高性能和低延迟。
通过在本地运行整个 RAG 工作流,开发者可以始终保持对其数据的完全掌控,以确保隐私和安全。如果开发者正在构建的应用需要做到实时响应,同时还需兼具高准确性 (例如客户支持聊天机器人、个性化内容生成工具和交互式虚拟助手),那么对于开发者来说,上述方法特别有用。
混合式 RAG 可结合本地和基于云的资源来优化 AI 应用的性能和灵活性。借助 NVIDIA AI Workbench,开发者可以开始使用混合式 RAG Workbench 项目,这是一个示例应用,可提供灵活的资源分配方法,既能用于在本地运行向量数据库和嵌入模型,又能用于在云端或数据中心使用 NIM 执行推理。
开发者可借助这种混合式设置平衡本地和云资源之间的计算负载,以便优化性能和降低成本。例如,向量数据库和嵌入模型可以托管在本地工作站,以确保实现快速的数据检索和处理,而计算强度更大的推理任务则可以分流至基于云的强大 NIM 推理微服务。这种灵活性让开发者能够流畅地扩展应用,以适应不同水平的工作负载,同时确保性能始终都能保持在同一水平。
借助在 RTX PC 和工作站上运行的生成式 AI,NVIDIA ACE NIM 推理微服务可创建栩栩如生的数字人、AI 非玩家角色 (NPC) 和用于客户服务的交互式虚拟形象。
ACE NIM 语音推理微服务 (包括 Riva 自动语音识别、文本转语音和神经网络机器翻译) 可提供准确的转录、翻译和逼真的声音。
NVIDIA Nemotron 小型语言模型是一种智能 NIM,其中包含用于尽可能减少内存使用量的 INT4 量化功能。此外,它还支持角色扮演和 RAG 用例。
而 ACE NIM 外观推理微服务则包括 Audio2Face 和 Omniverse RTX,可用于创建栩栩如生的超逼真动画视觉效果。这有助于提供更具吸引力的游戏角色,为玩家带来更加优秀的沉浸式体验;还能在用户与虚拟客服人员互动时,提供更加令人满意的体验。
深入探究 NIM
随着 AI 的不断发展,快速部署并扩展 AI 功能的能力将变得越来越重要。
NVIDIA NIM 微服务可助力实现突破性创新,为 AI 应用开发的新时代奠定了基础。无论是构建新一代 AI 赋能游戏、开发先进的自然语言处理应用,还是创建智能自动化系统,用户都可以使用这些触手可及的强大开发工具。
如何开始使用:
- 前往 ai.nvidia.com 体验 NVIDIA NIM 微服务并与之交互。
- 加入 NVIDIA 开发者计划,以便免费访问 NIM,并将其用于 AI 赋能应用的测试和原型设计。
- 购买 NVIDIA AI Enterprise 许可证(带有为期 90 天的免费生产部署评估期),并使用 NVIDIA NIM 在云端或数据中心部署自托管 AI 模型。
生成式 AI 正改变游戏、视频会议和各种交互体验。订阅《解码 AI》时事通讯,了解最新动态,掌握后续进展。