本文基于亚马逊云开发者微信公众号这篇文章的内容编写,对相关服务增加了介绍,操作过程做了截图,并汇总了冷启动、费用等问题。有疑问请参考原文。
一、背景
在前一篇博客中介绍了使用Ollama在MacOS本机或者EC2 G系列实例上快速启动DeepSeek R1蒸馏后的1.5b模型/32b(均基于Qwen蒸馏而来)。在生产环境中,单机部署只能解决时效性要求不高的批量离线推理,对于在线的实时推理场景,单机部署是不能满足高可靠要求和并发要求的,一但单机遇到故障,整个应用就无法访问了。因此此时就需要在Bedrock上托管的方式部署。
Bedrock支持自定义模型导入功能。截至2025年1月Bedrock导入自定义模型仅支持Llama架构、不支持Qwen架构,因此导入DeepSeek R1模型蒸馏的一组模型时候,无法选择基于Qwen架构的32B参数的版本。可用的将是8B和70B参数的版本(基于Llama)。本文选择70B参数的版本,通过Custom Model Import功能在Bedrock上部署。
Continue reading “在Bedrock上以导入自定义模型的方式部署DeepSeek R1模型蒸馏的Llama70b模型”