一、背景
Amazon Bedrock Inference Profile功能是2024年底推出的一项功能,在诞生之初,主要用于实现跨Region推理,而通过给Profile增加Tag的方式,即可实现费用追踪。
过去,在应用程序代码中调用模型,通常是直接指定模型的版本,例如anthropic.claude-3-5-sonnet-20240620-v1:0:200k
。这样的模型调用没将只发送到当前目标Region(单一Region)。如果此时并发过大,本Region的Token Limit遇到上限,那么将触发限流。使用Inference Profile功能即可解决这一问题。Inference Profile预定义了一组模型推理节点,例如使用US Anthropic Claude 3.5 Sonnet
这个Profile的话,将包含一组2个推理Region,即us-east-1 and us-west-2
。同样,使用以EU开头的Profile,就是在欧洲的几个Region之间分配推理流量。这样,就通过多个Region的GPU容量,显著提升了推理能力。这一过程对用户而言是透明的,应用程序无需调整,只需要使用Inference Profile即可。
Inference Profile除了用于多Region推理外,还可以实现成本分配。Inference Profile有两种类型,分别是用于多Region推理的系统
类型即默认的Profile,还有自定义的名为应用程序
类型。使用时,为不同的应用程序创建自己专有的应用程序类型的Inference Profile,创建时候需要以某个系统
类型的Profile为基准,然后创建自定义类型。创建成功后,在Inference Profile上绑定不同的Tag标签,这样即可实现Inference Profile与应用的映射关系。