July 9, 2025 – PCMAN的技术博客 – 2025 仰望星空，脚踏实地

一、背景

Amazon Bedrock Inference Profile功能是2024年底推出的一项功能，在诞生之初，主要用于实现跨Region推理，而通过给Profile增加Tag的方式，即可实现费用追踪。

过去，在应用程序代码中调用模型，通常是直接指定模型的版本，例如anthropic.claude-3-5-sonnet-20240620-v1:0:200k。这样的模型调用没将只发送到当前目标Region（单一Region）。如果此时并发过大，本Region的Token Limit遇到上限，那么将触发限流。使用Inference Profile功能即可解决这一问题。Inference Profile预定义了一组模型推理节点，例如使用US Anthropic Claude 3.5 Sonnet这个Profile的话，将包含一组2个推理Region，即us-east-1 and us-west-2。同样，使用以EU开头的Profile，就是在欧洲的几个Region之间分配推理流量。这样，就通过多个Region的GPU容量，显著提升了推理能力。这一过程对用户而言是透明的，应用程序无需调整，只需要使用Inference Profile即可。

Inference Profile除了用于多Region推理外，还可以实现成本分配。Inference Profile有两种类型，分别是用于多Region推理的系统类型即默认的Profile，还有自定义的名为应用程序类型。使用时，为不同的应用程序创建自己专有的应用程序类型的Inference Profile，创建时候需要以某个系统类型的Profile为基准，然后创建自定义类型。创建成功后，在Inference Profile上绑定不同的Tag标签，这样即可实现Inference Profile与应用的映射关系。

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Day: July 9, 2025

使用Amazon Bedrock Inference Profile结合Tag实现模型调用费用分拆

一、背景