Generative AI and Machine Learning – PCMAN的技术博客

使用Amazon Bedrock Inference Profile结合Tag实现模型调用费用分拆

一、背景

Amazon Bedrock Inference Profile功能是2024年底推出的一项功能，在诞生之初，主要用于实现跨Region推理，而通过给Profile增加Tag的方式，即可实现费用追踪。

过去，在应用程序代码中调用模型，通常是直接指定模型的版本，例如anthropic.claude-3-5-sonnet-20240620-v1:0:200k。这样的模型调用没将只发送到当前目标Region（单一Region）。如果此时并发过大，本Region的Token Limit遇到上限，那么将触发限流。使用Inference Profile功能即可解决这一问题。Inference Profile预定义了一组模型推理节点，例如使用US Anthropic Claude 3.5 Sonnet这个Profile的话，将包含一组2个推理Region，即us-east-1 and us-west-2。同样，使用以EU开头的Profile，就是在欧洲的几个Region之间分配推理流量。这样，就通过多个Region的GPU容量，显著提升了推理能力。这一过程对用户而言是透明的，应用程序无需调整，只需要使用Inference Profile即可。

Inference Profile除了用于多Region推理外，还可以实现成本分配。Inference Profile有两种类型，分别是用于多Region推理的系统类型即默认的Profile，还有自定义的名为应用程序类型。使用时，为不同的应用程序创建自己专有的应用程序类型的Inference Profile，创建时候需要以某个系统类型的Profile为基准，然后创建自定义类型。创建成功后，在Inference Profile上绑定不同的Tag标签，这样即可实现Inference Profile与应用的映射关系。

MCP系列：启动你的第一个MCP Server并与之交互

本文展示了一个MCP Server和Client的运行交互过程，通过Step-by-step的打印日志，帮助理解MCP是如何工作的。本文引用的代码参考文中的Github链接。

一、背景

1、为何出现了MCP

MCP的全程是Model Context Protocol (MCP)，是由Anthropic公司发起的开源项目，旨在为大模型和第三方工具调用定义一个规范的、标准的接口，便于更多开发者编写的工具代码能够兼容通用。

在Bedrock上以导入自定义模型的方式部署DeepSeek R1模型蒸馏的Llama70b模型

本文基于亚马逊云开发者微信公众号这篇文章的内容编写，对相关服务增加了介绍，操作过程做了截图，并汇总了冷启动、费用等问题。有疑问请参考原文。

一、背景

在前一篇博客中介绍了使用Ollama在MacOS本机或者EC2 G系列实例上快速启动DeepSeek R1蒸馏后的1.5b模型/32b（均基于Qwen蒸馏而来）。在生产环境中，单机部署只能解决时效性要求不高的批量离线推理，对于在线的实时推理场景，单机部署是不能满足高可靠要求和并发要求的，一但单机遇到故障，整个应用就无法访问了。因此此时就需要在Bedrock上托管的方式部署。

Bedrock支持自定义模型导入功能。截至2025年1月Bedrock导入自定义模型仅支持Llama架构、不支持Qwen架构，因此导入DeepSeek R1模型蒸馏的一组模型时候，无法选择基于Qwen架构的32B参数的版本。可用的将是8B和70B参数的版本（基于Llama）。本文选择70B参数的版本，通过Custom Model Import功能在Bedrock上部署。

使用Ollama在MacOS本机和AWS EC2 G系列机型上运行DeepSeek R1蒸馏模型

一、背景

1、什么是Ollama

Ollama是一个在本地运行大语言模型（LLM）的开源框架，提供了针对Windows、Linux、MacOS预先封装好的一系列模型，可一键方式在开发者本地（例如笔记本）运行大模型，大大简化了体验和开发的过程。Ollma将不同模型封装到自定义的容器架构内，并针对不同硬件架构做好了适配，可在包括Apple M1处理器在内的多种机型上运行。

使用AWS平台上的ASR（Transcribe）和TTS（Polly）服务

ASR的全称是Automated Speech Recognition，通俗的说就是语音输入识别。TTS的全称是Text to Speech，也就是从文本到语音的人工合成。在AWS这两个场景分别对应的是Amazon Transcribe服务，以及Amazon Polly服务。

本文的Demo演示ASR功能本机mic输入，以及TTS通过本机扬声器播放合成的语音。

配置CloudFront及Lambda@Edge为Bedrock加速

本文基于Github上作者jief123的方案编写。Github官方文档方案采用CDK形式部署，而本文是描述如何手工部署。

使用IAM Policy指定IP范围以限制用户对Bedrock服务的调用

一、背景

由于中美贸易战纠纷，一些高科技领域存在黑名单，禁止中国（含香港）地区的用户使用美国开发商的技术和服务。在这种政策要求下，作为业界最前沿的领先的2个大语言模型的供应商 OpenAI（ChatGPT）和 Anthropic（Claude）均宣布不向中国地区用户提供服务。同时，AWS Bedrock上的Claude模型，也需要遵循监管规则，即模型使用者必须是海外用户，包括AWS账户注册的联络地址、账单地址都必须在海外，这些地址不能是中国大陆、也不能是香港，但可以是新加坡。如果是存在Partner代付的场景，Partner也必须满足以上标准。

在以上背景下，海外应用使用Anthropic Claude模型是完全合规的，即模型使用者是在海外，应用代码部署位置也是在海外，处理的信息也是海外用户信息。虽然如此，由于大部分互联网公司的开发团队在国内，开发者经常会在本机使用国内网络直接调用Bedrock上的Claude服务进行开发测试。这种情况下，调用Bedrock Claude服务的来源IP依然是中国地区的IP，此时可能会存在不合规的情况。这种不合规场景有可能会导致账号异常。

为了避免这种不合规场景，可找到调用Bedrock服务的AKSK所对应的IAM User，在这个IAM User上增加对应的IAM Policy，以白名单方式只允许海外特定IP的请求，并拒绝来自其他地区（含中国区）的请求，避免不合规的调用。

Bedrock上的Claude模型的Tool use

一、背景

1、什么是Tool use

Tool use也叫做Function calling，这是指模型识别访问意图并调用外部工具的能力。例如在一个对话查询中，希望检索互联网上当前最火热的歌曲，或者触发另一个系统的特定的API。这种能力往往和Agent以及知识库搭配使用。需要注意的是，Tool use场景中大语言模型不会直接运行API Call，而是将需要API Call的请求拼接好返回给调用大语言模型的代码。API call的执行过程是完全由程序调用来负责执行的。因此当代码执行API Call获得返回结果之后，还需要将返回结果再次输入到大语言模型中，并且包含上次的聊天记录一起返回。这时即可获得预期的插叙结果。

本文以一个数学计算为例，输入一个计算要求，识别是Tool场景，程序完成Tool use获取结果，再将结果代回到大模型对话，完成整个流程。

通过分析Bedrock日志来获取不同应用各自调用成本

在Athena查询语句SQL中，更新了Claude 3 Sonnect 3.5的价格（基于美西）。

本文已更新使用Athena Partition Projection功能，无须再手工管理数据分区。

一、背景

1、挑战

Amazon Bedrock提供多了多种基础模型的Model as a Service的调用能力，用户通过API调用Bedrock并指定要交互的模型，如Claude3的不同版本，即可获得模型返回结果。当属于多个团队、多个Workload的不同应用程序，分别调用Bedrock API时候，在AWS的账单中将仅包含从API传入的Token和生成的Token总数，但是没有提供按用户分账的功能。由此，需要一种方式能够帮助用户区分多个应用系统各自调用API的成本。

Bedrock & Claude 汇总

Claude模型申请、Bedrock开始使用

Amazon Bedrock上的Anthropic Claude开箱及Converse API使用

Prompt调优

Amazon Bedrock与多模态大语言模型Anthropic Claude 3 开箱(下篇) – Prompt Engineering

Tool use（Function call）

Bedrock上的Claude的Tool use

OpenAI接口兼容的迁移方式 – Bedrock Access Gateway

借助Bedrock Access Gateway实现OpenAI代码兼容的Claude 3模型调用

OCR

使用Claude 3进行OCR文字识别将影印件PDF并转换为Markdown文本格式

知识库

【10分钟开箱即用】使用Amazon Bedrock知识库构建RAG检索能力

【10分钟开箱即用】视频演示

计费

通过Bedrock日志拆分多个应用和用户的账单

借助Bedrock Access Gateway实现OpenAI代码兼容的Claude 3模型调用

本文介绍了如何使用Bedrock Access Gateway实现代码完全兼容的方式从OpenAI ChatGPT切换到Anthropic Claude3 完成模型调用。

使用Claude 3进行OCR文字识别将影印件PDF并转换为Markdown文本格式

一、背景

RAG+LLM Chatbot解决方案是AWS中国团队开发的大语言模型的RAG对话机器人，它是一个基于Serverless无服务器技术构建、使用LangChain框架的解决方案，用于快速搭建一套可用于生产环境的知识问答机器人。RAG+LLM Chatbot 支持向量模型 & 大语言模型的灵活配置插拔，设计上采用无服务器方式，无需EC2，前后端分离，可集成到即时通信工具(如飞书)。

在这套解决方案中，包含了一个摄取PDF进行OCR文字识别的工具，其代码可从Github上这里获取。本文介绍使用这个代码调用Claude3模型实现OCR识别。

Bedrock 知识库【十分钟开箱即用】视频演示

Bedrock知识库现已经支持Claude3的集成，在界面上选择模型时候可以选择Claude3，同时API请求上也支持Claude3。

Bedrock知识库是全托管的RAG体验，可实现内容摄取、向量生成、向量数据库创建和管理、向量查询和召回、大模型重写等一系列过程。关于Bedrock知识库服务配置，请参考这篇博客。本文仅为视频DEMO，不详细讲解配置。操作Bedrock创建知识库到可用的整个过程不超过10分钟，其中创建OpenSearch向量数据库部分需要大概五分钟，视频做了剪切加速。

如果您尚未使用过Bedrock服务，可参考如下：

关于Bedrock服务和Claude大模型权限开通，请参考这篇博客。
关于Prompt调优，请参考这篇博客。

【10分钟开箱即用】使用Amazon Bedrock知识库构建RAG检索能力

Bedrock知识库现已经支持Claude3的集成，可在单一API请求上完成RAG召回和大模型重写。

本文介绍如何使用Bedrock知识库快速搭建托管的RAG体验，在申请模型权限后，整个实验仅需要在AWS控制台上数次点击，10分钟内即可体验完整的RAG能力。本文对应的演示视频跳转到这里观看。

Amazon Bedrock与多模态大语言模型Anthropic Claude 3 开箱(下篇) – Prompt Engineering

本文针对2024年3月发布的Claude 3模型已经做了更新。

本文介绍了Claude 3 Prompt Engineering调优的最佳实践，并提供了几个场景的样例代码。关于如何配置Bedrock和Claude模型访问权限，请参考本文上篇：

上篇：Bedrock配置篇
下篇：Prompt调优篇（本篇）

S	M	T	W	T	F	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31