使用Amazon Bedrock和Amazon Transcribe生成录音摘要
关键要点
本文将探讨如何利用 Amazon Transcribe 和 Amazon Bedrock 自动生成视频或音频录音的简洁摘要。这种方法适用于内部团队会议、会议演讲或财报电话会议,可以帮助您将数小时的内容提炼为关键要点。我们将介绍具体的解决方案,并讨论如何将其自定义以适应不同场景,比如课程讲座、面试和销售电话。
会议记录在协作中至关重要,但常常容易被忽视。在领导讨论、专注聆听和记笔记之间,重要信息容易被遗漏。即使记录下来了,它们可能也会混乱或难以辨认,这让它们变得无用。
解决方案概述
通过结合使用Amazon Transcribe和Amazon Bedrock,您可以节省时间、获取见解并增强协作。Amazon Transcribe是一个自动语音识别ASR服务,使得将语音转文本的功能简单易用。它利用先进的深度学习技术,准确地将音频转录为文本。Amazon Bedrock是一个全面管理的服务,提供来自AI界领先公司的高性能基础模型FMs,您可以通过单一API访问,并具备构建生成式AI应用所需的广泛功能。
本帖中介绍的解决方案使用 AWS Step Functions 状态机来调度过程,当您将录音上传至指定的 Amazon S3 存储桶时触发步骤。Step Functions使您能够创建无服务工作流,以协调和连接AWS服务中的组件。它处理底层复杂性,以便您可以专注于应用逻辑,适用于任务协调、分布式处理、ETL提取、转换和加载及业务流程的自动化。
以下是高层次的解决方案架构示意图。
解决方案的工作流程包括以下步骤:
用户将录音存储在S3资产存储桶中。该操作触发Step Functions的转录和摘要状态机。在状态机的一部分中,触发一个 AWS Lambda 函数,它使用Amazon Transcribe转录录音并将转录存储在资产存储桶中。第二个Lambda函数检索转录文本,并利用Amazon Bedrock中的Anthropic Claude模型生成摘要。最后,最后一个Lambda函数通过 Amazon Simple Notification Service Amazon SNS将录音摘要发送给接收者。该解决方案支持Anthropic Claude在Amazon Bedrock可用的区域。
状态机调度这些特定任务的步骤。以下是详细的过程说明图:
先决条件
使用Amazon Bedrock的用户需要在使用之前请求访问模型。这是一次性操作。为此解决方案,您需要在Amazon Bedrock中启用对Anthropic Claude非Anthropic Claude Instant模型的访问。有关更多信息,请参见 模型访问。

部署解决方案资源
该解决方案通过 AWS CloudFormation 模板部署,模板在 GitHub存储库 中提供,自动配置您AWS账户所需的资源。模板需要以下参数:
发送摘要的电子邮件地址 摘要将发送至此地址。在接收其他通知之前,您必须确认初始的Amazon SNS确认邮件。摘要指令 这些是给Amazon Bedrock模型以生成摘要时提供的指令。运行解决方案
在使用AWS CloudFormation部署解决方案后,完成以下步骤:
确认您应该在创建CloudFormation堆栈后几分钟内收到的Amazon SNS确认电子邮件。在AWS CloudFormation控制台,导航到您刚创建的堆栈。在堆栈的 Outputs 标签上,寻找与 AssetBucketName 相关的值,它会像这样 summarygeneratorassetbucketxxxxxxxxxxxxx。在Amazon S3控制台,导航到您的资产存储桶。这就是您将上传录音的地方。有效的文件格式包括MP3、MP4、WAV、FLAC、AMR、OGG和WebM。
将录音上传到 recordings 文件夹。上传录音将自动触发Step Functions状态机。对于此示例,我们可以在GitHub存储库的 samplerecording 目录中使用示例团队会议录音。
在Step Functions控制台,导航到summarygenerator状态机。选择状态机的名称,状态为 Running。您可以在此处观察状态机处理录音的进度。
在它达到 Success 状态后,您将收到该录音的电子邮件摘要。另外,您可以导航到S3资产存储桶,在转录的文件夹中查看转录文本。
审查摘要
您将收到录音摘要,发送至您在创建CloudFormation堆栈时提供的地址。如果几分钟内没有收到电子邮件,请确保您确认了在创建堆栈后应该收到的Amazon SNS确认电子邮件,然后重新上传录音,这将触发摘要过程。
此解决方案包括一个模拟的团队会议录音,您可以用来测试该解决方案。摘要将类似于以下示例。然而,由于生成式AI的特性,您的输出将略有不同,但内容应该接近。
站会的关键点如下:
加速器试用1天Joe完成了对任务EDU1当前状态的审查,并创建了一个新的任务来开发未来状态。该新任务已在待处理任务中进行优先级安排。他现在开始EDU2,但在资源选择方面遇到阻碍。Rob基于最佳实践为SLG1制定了标签策略,但可能需要与其他已制定其策略的团队协调,以确保统一的方法。创建了一项新任务以协调标签策略。Rob在调试SLG2方面取得了进展,但可能需要额外帮助。这个任务将被移至Sprint 2,以允许额外资源的获取。下一步: Joe将继续在资源选择决定之前尽可能地开展EDU2的工作。 创建的新任务将在团队之间协调标签策略的优先级。 将SLG2移至Sprint 2。 从下周开始,站会改为在周一举行。
扩展解决方案
现在您已经拥有了一个工作解决方案,以下是一些可以定制该解决方案以适应特定用例的潜在想法:
尝试调整流程以适应可用的源内容和期望的输出: 对于已有转录本的情况,创建一个替代的Step Functions工作流,以获取现有基于文本或PDF的转录。除了使用Amazon SNS通过电子邮件通知接收者外,您可以使用它将输出发送到其他端点,例如团队协作网站或团队聊天频道。尝试更改提供给Amazon Bedrock的摘要指令CloudFormation堆栈参数,以生成与您的用例相关的输出这就是生成式AI提示: 在总结公司的财报电话会议时,您可以让模型重点关注潜在的机会、关注领域以及应该继续监视的事务。如果您使用此工具来总结课程讲座,模型可以识别即将到来的作业、总结关键概念、列出事实并过滤出录音中的闲聊。为相同的录音为不同受众创建不同的摘要: 面向工程师的摘要聚焦设计决策、技术挑战和即将交付的内容。项目管理者的摘要则更加关注时间线、成本、交付物和行动事项。项目赞助人会收到项目状态和升级情况的简要更新。对于更长的录音,可以尝试为不同兴趣程度和时间承诺生成摘要。例如,生成一个单句、单段、单页或深入的摘要。另外,除了提示,您可能还需要调整 maxtokenstosample 参数来适应不同的内容长度。清理
要清理解决方案,删除您之前创建的CloudFormation堆栈。请注意,删除堆栈不会删除资产存储桶。如果您不再需要录音或转录,可以单独删除该存储桶。Amazon Transcribe会在90天后自动删除转录作业,但您也可以在此之前手动删除。
结论
本文探讨了如何使用Amazon Transcribe和Amazon Bedrock自动生成视频或音频录音的简洁摘要。我们鼓励您继续评估Amazon Bedrock、Amazon Transcribe以及其他AWS AI服务,如 Amazon Textract、Amazon Translate 和 Amazon Rekognition,以便它们帮助您实现商业目标。
关于作者
Rob Barnes是AWS专业服务的首席顾问。他与客户合作,以自动化的方式满足复杂的多账户AWS环境中的安全和合规要求。
Jason Stehle是AWS的新英格兰地区高级解决方案架构师。他与客户合作,将AWS能力与他们最大的业务挑战对接。在工作之余,他喜欢与家人一起DIY和观看漫画电影。
审核历史最后在2024年10月由Ivan Kopas进行审查和更新 技术讲师团队主管
加载评论