用于构建生成式 AI 应用程序的 13 个流行 AI 模型

想创建属于你自己的生成式人工智能应用吗?这里列出了一些可以帮助你入门的人工智能模型。

人工智能模型本质上是神经网络架构,它们在特定任务中表现卓越。 这包括用于图像分类和分割的卷积神经网络架构,以及用于自然语言处理的生成式预训练大型语言模型,用于图像生成的扩散模型等。

近来,用于生成式人工智能应用(如图像、语音、文本等)的人工智能模型越来越受欢迎,这得益于研究的进步和高性能计算的普及。

以下是我将要讨论的热门人工智能模型的一个快速概览。

模型 主要功能
GPT-4 开源大型语言模型,可用于构建基于LLM的应用
LLaMA 各种自然语言处理应用,从聊天机器人到代码助手
Falcon 开源大型语言模型,可用于构建基于LLM的应用
Stable Diffusion 文本到图像、图像修复、修补和放大
DALL-E 2 文本到图像生成
Whisper 语音识别、语言翻译和语言检测
StableLM 开源轻量级大型语言模型
CLIP 各种自然语言处理任务,如问答、摘要和文本生成
InternLM 开源大型语言模型;可用于构建基于LLM的应用
Segment Anything Model 适用于各种图像分割任务的零样本泛化
WaveGAN 音频生成
CycleGAN & pix2pix 图像到图像的转换
BioGPT 生物医学文本生成和挖掘

从人工智能艺术到构建个性化编程助手,你可以根据自己的兴趣构建一系列生成式人工智能应用。这里,我们列出了一些你可以探索的有趣的人工智能模型及其关键功能。

让我们开始吧!

GPT-4

从为你的旅行计划生成行程到起草求职信,ChatGPT已经成为我们日常任务的一部分。GPT-4,作为它的继任者,是一个更加强大的大型语言模型。

它是OpenAI最强大的人工智能系统,与ChatGPT相比,具有更强的推理能力和性能。

这里有一个技术演讲,介绍了GPT-4的工作原理以及如何使用它构建应用。

您可以使用免费的OpenAI账户来访问ChatGPT界面。但是,要使用GPT-4,你需要订阅ChatGPT Plus。

以下是一些你可以使用这些大型语言模型构建的应用:

  • 定制的聊天机器人
  • 改进的CRM平台
  • 在自定义语料库上进行问答
  • 其他任务,如摘要和文本生成

接下来,我们将讨论一些开源的大型语言模型。

LLaMA

Meta AI在2023年2月发布了LLaMA,这是一个拥有650亿参数的基础大型语言模型。随后,发布了LLaMA 2,与之前的版本相比有了显著的改进。你可以访问:

  • LLaMA Chat:微调后的LLaMA 2
  • Code LLaMA:基于LLaMA 2构建,使用超过5000亿行代码进行训练,支持所有最流行的编程语言的代码生成

你可以通过请求访问来下载和使用LLaMA模型。查看本教程,了解如何在Python应用程序中使用LLaMA 2:

Falcon

Falcon是来自阿联酋技术创新研究所的另一个开源语言模型。Falcon LLM套件中的所有模型都是开源的,可供开放访问。因此,你可以使用它们来构建基于LLM的应用。

目前有四种型号大小:13亿、75亿、400亿和1800亿。为了在多个基准测试中表现更好,1800亿的模型在3.5万亿个代币的数据集上进行了训练。Falcon LLM的表现与其他领先的开源LLM相当。

Falcon 180B开源LLM的性能接近GPT-4。查看本教程,其中介绍了Falcon 180B、如何使用它、硬件要求以及如何与GPT-4进行比较:

Stable Diffusion

Stable Diffusion是一个文本到图像模型,用于图像生成和其他创意人工智能应用。它还可以用于图像放大和修复。

Stable Diffusion XL于2023年7月发布,并提供了多项改进,包括:

  • 从较短的提示中生成描述性图像
  • 能够在图像中生成文本
  • 图像修复和修补任务
  • 与源图像交互以生成变体

如果你想了解扩散模型的工作原理(其背后的原理),可以查看DeepLearning.AI的免费课程扩散模型如何工作

DALL-E 2

DALL-E 2是Open AI的另一种流行的文本到图像生成模型。你可以使用它从文本(自然语言描述)生成逼真的图像和艺术。

它可用于执行以下任务:

  • 基于文本提示生成图像
  • 图像修复和修补
  • 生成图像的变体

你可以通过OpenAI API或OpenAI Labs Web界面来使用它。

Whisper

Open AI的Whisper是一种语音识别模型,可用于多种应用,包括:

  • 语言识别
  • 语音识别任务,如音频文件的转录
  • 语音翻译

这是一个关于如何使用OpenAI Whisper API将语音转换为文本的教程:

要尝试该模型,你可以使用pip安装Whisper(openai-whisper),并从Python脚本中访问API来转录音频文件。此外,你可以使用其他大型语言模型来总结文字记录,并构建音频文件→摘要管道。

StableLM

StableLM是Stability AI的开源LLM套件。目前有30亿和70亿参数的模型可用。后续版本将包括具有150亿至650亿参数的更大模型。

因此,如果你想在应用中尝试轻量级的开源LLM,你可以尝试StableLM。

CLIP

CLIP代表对比语言-图像预训练。它是一个神经网络,一个多模态模型,在(文本、图像)对的大型数据集上进行了训练。该模型利用自然语言数据,尝试从自然语言描述中学习图像的语义。CLIP模型能够预测给定图像的最相关文本。

借助CLIP,你可以执行零样本图像分类,而无需进行昂贵的预训练和微调。此外,你可以利用CLIP和矢量数据库的功能,在以下领域构建有趣的应用:

  • 文本到图像和图像到图像搜索
  • 反向图像搜索

Segment Anything Model

图像分割是识别图像中属于特定对象的像素的任务。Meta AI发布了Segment Anything Model (SAM),它可用于分割任何图像并从中剪切出对象。

图片来源: Segment Anything

你可以使用提示来指定要在图像中分割的内容。SAM目前支持以下提示:边界框、掩码以及前景点和背景点。该模型对于以前未见过的图像也具有出色的零样本泛化性能。因此,不需要明确的培训。

浏览器中尝试一下SAM模型

InternLM

InternLM是一个开源语言模型。你可以尝试70亿参数的基础模型和开源聊天模型。该模型支持8K的上下文窗口。此外,InternLM支持代码解释器和函数调用功能。

HuggingFace Transformer库也提供了InternLM。你可以利用轻量级的预训练框架。它还支持使用LMDeploy构建和部署应用。因此,你可以使用InternLM构建端到端的生成式自然语言处理应用。

WaveGAN

WaveGAN是一个用于音频生成的模型。它有助于从真实的音频数据样本中合成原始音频。

你可以在任何音频文件的数据集上训练WaveGAN,并合成音频,而无需进行大量的预处理。

CycleGAN 和 Pix2Pix

到目前为止,我们已经介绍了语音到文本、文本到图像以及用于各种自然语言处理任务的其他模型。但是,如果你想执行图像到图像的转换怎么办?在这里,你可以使用CycleGAN学习从源域到目标域的映射,以执行图像到图像的转换。

例如,给定冬季湖边的图像,你可能希望在夏季时转换相同的图像。在马的图像中,你可能希望将马替换为斑马,同时保留相同的背景。CycleGAN非常适合此类任务。

pix2pix模型可用于图像到图像的转换;该模型的关键功能包括:

  • 从边缘图重建对象和
  • 为图像着色

你可以在GitHub上找到CycleGAN和pix2pix的PyTorch实现。

BioGPT

Microsoft的BioGPT Transformer模型可用于生物医学数据挖掘和文本生成应用。它使用由Fairseq提供的序列到序列模型实现。

Fairseq来自Facebook Research(现在的Meta AI)的工具包,为以下任务提供了序列到序列模型的实现:

  • 语言建模
  • 翻译
  • 摘要

它提供了两个预训练模型,以及微调的模型检查点。你可以从URL或HuggingFace中心下载模型。

BioGPT模型也是HuggingFace Transformers库的一部分。因此,如果你在生物医学领域工作,可以使用BioGPT构建特定领域的应用。

总结

希望你找到了一些有用的模型,可以用来构建生成式人工智能应用。虽然此列表并不详尽,但我们已经介绍了一些最流行的模型,你可以使用这些模型来构建用于文本和音频生成、语音到文本转录、图像搜索等应用。

当使用大型语言模型构建应用时,你应该意识到一些常见的陷阱,例如事实不准确的信息和幻觉。微调模型时可能会面临限制,因为微调过程通常会消耗大量资源。

因此,如果你是一名开发人员,现在是时候加入人工智能革命并开始构建有趣的人工智能应用了!你可以在Google Colab或其他协作式数据科学笔记本中尝试这些模型。