想要构建自己的生成式人工智能应用程序吗? 以下是可帮助您入门的 AI 模型列表。
人工智能模型是神经网络架构,在特定任务上表现非常出色。 其中包括用于图像分类和分割的卷积神经网络架构、生成式预训练大型语言模型、用于图像生成任务的扩散模型,以及
最近,用于生成人工智能应用(图像、语音、文本等)的人工智能模型变得非常流行。 这要归功于研究的进步和高性能计算的普及。
以下是我将在下面讨论的流行人工智能模型的快速摘要。
型号关键功能GPT-4开源大语言模型可用于构建 LLM 支持的应用程序骆驼各种 NLP 应用程序,从聊天机器人到编码助手鹘开源大语言模型可用于构建 LLM 支持的应用程序稳定扩散文本到图像、图像修复、修复和放大达尔-E 2文本到图像的生成耳语语音识别、语言翻译和语言检测稳定LM开源轻量级大语言模型夹子各种 NLP 任务,例如问答、摘要和文本生成实习生LM开源的大语言模型; 可用于构建 LLM 支持的应用程序分段任何模型适用于各种图像分割任务的零样本泛化波甘音频生成循环GAN 和 像素到像素图像到图像的翻译生物GPT生物医学文本生成和挖掘
从人工智能艺术到构建个性化编码助手,您可以根据自己的兴趣构建一系列生成式人工智能应用程序。 在这里,我们列出了一些您可以探索的有趣的人工智能模型及其关键功能。
让我们开始吧!
目录
GPT-4
从为您即将到来的旅行计划生成行程到起草适合职位描述的求职信,ChatGPT 已成为我们日常任务的一部分。 GPT-4,它的后继者,是一个更强大的大型语言模型。
它是OpenAI最强大的AI系统,具有比ChatGPT更好的推理能力和性能。
这是有关 GPT-4 如何工作以及如何使用它构建应用程序的技术讲座。
您可以使用以下命令访问 ChatGPT 界面 免费 OpenAI 帐户。 但是,要访问 GPT-4,您应该订阅 ChatGPT Plus。
以下是您可以使用这些大型语言模型构建的一些应用程序:
- 定制聊天机器人
- 改进 CRM 平台
- 在自定义语料库上进行问答
- 其他任务,例如摘要和文本生成
接下来,我们将讨论一些开源的大型语言模型。
骆驼
元人工智能发布 骆驼, 2023 年 2 月,具有 65B 参数的基础大型语言模型。随后,LLama 2 发布,与之前的版本相比有了重大改进。 您可以访问以下内容:
- Llama 聊天:微调 Llama 2
- Code Llama:基于 Llama 2 构建; 经过超过 500B 代码的训练; 支持所有最流行的编程语言的代码生成
您可以通过以下方式下载和使用 Llama 模型 请求访问。 查看本教程,了解如何在 Python 应用程序中使用 LLama 2:
鹘
鹘 是技术创新研究所(UAE)的另一个开源语言模型。 Falcon LLM 套件中的所有模型都是开源的,可供开放访问。 因此,您可以使用它们来构建 LLM 支持的应用程序。
目前有四种型号尺寸:1.3B、7.5B、40B、180B。 为了在多个基准测试中表现更好,180B 模型在 3.5T 代币数据集上进行了训练。 Falcon LLM 的表现与其他领先的开源 LLM 相当。
Falcon 180B开源LLM的性能接近GPT-4。 查看本教程,其中介绍了 Falcon 180B、如何使用它、硬件要求以及如何与 GPT-4 进行比较:
稳定扩散
稳定扩散 用于图像生成和其他创意人工智能应用的文本到图像模型。 它还可用于图像放大和修复。
稳定扩散XL于 2023 年 7 月发布,提供了多项改进,包括:
- 从更短的提示中生成描述性图像
- 能够在图像中生成支持文本
- 图像修复和修复任务
- 与源图像交互以生成变体
如果您想了解扩散模型的工作原理(魔术背后的方法),请查看 扩散模型如何工作,DeepLearning.AI 的免费课程。
达尔-E 2
达尔-E 2 Open AI 的另一种流行的文本到图像生成模型。 您可以使用它从文本(自然语言描述)生成逼真的图像和艺术。
它可用于执行以下任务:
- 根据文本提示生成图像
- 图像修复和修复
- 生成图像的变化
您可以通过 OpenAI API 或 OpenAI 实验室 Web 界面。
耳语
开放人工智能 耳语 是一种语音识别模型,可用于多种应用,包括:
- 语言识别
- 语音识别任务,例如音频文件的转录
- 语音翻译
以下是有关如何使用 OpenAI Whisper API 将语音转换为文本的教程:
要试用该模型,您可以使用 pip 安装 Whisper (openai-whisper) 并从 Python 脚本中访问 API 来转录音频文件。 此外,您可以使用其他大型语言模型来总结文字记录并构建音频文件→摘要管道。
稳定LM
稳定LM 是 Stability AI 的开源 LLM 套件。 3B 和 7B 参数当前可用。 后续版本将包括具有 15B – 65B 参数的更大模型。
因此,如果您想在应用程序中尝试轻量级开源 LLM,您可以尝试 StableLM。
夹子
夹子 代表对比语言-图像预训练。 它是一个神经网络,一个多模态模型,在(文本、图像)对的大型数据集上进行训练。 该模型利用自然语言数据,尝试从自然语言描述中学习图像的语义。 CLIP 模型能够预测给定图像的最相关文本。
借助 CLIP,您可以执行零样本图像分类,无需昂贵的预训练和微调。 此外,您可以利用 CLIP 和矢量数据库的功能在以下领域构建有趣的应用程序:
- 文本到图像和图像到图像搜索
- 反向图像搜索
分段任何模型
图像分割是识别图像中属于特定对象的像素的任务。 元人工智能发布 分段任意模型 (SAM) 可用于分割任何图像并从中剪切出对象。
图片来源: 分段任意
您可以使用提示来指定要在图像中分割的内容。 SAM 目前支持以下提示:边界框、蒙版以及前景点和背景点。 该模型对于以前未见过的图像也具有出色的零样本泛化性能。 因此不需要明确的培训。
尝试一下 浏览器中的 SAM 模型!
实习生LM
实习生LM 是一个开源语言模型。 您可以尝试7B基础模型和开源聊天模型。 该模型支持8K的上下文窗口。 此外,InternLM 支持代码解释器和函数调用功能。
HuggingFace 变压器库中也提供了 InternLM。 您可以利用轻量级预训练框架。 它还支持使用以下方式构建和部署应用程序 LM部署。 因此,您可以使用 InternLM 构建端到端生成式 NLP 应用程序。
波甘
波甘 是音频生成的模型。 它有助于从真实音频数据样本合成原始音频。
您可以在任意音频文件的数据集上训练 WaveGAN 并合成音频,而无需进行大量预处理。
CycleGAN 和 Pix2Pix
到目前为止,我们已经介绍了语音到文本、文本到图像以及用于各种自然语言处理任务的其他模型。 但是如果您想执行图像到图像的转换怎么办? 在这里,您可以使用 循环GAN 学习从源域到目标域的映射以执行图像到图像的转换。
例如,给定冬季湖边的图像,您可能希望在夏季时翻译相同的图像。 在马的图像中,您可能希望将马替换为斑马,同时保留相同的背景。 CycleGAN 非常适合此类任务。
pix2pix模型可用于图像到图像的转换; 该模型的关键功能包括:
- 从边缘图重建对象和
- 为图像着色
您可以找到 CycleGAN 和 pix2pix 的 PyTorch 实现 在 GitHub 上。
生物GPT
生物GPT Microsoft 的 Transformer 模型可用于生物医学数据挖掘和文本生成应用程序。 它使用由提供的序列到序列模型实现 公平序列。
费尔序列 来自 Facebook 研究(现在的 Meta AI)的工具包为以下任务提供了序列到序列模型的实现:
- 语言建模
- 翻译
- 总结
这俩 预训练模型 并提供微调的模型检查点。 您可以从 URL 或 HuggingFace 中心下载模型。
BioGPT 模型也是 HuggingFace 转换器库的一部分。 因此,如果您在生物医学领域工作,则可以使用 BioGPT 构建特定领域的应用程序。
包起来
我希望您找到一些有用的模型,可以用来构建生成式人工智能应用程序。 尽管此列表并不详尽,但我们已经介绍了一些最流行的模型,您可以使用这些模型来构建用于文本和音频生成、语音到文本转录、图像搜索等的应用程序。
当您使用大型语言模型构建应用程序时,您应该意识到常见的陷阱,例如事实不正确的信息和幻觉。 微调模型时您可能会面临限制,因为微调过程通常会占用大量资源。
因此,如果您是一名开发人员,那么是时候加入人工智能革命并开始构建有趣的人工智能应用程序了! 您可以在 Google Colab 或其他协作数据科学笔记本中尝试这些模型。