电脑装配网

开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力

 人阅读 | 作者pangding | 时间:2023-09-28 03:50

多模态GPT-4大模型的发布,让很多人看到了AI人工智能的魅力,特别是ChatGPT的流行,让很多人开始关注人工智能。虽然ChatGPT可以通过一些魔法进行使用,但是GPT-4多模态大模型,openai却没有完全免费开放给个人,要想使用GPT-4,要么通过官方的邀请,要么是升级到付费账号。但就算付费,一些地区也无法进行相关服务的购买。

OpenAI GPT

GPT-4发布时,工程师一个手绘网页,传递给GPT-4时,模型会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多模型模型吊足了大家的胃口。开源的MiniGPT-4多模态模型,让我们提前可以尝试一下GPT-4的魅力。

MiniGPT-4的架构由带有预训练 ViT模型编码器和Q-Former,一个单一的线性投影层,一个高级的 Vicuna 大语言模型

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大语言模型(LLM)结合。具体来说,利用 Vicuna作为语言解码器,它是基于 LLaMA 构建,可以执行各种复杂的语言任务。对于视觉感知,使用与BLIP-2中相同的视觉编码器,一个ViT主干与他们预训练的 Q-Former。语言和视觉模型都是开源的,目标是使用线性投影层弥合视觉编码器和 LLM 之间的差距 。

https://github.com/Vision-CAIR/MiniGPT-4 #开源链接

MiniGPT-4

MiniGPT-4代码实现

!git clone https://github.com/Vision-CAIR/MiniGPT-4.git%cd MiniGPT-4/!pip install -qr requirements.txt# requirements.txt 地址 https://github.com/WangRongsheng/Use-LLMs-in-Colab/blob/main/MiniGPT-4/requirements.txt!pip install -q salesforce-lavis!pip install -q bitsandbytes!pip install -q accelerate!pip install -q gradio==3.27.0!pip install -q h5py!pip install -q typing-extensions!pip install -q wheel!pip install -q git+https://github.com/huggingface/transformers.git -U

首先,我们需要clone整个项目工程,并安装相应的第三方库,这里的requirements.txt文件需要到相应的链接自行下载,放置到MiniGPT-4根目录中。

# 13B模型 , 下载 Checkpoint Aligned with Vicuna 13B!wget https://huggingface.co/wangrongsheng/MiniGPT4/blob/main/pretrained_minigpt4.pth# 7B模型 , 下载 Checkpoint Aligned with Vicuna 7B#!wget https://huggingface.co/wangrongsheng/MiniGPT4-7B/resolve/main/prerained_minigpt4_7b.pth

然后下载相关的checkpoint模型,这里官方提供了2个模型,一个13B参数模型,一个

7B参数模型。若运行13B模型,需要进行如下设置:

llama_model: "wangrongsheng/MiniGPT-4-LLaMA" : minigpt4/configs/models/minigpt4.yamlckpt: 'pretrained_minigpt4.pth' : eval_configs/minigpt4_eval.yaml

若运行7B参数模型,需要进行如下设置:

llama_model: "wangrongsheng/MiniGPT-4-LLaMA-7B" : minigpt4/configs/models/minigpt4.yaml ckpt: 'prerained_minigpt4_7b.pth' : eval_configs/minigpt4_eval.yaml

设置完成后,我们就可以运行代码了

!python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0

上图是官方运行的一个图片,并转换成的HTML网页,可以看到模型完全识别了手绘图片上的文字,并按照要求编写了一个html网页,且网页可以正常打开,且模型生成的代码除了HTML还有JS/CSS相关代码。

小编使用了同样的照片,同样的文字,来复现官方的HTML网页,模型生成的HTML网页只有js,没有css的部分,生成的网页有相关的文字,但是没有css的渲染,估计还需要各种调参。

当然,除了写代码外,MiniGPT-4还有很多计算机视觉的功能,给定一个图片,就可以跟模型进行互动了。

当然模型同样支持多轮对话讨论,虽然模型已经开源,但是运行此模型需要的电脑资源还是要求比较高的,怪不得ChatGPT类似的大模型,这么费经费。模型支持在线试玩,可以在线玩一下。

https://minigpt-4.github.io/ # 在线试玩网站

扩展阅读:

OpenAI官方发布ChatGPT API接口gpt-3.5-turbo,python可直接调用

OpenAI开发的ChatGPT用来论文翻译与润色,效果强大

使用python调用ChatGPT的API,打造属于自己的桌面智能助手

ChatGPT又又又更新了,多模态GPT-4大模型发布


文章标签:

本文链接:『转载请注明出处』