GPT-4 多模态模型简介

2024-01-08 发布 · 浏览138次 · 点赞0次 · 收藏0次

我非常兴奋地要开始研究GPT-4,这是ChatGPT的新的多模态版本,能够理解图片!在这篇文章中,我们将探索一些这个人工智能的惊人功能,从构建应用程序到猜测物体数量,识别植物和地点,推荐电视节目等等。让我们看看这个人工智能在多个模态上到底有多聪明。

1. 从手绘图创建一个应用程序

首先,我在笔记本上进行了简单的草图,为前端、后端和一些样式布局了一个基本的应用程序。我拍了一张照片,并激发GPT-4根据图像创建实际的应用程序。

Photo of my hand-drawn app diagram

引人注目的是,它生成了完整的前端代码(HTML/CSS/JS)和一个利用OpenAI API的Python后端。将代码复制到文件中后,我拥有了一个工作的应用程序,您可以发送文本提示并获得GPT-3的回应!这一切都来自于那个快速手绘的图表。

chatgpt vision interface
Response after the prompt
code for backend
Code for the backend of the app
code for the frontend
Code for the frontend of the app

之後,我只需進入命令殼層並粘貼代碼,然後運行應用程序。這是結果:

frontend code in the coding console

之后,我运行了程序,这是应用程序界面的样子:

ASK GPT-4 interface
DALL-E 3 prompt generator machine by Indish Marketer

点击这里免费获取Ultimate DALL-E 3反馈生成器的访问权限

2. 猜测瓶中珠子的数量

接下来:GPT-4能否仅凭一张图片来估计瓶子里的珠子数量?这更像是一个逻辑/数学谜题。

two jars filled with beads
Image Credit: eurekalert.org

上面的照片展示了两个罐子,分别装满了口香糖和珠子。照片中口香糖的数量是659个,珠子的数量是27,852个。现在,我们将使用下面图片中一个人手持的第二个罐子。

a man holding a jar of beads
Image Credit: eurekalert.org

照片显示着一个装满珠子的大罐子。GPT-4首先逐步分解了这个问题——根据男人头部的大小估算罐子的容积,根据他衬衫上的细节估算珠子的大小,然后计算出大致的珠子数量。

其初步猜测意外地非常接近真实数字!然而,额外的尝试显示出估计值变化非常大,证明它尚不能完美解决视觉逻辑难题。但是它能够尝试已经令人印象深刻!

screenshot of gpt-4 vision counting the number of beads
gpt-4 is solving math problem

3. 解释YouTube视频图像

我还想看看GPT-4能否解释一个来自YouTube视频的截图中的概念。它分析了图像中的所有文本、图表和主持人,以提供有关所讨论的快速变异技术的详细解读。

screenshot of youtube video explaining by gpt-4 vision

它甚至根据截图中所提供的有限信息生成了一个示例提示!通过这样的视觉方式获得解释能让GPT-4成为学习视频或文章中复杂主题的有益工具。

4. 生成有趣的表情包

对于一些轻松的事情,我试着使用我前门的照片来生成有趣的表情包。结果并没有获奖,但有些基于我奇怪的门牌号和照片中的旧凳子而令人发笑。

a door and below it some text

5. 从图像中创建一个网站

接下来,我在笔记本上画了一个简单的网站布局,包括标题、正文内容等方框。然后我请 GPT-4 根据这个草图生成一个基于90年代黑客主题的网站的HTML/CSS和JS代码。

a website flow on a notebook

它生成了一个运行中的复古网站的有效代码!我甚至反复地要求它添加一个弹出警告,它无缝地整合了进去。这个人工智能可以根据简单的绘图和描述直接构建基本的网站。

screenshot of a website
Website from the diagram

6. 寻找一个露营点过夜

为了测试GPT-4的推理能力,我拍了两张照片——一张是茂密的森林地区,另一张是河边的地方。我让它根据生存专业知识来建议一个最适合露营过夜的地方。

AI提供了对两个地点的详细利弊评估,考虑到庇护所、资源和危险等因素。它建议在河流附近的森林边野营,结合了两个地区的优势。令人印象深刻的情景逻辑!

picutes of two forests and river

在这里,您可以观察GPT-4在使用其视觉分析了两个图像后提供的建议。

7. 识别可食用的野生植物

我在徒步旅行中偶然发现了一些鲜红色的野生浆果状植物,并拍下了一张照片。询问GPT-4,它正确地识别出它们是玫瑰果,解释道它们富含维生素C可食用,但也建议在食用之前仔细确认任何野生植物。

对于徒步旅行者或生存专家来说,对植物的了解可能非常有用,特别是在不确定某种未知的植物或蘑菇是否安全食用时。

photo of rose hips

8. 鉴别一朵花

沿着同样的线索,我拍了一张一朵不寻常的紫色野花的照片。GPT-4能够从视觉上准确地将其分类为“鹤颈草花”。它的花朵识别能力可以帮助园艺师和植物学家作为一个快速参考。

Photo of cranesbill geranium

9. 地理位置猜测:一个山脉的地点

我上传了一张在挪威徒步攀登的山顶上拍摄的风景照片。在提示后,GPT-4在视觉上评估了这片风景,并根据地形与斯堪的纳维亚,尤其是挪威西部一致的特点,正确地猜测了所属的大致区域。

这展示了机器视觉如何应用于地理位置识别,类似于病毒式在线游戏GeoGuessr。

Mountain view photo

10. 英超幻想联赛后卫推荐

作为对更专业领域的测试,我提供了GPT-4足球联赛的积分榜、赛程表和球员数据的图片。我寻求幻想足球的建议,想知道接下来几周应该瞄准哪些后卫球员。

令人印象深刻的是,它分析了图像,识别出强力的防御选择,并根据数据给出了可靠的建议 -从而证明了计算机视觉在知识应用方面的价值。

Table of player stats and texts

11. 电视节目推荐

最后,为了进行更加随意的测试,我只是向GPT-4展示了一张《办公室》电视剧的截图,并询问了类似的我可能会喜欢的节目推荐。它仅仅通过识别那张图片的上下文,就提供了一份与之类似的热门情景喜剧清单。

它的视觉能力使其能在许多领域中提供相关推荐,包括娱乐、购物、旅行等等。

Screenshot from The Office

在GPT-4 Vision分析了该图像之后,它给我呈现了以下电视剧选项:

结论和未来探索

总之,这些实验展示了GPT-4在理解和推理多样化图像方面的出色能力。虽然并不完美,但它的多模态智能预示着随着视觉能力的不断提升,它将成为一款非常有用的人工智能助手。

未来的可能性令人兴奋-几乎任何涉及理解视觉信息或场景的任务都可以从这项技术中受益。我期待着探索更多GPT-4的计算机视觉应用,并分享我所发现的!如果您有任何关于测试这种人工智能的想法,请告诉我。

GPT-4 多模态模型简介 - AI 资讯 - 资讯 - AI 中文社区
点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。