AI 中文社/资讯/详情

返回

GPT-4 多模态模型简介

2024-01-08 发布 · 浏览138次 · 点赞0次 · 收藏0次

我非常兴奋地要开始研究GPT-4，这是ChatGPT的新的多模态版本，能够理解图片！在这篇文章中，我们将探索一些这个人工智能的惊人功能，从构建应用程序到猜测物体数量，识别植物和地点，推荐电视节目等等。让我们看看这个人工智能在多个模态上到底有多聪明。

1. 从手绘图创建一个应用程序

首先，我在笔记本上进行了简单的草图，为前端、后端和一些样式布局了一个基本的应用程序。我拍了一张照片，并激发GPT-4根据图像创建实际的应用程序。

Photo of my hand-drawn app diagram

引人注目的是，它生成了完整的前端代码（HTML/CSS/JS）和一个利用OpenAI API的Python后端。将代码复制到文件中后，我拥有了一个工作的应用程序，您可以发送文本提示并获得GPT-3的回应！这一切都来自于那个快速手绘的图表。

chatgpt vision interface — Response after the prompt

code for backend — Code for the backend of the app

code for the frontend — Code for the frontend of the app

之後，我只需進入命令殼層並粘貼代碼，然後運行應用程序。這是結果：

frontend code in the coding console

之后，我运行了程序，这是应用程序界面的样子：

ASK GPT-4 interface

DALL-E 3 prompt generator machine by Indish Marketer

点击这里免费获取Ultimate DALL-E 3反馈生成器的访问权限

2. 猜测瓶中珠子的数量

接下来：GPT-4能否仅凭一张图片来估计瓶子里的珠子数量？这更像是一个逻辑/数学谜题。

two jars filled with beads — Image Credit: eurekalert.org

上面的照片展示了两个罐子，分别装满了口香糖和珠子。照片中口香糖的数量是659个，珠子的数量是27,852个。现在，我们将使用下面图片中一个人手持的第二个罐子。

a man holding a jar of beads — Image Credit: eurekalert.org

照片显示着一个装满珠子的大罐子。GPT-4首先逐步分解了这个问题——根据男人头部的大小估算罐子的容积，根据他衬衫上的细节估算珠子的大小，然后计算出大致的珠子数量。

其初步猜测意外地非常接近真实数字！然而，额外的尝试显示出估计值变化非常大，证明它尚不能完美解决视觉逻辑难题。但是它能够尝试已经令人印象深刻！

screenshot of gpt-4 vision counting the number of beads

gpt-4 is solving math problem

3. 解释YouTube视频图像

我还想看看GPT-4能否解释一个来自YouTube视频的截图中的概念。它分析了图像中的所有文本、图表和主持人，以提供有关所讨论的快速变异技术的详细解读。

screenshot of youtube video explaining by gpt-4 vision

它甚至根据截图中所提供的有限信息生成了一个示例提示！通过这样的视觉方式获得解释能让GPT-4成为学习视频或文章中复杂主题的有益工具。

4. 生成有趣的表情包

对于一些轻松的事情，我试着使用我前门的照片来生成有趣的表情包。结果并没有获奖，但有些基于我奇怪的门牌号和照片中的旧凳子而令人发笑。

a door and below it some text

5. 从图像中创建一个网站

接下来，我在笔记本上画了一个简单的网站布局，包括标题、正文内容等方框。然后我请 GPT-4 根据这个草图生成一个基于90年代黑客主题的网站的HTML/CSS和JS代码。

a website flow on a notebook

它生成了一个运行中的复古网站的有效代码！我甚至反复地要求它添加一个弹出警告，它无缝地整合了进去。这个人工智能可以根据简单的绘图和描述直接构建基本的网站。

screenshot of a website — Website from the diagram

6. 寻找一个露营点过夜

为了测试GPT-4的推理能力，我拍了两张照片——一张是茂密的森林地区，另一张是河边的地方。我让它根据生存专业知识来建议一个最适合露营过夜的地方。

AI提供了对两个地点的详细利弊评估，考虑到庇护所、资源和危险等因素。它建议在河流附近的森林边野营，结合了两个地区的优势。令人印象深刻的情景逻辑！

picutes of two forests and river

在这里，您可以观察GPT-4在使用其视觉分析了两个图像后提供的建议。

7. 识别可食用的野生植物

我在徒步旅行中偶然发现了一些鲜红色的野生浆果状植物，并拍下了一张照片。询问GPT-4，它正确地识别出它们是玫瑰果，解释道它们富含维生素C可食用，但也建议在食用之前仔细确认任何野生植物。

对于徒步旅行者或生存专家来说，对植物的了解可能非常有用，特别是在不确定某种未知的植物或蘑菇是否安全食用时。

photo of rose hips

8. 鉴别一朵花

沿着同样的线索，我拍了一张一朵不寻常的紫色野花的照片。GPT-4能够从视觉上准确地将其分类为“鹤颈草花”。它的花朵识别能力可以帮助园艺师和植物学家作为一个快速参考。

Photo of cranesbill geranium

9. 地理位置猜测：一个山脉的地点

我上传了一张在挪威徒步攀登的山顶上拍摄的风景照片。在提示后，GPT-4在视觉上评估了这片风景，并根据地形与斯堪的纳维亚，尤其是挪威西部一致的特点，正确地猜测了所属的大致区域。

这展示了机器视觉如何应用于地理位置识别，类似于病毒式在线游戏GeoGuessr。

Mountain view photo

10. 英超幻想联赛后卫推荐

作为对更专业领域的测试，我提供了GPT-4足球联赛的积分榜、赛程表和球员数据的图片。我寻求幻想足球的建议，想知道接下来几周应该瞄准哪些后卫球员。

令人印象深刻的是，它分析了图像，识别出强力的防御选择，并根据数据给出了可靠的建议 -从而证明了计算机视觉在知识应用方面的价值。

Table of player stats and texts

11. 电视节目推荐

最后，为了进行更加随意的测试，我只是向GPT-4展示了一张《办公室》电视剧的截图，并询问了类似的我可能会喜欢的节目推荐。它仅仅通过识别那张图片的上下文，就提供了一份与之类似的热门情景喜剧清单。

它的视觉能力使其能在许多领域中提供相关推荐，包括娱乐、购物、旅行等等。

Screenshot from The Office

在GPT-4 Vision分析了该图像之后，它给我呈现了以下电视剧选项：

结论和未来探索

总之，这些实验展示了GPT-4在理解和推理多样化图像方面的出色能力。虽然并不完美，但它的多模态智能预示着随着视觉能力的不断提升，它将成为一款非常有用的人工智能助手。

未来的可能性令人兴奋-几乎任何涉及理解视觉信息或场景的任务都可以从这项技术中受益。我期待着探索更多GPT-4的计算机视觉应用，并分享我所发现的！如果您有任何关于测试这种人工智能的想法，请告诉我。

GPT GPT-4 测试人工智能 OpenAI ChatGPT AI

浏览(138) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

评论

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程

Copyright © 2022-2024 aizws.net · 网站版本: v1.2.6·内部版本: v1.23.2· 页面加载耗时 0.00 毫秒·物理内存 76.5MB ·虚拟内存 1305.7MB

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。