GPT-4 多模态模型简介
我非常兴奋地要开始研究GPT-4,这是ChatGPT的新的多模态版本,能够理解图片!在这篇文章中,我们将探索一些这个人工智能的惊人功能,从构建应用程序到猜测物体数量,识别植物和地点,推荐电视节目等等。让我们看看这个人工智能在多个模态上到底有多聪明。
1. 从手绘图创建一个应用程序
首先,我在笔记本上进行了简单的草图,为前端、后端和一些样式布局了一个基本的应用程序。我拍了一张照片,并激发GPT-4根据图像创建实际的应用程序。
引人注目的是,它生成了完整的前端代码(HTML/CSS/JS)和一个利用OpenAI API的Python后端。将代码复制到文件中后,我拥有了一个工作的应用程序,您可以发送文本提示并获得GPT-3的回应!这一切都来自于那个快速手绘的图表。
之後,我只需進入命令殼層並粘貼代碼,然後運行應用程序。這是結果:
之后,我运行了程序,这是应用程序界面的样子:
点击这里免费获取Ultimate DALL-E 3反馈生成器的访问权限
2. 猜测瓶中珠子的数量
接下来:GPT-4能否仅凭一张图片来估计瓶子里的珠子数量?这更像是一个逻辑/数学谜题。
上面的照片展示了两个罐子,分别装满了口香糖和珠子。照片中口香糖的数量是659个,珠子的数量是27,852个。现在,我们将使用下面图片中一个人手持的第二个罐子。
照片显示着一个装满珠子的大罐子。GPT-4首先逐步分解了这个问题——根据男人头部的大小估算罐子的容积,根据他衬衫上的细节估算珠子的大小,然后计算出大致的珠子数量。
其初步猜测意外地非常接近真实数字!然而,额外的尝试显示出估计值变化非常大,证明它尚不能完美解决视觉逻辑难题。但是它能够尝试已经令人印象深刻!
3. 解释YouTube视频图像
我还想看看GPT-4能否解释一个来自YouTube视频的截图中的概念。它分析了图像中的所有文本、图表和主持人,以提供有关所讨论的快速变异技术的详细解读。
它甚至根据截图中所提供的有限信息生成了一个示例提示!通过这样的视觉方式获得解释能让GPT-4成为学习视频或文章中复杂主题的有益工具。
4. 生成有趣的表情包
对于一些轻松的事情,我试着使用我前门的照片来生成有趣的表情包。结果并没有获奖,但有些基于我奇怪的门牌号和照片中的旧凳子而令人发笑。
5. 从图像中创建一个网站
接下来,我在笔记本上画了一个简单的网站布局,包括标题、正文内容等方框。然后我请 GPT-4 根据这个草图生成一个基于90年代黑客主题的网站的HTML/CSS和JS代码。
它生成了一个运行中的复古网站的有效代码!我甚至反复地要求它添加一个弹出警告,它无缝地整合了进去。这个人工智能可以根据简单的绘图和描述直接构建基本的网站。
6. 寻找一个露营点过夜
为了测试GPT-4的推理能力,我拍了两张照片——一张是茂密的森林地区,另一张是河边的地方。我让它根据生存专业知识来建议一个最适合露营过夜的地方。
AI提供了对两个地点的详细利弊评估,考虑到庇护所、资源和危险等因素。它建议在河流附近的森林边野营,结合了两个地区的优势。令人印象深刻的情景逻辑!
在这里,您可以观察GPT-4在使用其视觉分析了两个图像后提供的建议。
7. 识别可食用的野生植物
我在徒步旅行中偶然发现了一些鲜红色的野生浆果状植物,并拍下了一张照片。询问GPT-4,它正确地识别出它们是玫瑰果,解释道它们富含维生素C可食用,但也建议在食用之前仔细确认任何野生植物。
对于徒步旅行者或生存专家来说,对植物的了解可能非常有用,特别是在不确定某种未知的植物或蘑菇是否安全食用时。
8. 鉴别一朵花
沿着同样的线索,我拍了一张一朵不寻常的紫色野花的照片。GPT-4能够从视觉上准确地将其分类为“鹤颈草花”。它的花朵识别能力可以帮助园艺师和植物学家作为一个快速参考。
9. 地理位置猜测:一个山脉的地点
我上传了一张在挪威徒步攀登的山顶上拍摄的风景照片。在提示后,GPT-4在视觉上评估了这片风景,并根据地形与斯堪的纳维亚,尤其是挪威西部一致的特点,正确地猜测了所属的大致区域。
这展示了机器视觉如何应用于地理位置识别,类似于病毒式在线游戏GeoGuessr。
10. 英超幻想联赛后卫推荐
作为对更专业领域的测试,我提供了GPT-4足球联赛的积分榜、赛程表和球员数据的图片。我寻求幻想足球的建议,想知道接下来几周应该瞄准哪些后卫球员。
令人印象深刻的是,它分析了图像,识别出强力的防御选择,并根据数据给出了可靠的建议 -从而证明了计算机视觉在知识应用方面的价值。
11. 电视节目推荐
最后,为了进行更加随意的测试,我只是向GPT-4展示了一张《办公室》电视剧的截图,并询问了类似的我可能会喜欢的节目推荐。它仅仅通过识别那张图片的上下文,就提供了一份与之类似的热门情景喜剧清单。
它的视觉能力使其能在许多领域中提供相关推荐,包括娱乐、购物、旅行等等。
在GPT-4 Vision分析了该图像之后,它给我呈现了以下电视剧选项:
结论和未来探索
总之,这些实验展示了GPT-4在理解和推理多样化图像方面的出色能力。虽然并不完美,但它的多模态智能预示着随着视觉能力的不断提升,它将成为一款非常有用的人工智能助手。
未来的可能性令人兴奋-几乎任何涉及理解视觉信息或场景的任务都可以从这项技术中受益。我期待着探索更多GPT-4的计算机视觉应用,并分享我所发现的!如果您有任何关于测试这种人工智能的想法,请告诉我。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。