业界首个,阿里通义万相“首尾帧生视频模型”开源

业界首个,阿里通义万相“首尾帧生视频模型”开源

业界首个,阿里通义万相“首尾帧生视频模型”开源
它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视频,此次升级将能满足用户更可控、更定制化的视频生成需求。...
2025-04-18 · 浏览14次
物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架
最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。...
2025-04-18 · 浏览11次
DLSS 4黑科技加持RTX 5060 Ti「帧能打」!4K光追黑悟空,32B模型轻松跑

DLSS 4黑科技加持RTX 5060 Ti「帧能打」!4K光追黑悟空,32B模型轻松跑

DLSS 4黑科技加持RTX 5060 Ti「帧能打」!4K光追黑悟空,32B模型轻松跑
DLSS 4黑科技加持RTX 5060 Ti「帧能打」!4K光追黑悟空,32B模型轻松跑...
2025-04-17 · 浏览33次
字节跳动发布豆包 1.5 深度思考模型,具备“看图思考”能力

字节跳动发布豆包 1.5 深度思考模型,具备“看图思考”能力

字节跳动发布豆包 1.5 深度思考模型,具备“看图思考”能力
字节跳动发布豆包1.5深度思考模型,采用MoE架构,总参数200B,激活参数20B,推理成本低于业界50%。新模型在数学、编程、科学推理及创意写作等任务中表现突出,还能结合视觉...
2025-04-17 · 浏览33次
5000 亿美元大项目版图扩张,消息称 OpenAI、软银考虑在英投资“星际之门”

5000 亿美元大项目版图扩张,消息称 OpenAI、软银考虑在英投资“星际之门”

5000 亿美元大项目版图扩张,消息称 OpenAI、软银考虑在英投资“星际之门”
初期阶段,“星际之门”的投资将集中在美国,专注于在国内投入建设,但若项目顺利,未来也考虑将投资扩展至英国。...
2025-04-17 · 浏览27次
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入

上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
该团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和...
2025-04-17 · 浏览33次
跟上 ChatGPT 及 Gemini 步伐,马斯克 xAI 旗下 Grok 增加“记忆”功能

跟上 ChatGPT 及 Gemini 步伐,马斯克 xAI 旗下 Grok 增加“记忆”功能

跟上 ChatGPT 及 Gemini 步伐,马斯克 xAI 旗下 Grok 增加“记忆”功能
相比之下,ChatGPT 早已支持类似的记忆功能,且最近升级后,能够调用用户完整的聊天历史。谷歌的 Gemini 同样具备持久记忆,能根据不同用户的习惯调整回应。...
2025-04-17 · 浏览29次
从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现

从思考到行动:大模型自主工具调用能力的深度实现
GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thoug...
2025-04-17 · 浏览27次
刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star

刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star

刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star
深夜,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。...
2025-04-17 · 浏览32次
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理
当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。...
2025-04-17 · 浏览26次
AI强化的人性化多模态视觉辅助系统,上交大开发智能便捷的穿戴设备,登Nature

AI强化的人性化多模态视觉辅助系统,上交大开发智能便捷的穿戴设备,登Nature

AI强化的人性化多模态视觉辅助系统,上交大开发智能便捷的穿戴设备,登Nature
这项系统可以部分取代眼睛,尽管目前的实验尚且停留在原型机阶段。...
2025-04-17 · 浏览24次
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底
异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底...
2025-04-17 · 浏览28次
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实...
2025-04-17 · 浏览25次
消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf

消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf

消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf
知情人士透露,OpenAI正谈判以约30亿美元收购AI编程工具Windsurf(原名Codeium),若成功将成为其史上最大收购案。此举将增强OpenAI在AI编程助手市场的竞...
2025-04-17 · 浏览28次
AI“立功”:谷歌去年封停了 3920 万个广告账号,超 2023 年三倍

AI“立功”:谷歌去年封停了 3920 万个广告账号,超 2023 年三倍

AI“立功”:谷歌去年封停了 3920 万个广告账号,超 2023 年三倍
谷歌表示,借助大语言模型和通过识别诸如商业冒充、非法支付信息等信号,目前公司能够在广告投放前就暂停“大多数”广告账户。...
2025-04-17 · 浏览25次
微软最新报告教你“防诈”:如何避开 AI 生成的虚假招聘与诈骗网站

微软最新报告教你“防诈”:如何避开 AI 生成的虚假招聘与诈骗网站

微软最新报告教你“防诈”:如何避开 AI 生成的虚假招聘与诈骗网站
微软16日发布了最新一期《网络安全信号报告》,详细说明了如何应对当今网络安全领域中的新型威胁、诈骗及欺诈行为,并阐述了AI如何使开发恶意软件变得“比以往任何时候都更加容易”。...
2025-04-17 · 浏览23次
“最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研

“最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研

“最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研
微软与OpenAI的合作关系出现裂痕,OpenAI宣布5000亿美元的Stargate项目,寻求独立发展,不再完全依赖微软云服务。微软则计划投入800亿美元用于AI研发,重心转...
2025-04-17 · 浏览24次
字节跳动发布豆包 1.5 深度思考模型,同时升级文生图模型

字节跳动发布豆包 1.5 深度思考模型,同时升级文生图模型

字节跳动发布豆包 1.5 深度思考模型,同时升级文生图模型
字节跳动发布豆包1.5深度思考模型,采用MoE架构,总参数200B,激活参数20B,推理成本低于业界50%。新模型在数学、编程、科学推理及创意写作等任务中表现突出,还能结合视觉...
2025-04-17 · 浏览28次
中国航天科技集团:固体动力人工智能大模型平台完成升级并上线运行

中国航天科技集团:固体动力人工智能大模型平台完成升级并上线运行

中国航天科技集团:固体动力人工智能大模型平台完成升级并上线运行
据中国航天科技集团消息,近日,中国航天科技集团有限公司四院固体动力 AI(人工智能)大模型平台完成 DeepSeek 融合升级,平台功能和性能全面提升并正式上线运行。...
2025-04-17 · 浏览29次
OpenAI 预告凌晨直播,满血版 o3 推理模型有望登场

OpenAI 预告凌晨直播,满血版 o3 推理模型有望登场

OpenAI 预告凌晨直播,满血版 o3 推理模型有望登场
OpenAI CEO 奥尔特曼本月初在社交平台 X 上发文称,可能在数周内发布 o3 和 o4-mini,未来几月内发布 GPT-5。...
2025-04-17 · 浏览39次
OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布
OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT...
2025-04-17 · 浏览57次
在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具

在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具

在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具
Codex CLI 是为已经生活在终端的开发者设计的,他们想要 ChatGPT 级别的推理能力,以及实际运行代码、操作文件和迭代的权力 —— 所有这些都在版本控制之下。...
2025-04-17 · 浏览48次
OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议

OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议

OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议
OpenAI宣布部署新监控系统,专门监测其AI模型o3和o4-mini,防止提供有害建议。系统识别风险提示并拒绝回应,阻断比例达98.7%。#AI安全# #OpenAI#...
2025-04-17 · 浏览36次
可实时识别屏幕内容,谷歌 Gemini Live 功能向所有安卓用户免费开放

可实时识别屏幕内容,谷歌 Gemini Live 功能向所有安卓用户免费开放

可实时识别屏幕内容,谷歌 Gemini Live 功能向所有安卓用户免费开放
谷歌宣布Gemini Live功能免费向所有安卓用户开放,可实时识别摄像头和屏幕内容并回应。此前仅限Pixel 9和Galaxy S25用户订阅使用。微软同日也推出类似AI工具...
2025-04-17 · 浏览25次
第一页 · 上一页 · 下一页 · 当前第1页