AI 中文社区

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld，可在七大领域中模拟智能体交互环境

该模型是首个原生语言世界模型，能在七大领域中模拟智能体交互环境，提供两种规模选择。通过三阶段训练范式构建世界建模能力，可作为解耦的环境模拟器或统一智能体基础模型，突破真实环境交互的能力上限。#千问大模型# #AI 智能体#...

2026-06-24 · 浏览226次

仅花 12 美元，工程师成功欺骗 AI 将虚构赛事奉为事实

安全工程师仅花费 12 美元注册域名并编辑维基百科词条，就成功让多款 AI 聊天机器人坚信自己是一个虚构纸牌游戏的世界冠军。这暴露了 AI 在联网搜索时无条件信任网络文本的核心漏洞，以及语料投毒、智能体误导等更深层风险。#AI 安全# #信...

2026-05-04 · 浏览197次

混元迄今最智能的模型：腾讯发布并开源 Hy3 preview 语言模型

Hy3 preview 已在元宝、CodeBuddy、WorkBuddy 、QQ、ima、QQ 浏览器、腾讯文档、腾讯乐享上线，并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。...

2026-04-23 · 浏览425次

苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型，但速度令人抓狂

一项名为 Flash-MoE 的开源项目成功在仅 12GB 内存的 iPhone 17 Pro 上运行 4000 亿参数大语言模型。虽每秒仅生成 0.6 个 Token，速度极慢，但证明手机本地运行大模型在技术上是可行的，关键在于利用 SS...

2026-03-23 · 浏览214次

研究：在 95% 的模拟核危机场景中，AI 模型会选择部署核武器

伦敦国王学院研究发现，GPT 5.2、Gemini 3 Flash 和 Claude Sonnet 4 在模拟核危机时，95% 情境下倾向于发出核威慑或升级冲突。AI 表面和平、暗中备战的“两面性”行为模式，凸显了将 AI 用于战略决策的潜...

2026-03-03 · 浏览298次

研究证实：AI 大模型跨多轮对话任务表现不佳，性能最高降 39%

研究显示，即便是 GPT-5 及后续版本，当任务信息被拆分到多条消息中时，模型性能仍会显著下降，降幅可达 33%。在代码、数学计算等六大任务中，Python 任务提升最明显。研究人员建议，遇到异常可开启新对话并先让模型总结请求。#AI 大模...

2026-03-01 · 浏览335次

微软：AI 聊天机器人越聊越“笨”，主流大模型在多轮对话中成功率降至 65%

微软与赛富时联合研究发现，主流大模型在多轮对话中成功率从90%骤降至65%，出现“迷失会话”缺陷。模型并非智力下降，而是变得不稳定，容易因过早生成、答案膨胀等机制累积错误。这对依赖AI构建复杂对话的开发者提出严峻挑战。#AI聊天机器人##大...

2026-02-20 · 浏览330次

现实世界的提示词注入攻击：研究揭示一块标牌如何欺骗自动驾驶汽车

加州大学研究团队发现，自动驾驶汽车依赖的视觉-语言大模型存在安全漏洞，攻击者只需举起一块优化后的印刷标志，就能劫持AI决策，使其无视安全法则执行危险指令。在模拟测试中，攻击成功率最高可达95.5%。#自动驾驶安全##AI漏洞#...

2026-02-01 · 浏览294次

自己年初造的新词火了，OpenAI 联合创始人卡帕西谈“氛围编程”

今年年初安德烈・卡帕西创造“氛围编程”一词，年末他发布年度回顾。该模式让编程不再专属专业人员，或重塑软件行业，但提升工程师效率尚无定论。#AI编程##氛围编程#...

2025-12-24 · 浏览418次

研究显示：用 AI 的科研人员论文产出量暴增，但质量隐忧浮现

最新研究显示，AI技术显著提升了科研论文的产出数量，尤其在社会科学和人文科学领域增幅高达59.8%。但研究也警告，AI生成的论文语言越复杂，质量可能越低。 #AI科研# #论文质量#...

2025-12-22 · 浏览429次

为 AI 量身定做的编程语言：粋 (Sui) 宣称可实现代码 100% 精确

开发该语言的本田崇人表示，现有的高级编程语言是为人类而诞生的，而 AI 用编程语言完全可以抛弃人类可读这一要素。...

2025-12-16 · 浏览373次

蚂蚁开源业内首个 100B 扩散语言模型 LLaDA2.0

LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本，将 Diffusion 模型的参数规模首次扩展到了 100B 量级。#LLaDA2.0# #蚂蚁开源#...

2025-12-12 · 浏览424次

专家：会聊天≠会思考，大语言模型造不出通用人工智能

认知共振创始人本杰明・莱利指出，大语言模型无法造出通用人工智能，人类思维很大程度独立于语言。顶尖AI专家杨立昆也持怀疑态度，新研究也表明大语言模型有“天花板”。#大语言模型 #通用人工智能 #AI研究#...

2025-11-30 · 浏览296次

研究揭示：大语言模型无法真正理解双关语

最新研究表明，大语言模型在理解双关语方面表现不佳。研究团队测试了多个双关语句，发现模型虽能识别表层结构，却无法真正领会幽默含义。相关成果已在EMNLP 2025上发表。#AI研究##双关语#...

2025-11-24 · 浏览317次

Hugging Face CEO 回应“AI 泡沫说”：倒不如说现在是“大语言模型泡沫”

依照 Clem Delangue 的看法，目前被过度追捧的是驱动 ChatGPT、Gemini 等聊天机器人的大语言模型。不过，这种关注可能不会持续太久。...

2025-11-19 · 浏览379次

研究称 AI 在社交平台发的帖子仍易被识别，只因大模型不擅长情感表达

苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的最新研究表明，各种大语言模型生成的社交媒体帖子都“容易被区分”，且准确率达到70%至80%，远高于随机猜测的结果。...

2025-11-10 · 浏览290次

科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

牛津大学等机构研究发现，多数大语言模型测试标准存在方法论缺陷，如术语模糊、数据采样不当等，导致AI进步难以客观衡量。研究建议明确定义目标、防止数据污染等改进措施。#AI测试标准##大语言模型#...

2025-11-08 · 浏览344次

研究显示：低质数据可令 AI“大脑退化”，OpenAI 奥尔特曼担心的“死网论”正逐渐成真

康奈尔大学研究指出，大语言模型接触低质网络内容会“大脑退化”。以Llama 3和Qwen 2.5实验，低质训练让准确率等下降。多位科技人士担忧“死网论”，互联网正面临内容质量与真实性考验。 #AI大脑退化 #死网论 #低质数据...

2025-10-22 · 浏览330次

Anthropic 开源 AI 安全分析框架 Petri，利用 Agent 代理人测试主流模型潜在不对齐风险

Anthropic开源AI模型安全分析框架Petri，可检测主流大模型在高风险情境下的潜在弱点。测试显示，Claude Sonnet 4.5与GPT-5安全性最佳，而Gemini 2.5 Pro、Grok-4与Kimi K2存在较强欺骗倾向...

2025-10-14 · 浏览346次

vivo 蓝心语言大模型升级，蓝心小 V 支持深度思考、无唤醒词交互

vivo 蓝心语言大模型迎来升级，重构了意图中控，让系统能在准确理解用户意图的基础上，拆解复杂任务，调整执行步骤，并结合长期记忆实现更精准、更个性化的交互体验。...

2025-10-10 · 浏览449次

瑞士加入全球 AI 竞赛，推出国家级开源大语言模型 Apertus

瑞士正式发布国家级开源大语言模型Apertus，由公立机构研发，完全开源并遵循数据保护法。该模型支持1000多种语言，非英语数据占比40%，旨在成为公共基础设施。#AI开源# #瑞士科技#...

2025-09-03 · 浏览448次

研究显示：AI 解 6x6 数独都费劲，解释决策时还答非所问

科罗拉多大学研究发现，大型语言模型（LLM）在解决数独等逻辑问题时表现不佳，难以准确解释决策过程。研究指出，这种解释能力的缺失可能影响AI在驾驶、商业决策等领域的可靠性。#AI短板# #逻辑推理#...

2025-08-07 · 浏览368次

给 AI“补补课”：微软砸资源抢救欧洲小语种

微软宣布两项新举措，保护欧洲语言和文化遗产，防止在AI时代被边缘化。计划包括扩充10种使用人数较少的欧洲语言的训练数据，以及为巴黎圣母院打造数字孪生。#微软AI##欧洲文化保护#...

2025-07-22 · 浏览398次

日本 2024 财年生成式 AI 使用率仅 26.7%，远落后于中美

日本总务省白皮书显示，2024财年日本生成式AI使用率仅26.7%，远低于美国的68.8%和中国的81.2%。年轻一代接受度较高，20多岁人群使用率达44.7%。#人工智能##日本科技#...

2025-07-09 · 浏览734次