GPT - 5震撼登场:免费可用,重塑AI格局
日期:2025-08-09 11:29:26 / 人气:15

在科技界,能与苹果iPhone发布会媲美的,大概只有OpenAI的ChatGPT发布会了。在GPT - 4亮相后的很长时间里,它一直是AI友商的对标对象,人们也逐渐习惯了AI在众多任务中展现出超越人类的能力。而如今,GPT - 5的登场,再次将这一“及格线”提升到了新的维度。
发布会亮点与“翻车”时刻
OpenAI CEO山姆·奥特曼对GPT - 5给予了极高评价,称其是此前所有模型的巨大飞跃,在他看来,拥有GPT - 5这样的AI模型,在历史上任何时候都是难以想象的。我们也第一时间上手体验,让GPT - 5为它的“生日”写诗,还感受了经典的天气卡片环节,其UI审美质量相当出色。
不过,发布会现场也出现了小插曲。在图表数据环节,GPT - 5出现了明显“胡编乱造”的失误,连奥特曼也忍不住发文自嘲。而它的老对手马斯克自然不会错过这个“蹭热度”的机会,他表示Grok 4在ARC - AGI测试中击败了GPT - 5,还剧透Grok 5将于今年年底前发布,预计表现将更加出色。
多领域能力显著提升
统一系统设计与强大功能
GPT - 5采用了全新的统一系统设计,包含三个核心组件:一个高效的基础模型用于处理常规问题,一个具备深度推理能力的“GPT - 5 thinking”模型专门应对复杂任务,以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。这套“路由系统”会持续学习用户的切换行为、反馈偏好和答案准确性,不断优化分配策略。当用户达到使用限制时,系统会自动切换到各模型的精简版本继续服务。
编程与数学能力卓越
GPT - 5是OpenAI迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。例如,根据创建“跳跃球跑者”游戏的提示词,GPT - 5成功创建了包含速度递增、计分系统、音效和视差滚动背景等所有要求功能的游戏。在编程能力相关的SWE - bench Verified(With thinking)测试中得分74.9%,Aider Polyglot(With thinking)得分88%;数学能力方面,AIME 2025 (no tools)测试得分94.6%。
写作能力升级
在写作方面,GPT - 5能够将想法转化为具有文学深度和节奏感的文本。它在处理结构复杂的写作形式时更加可靠,同时兼顾形式规范与表达清晰。比如,为帮助伴侣学习法语,GPT - 5构建了一个“美观且高度互动”的Web应用,包含每日进度跟踪、抽认卡、小测验,还将传统的贪吃蛇游戏改成老鼠吃奶酪,每当老鼠吃到奶酪时,应用会用语音读出一个新的法语单词,界面美观且所有功能均可正常使用。
健康领域表现出色
GPT - 5是OpenAI在健康相关问题上表现最佳的模型。在基于真实场景和医生标准制定的HealthBench评估中,GPT - 5的得分远超以往所有模型。新模型能够主动发现潜在问题,提出针对性问题,并根据用户背景、知识水平和地理位置提供个性化建议。例如,Carolina曾在一周内被诊断出三种不同的癌症,ChatGPT将复杂的医学报告翻译成直白语言,帮助她更好地和医生沟通;在面对是否接受放射治疗这一难题时,ChatGPT详细分析案例的细微差别、风险与收益,比和医生聊三十分钟的收获还要更多。不过,ChatGPT并不能替代医疗专业人员,建议谨慎使用。
多模态理解与推理能力增强
GPT - 5在多项多模态基准测试中表现亮眼,覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力,ChatGPT现在能更准确地处理图像及其他非文本输入内容。在OpenAI的内部基准测试中,GPT - 5在约50%的复杂知识工作任务中达到或超越专家水平,涵盖法律、物流、销售、工程等40多个职业领域,表现优于o3和ChatGPT Agent。同时,它在推理效率上也有突破,在视觉推理、编码和研究生级科学问题解决等任务中,表现优于OpenAI o3,但输出token数量减少了50% - 80%。
幻觉问题改善与事实准确性提升
幻觉问题一直是AI的难题,与OpenAI之前的模型相比,GPT - 5出现幻觉的可能性明显降低,在处理复杂、开放性问题时更加得心应手。在代表ChatGPT生产环境流量的匿名测试中,GPT - 5的事实错误率比GPT - 4o降低约45%;启用推理功能时,错误率比OpenAI o3降低约80%。在开放性事实准确性基准LongFact和FActScore测试中,“GPT - 5 thinking”的幻觉率比o3减少约六倍,标志着长篇内容生成准确性的显著提升。
安全性与用户体验优化
GPT - 5引入了“安全完成(Safe Completion)”这一全新安全训练方式,让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时,GPT - 5会透明地说明拒绝原因并提供安全替代方案。OpenAI对GPT - 5进行了“超过五千小时”的测试以了解其安全风险。
在用户体验方面,GPT - 5减少了过度附和行为,在专门设计的谄媚测试中,谄媚回复率从14.5%降至不足6%。新模型使用更少不必要的表情符号,回应更加细腻和深思熟虑。此外,OpenAI还为所有用户推出了四种ChatGPT的预设个性:愤世嫉俗者、机器人、倾听者和书呆子,这些个性最初适用于文本聊天,晚些时候将上线语音,用户可根据个人喜好调整ChatGPT的交互风格。在现场演示中,语音交互变得非常自然且可控。
不同用户的使用权限与相关产品
用户使用权限
今天开始,GPT - 5成为ChatGPT的新默认模型,向所有Plus、Pro、Team和免费用户推出,Enterprise和Edu用户将在一周后获得访问权限。免费版用户每5小时可发送10条消息,Plus用户每3小时可发送80条消息。Pro用户可无限制访问GPT - 5及GPT - 5 Pro,免费用户达到使用限制后将自动切换到GPT - 5 mini。Pro、Plus和Team用户还可以通过ChatGPT登录Codex CLI,在开发环境中调用GPT - 5来完成代码编写、调试等任务。
相关产品
OpenAI还发布了GPT - 5 pro,这是GPT - 5的一个变体,能够进行更长时间的思考,采用规模化但高效的并行测试时计算,能够提供最高质量和最全面的答案。在1000多个具有经济价值的真实世界推理提示评估中,外部专家在67.8%的情况下更倾向选择GPT - 5 Pro,其重大错误率较GPT - 5减少22%,并且在健康、科学、数学和编码方面表现出色,获得专家们的一致好评。
面向开发者,OpenAI为API平台推出三个不同规格的版本:gpt - 5、gpt - 5 - mini和gpt - 5 - nano,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。GPT - 5支持回复API、聊天完成API等主流接口,同时成为Codex CLI的默认模型。所有版本都具备reasoning_effort和verbosity参数控制能力,以及自定义工具功能。除基础对话能力外,GPT - 5还集成了并行工具调用、内置工具(网络搜索、文件处理、图像生成)、流式处理、结构化输出等核心功能,以及提示缓存和批量API等成本优化特性。GPT - 5 API还推出四项核心新功能,大幅提升开发者的使用体验,包括通过reasoning_effort参数灵活切换任务场景,通过verbosity参数控制回答详细程度,新增自定义工具功能,以及执行过程可追踪等。此外,API版本专门针对开发者需求优化,更适合编程和Agent任务场景,受到Windsurf、Vercel、JetBrains等知名开发工具和平台的积极评价。
对行业竞争格局的影响
GPT - 5的发布,对Claude而言可能是一记重拳。据外媒The Information报道,Anthropic当前50亿美元的年化收入中,有超过六成来自API,其中仅Cursor和GitHub Copilot这两家编程客户就贡献了14亿美元。这种收入结构暴露了Anthropic的软肋。过去Claude能在编程领域迅速崛起,很大程度上是因为ChatGPT在代码能力上的相对滞后。但随着GPT - 5在代码编程任务和Agent能力的提升,结合OpenAI更强的生态绑定和产品分发渠道,一旦Cursor等工具回流OpenAI,将极大撼动Anthropic的收入,也许很快我们就能看到Claude 5的到来。
作者:恒达娱乐
新闻资讯 News
- 香港知名女星罕见露面,状态冻龄...08-14
- 《灿烂的市集》定档:创意匮乏,...08-14
- 演活了诸葛亮,73 岁不敢退休,老...08-14
- 《小岛奇谭》:当港剧拾起志怪笔...08-14