GPT - 5震撼登场：免费可用，重塑AI格局 - 专业知识 - 恒达娱乐-恒达注册登录-恒达平台

GPT - 5震撼登场：免费可用，重塑AI格局

日期：2025-08-09 11:29:26 / 人气：119

在科技界，能与苹果iPhone发布会媲美的，大概只有OpenAI的ChatGPT发布会了。在GPT - 4亮相后的很长时间里，它一直是AI友商的对标对象，人们也逐渐习惯了AI在众多任务中展现出超越人类的能力。而如今，GPT - 5的登场，再次将这一“及格线”提升到了新的维度。

发布会亮点与“翻车”时刻

OpenAI CEO山姆·奥特曼对GPT - 5给予了极高评价，称其是此前所有模型的巨大飞跃，在他看来，拥有GPT - 5这样的AI模型，在历史上任何时候都是难以想象的。我们也第一时间上手体验，让GPT - 5为它的“生日”写诗，还感受了经典的天气卡片环节，其UI审美质量相当出色。

不过，发布会现场也出现了小插曲。在图表数据环节，GPT - 5出现了明显“胡编乱造”的失误，连奥特曼也忍不住发文自嘲。而它的老对手马斯克自然不会错过这个“蹭热度”的机会，他表示Grok 4在ARC - AGI测试中击败了GPT - 5，还剧透Grok 5将于今年年底前发布，预计表现将更加出色。

多领域能力显著提升

统一系统设计与强大功能

GPT - 5采用了全新的统一系统设计，包含三个核心组件：一个高效的基础模型用于处理常规问题，一个具备深度推理能力的“GPT - 5 thinking”模型专门应对复杂任务，以及一个实时路由器负责根据对话复杂度、工具需求等因素选择合适的模型。这套“路由系统”会持续学习用户的切换行为、反馈偏好和答案准确性，不断优化分配策略。当用户达到使用限制时，系统会自动切换到各模型的精简版本继续服务。

编程与数学能力卓越

GPT - 5是OpenAI迄今为止最强大的编码模型，能够处理复杂的前端开发和大型代码库调试工作。它能通过一个提示就创建出功能完整、设计精美的网站、应用和游戏。例如，根据创建“跳跃球跑者”游戏的提示词，GPT - 5成功创建了包含速度递增、计分系统、音效和视差滚动背景等所有要求功能的游戏。在编程能力相关的SWE - bench Verified（With thinking）测试中得分74.9%，Aider Polyglot（With thinking）得分88%；数学能力方面，AIME 2025 （no tools）测试得分94.6%。

写作能力升级

在写作方面，GPT - 5能够将想法转化为具有文学深度和节奏感的文本。它在处理结构复杂的写作形式时更加可靠，同时兼顾形式规范与表达清晰。比如，为帮助伴侣学习法语，GPT - 5构建了一个“美观且高度互动”的Web应用，包含每日进度跟踪、抽认卡、小测验，还将传统的贪吃蛇游戏改成老鼠吃奶酪，每当老鼠吃到奶酪时，应用会用语音读出一个新的法语单词，界面美观且所有功能均可正常使用。

健康领域表现出色

GPT - 5是OpenAI在健康相关问题上表现最佳的模型。在基于真实场景和医生标准制定的HealthBench评估中，GPT - 5的得分远超以往所有模型。新模型能够主动发现潜在问题，提出针对性问题，并根据用户背景、知识水平和地理位置提供个性化建议。例如，Carolina曾在一周内被诊断出三种不同的癌症，ChatGPT将复杂的医学报告翻译成直白语言，帮助她更好地和医生沟通；在面对是否接受放射治疗这一难题时，ChatGPT详细分析案例的细微差别、风险与收益，比和医生聊三十分钟的收获还要更多。不过，ChatGPT并不能替代医疗专业人员，建议谨慎使用。

多模态理解与推理能力增强

GPT - 5在多项多模态基准测试中表现亮眼，覆盖视觉识别、视频理解、空间判断及科学推理等多个维度。得益于其更强的感知与推理能力，ChatGPT现在能更准确地处理图像及其他非文本输入内容。在OpenAI的内部基准测试中，GPT - 5在约50%的复杂知识工作任务中达到或超越专家水平，涵盖法律、物流、销售、工程等40多个职业领域，表现优于o3和ChatGPT Agent。同时，它在推理效率上也有突破，在视觉推理、编码和研究生级科学问题解决等任务中，表现优于OpenAI o3，但输出token数量减少了50% - 80%。

幻觉问题改善与事实准确性提升

幻觉问题一直是AI的难题，与OpenAI之前的模型相比，GPT - 5出现幻觉的可能性明显降低，在处理复杂、开放性问题时更加得心应手。在代表ChatGPT生产环境流量的匿名测试中，GPT - 5的事实错误率比GPT - 4o降低约45%；启用推理功能时，错误率比OpenAI o3降低约80%。在开放性事实准确性基准LongFact和FActScore测试中，“GPT - 5 thinking”的幻觉率比o3减少约六倍，标志着长篇内容生成准确性的显著提升。

安全性与用户体验优化

GPT - 5引入了“安全完成（Safe Completion）”这一全新安全训练方式，让模型在保持安全边界的同时尽可能提供有用答案。当需要拒绝请求时，GPT - 5会透明地说明拒绝原因并提供安全替代方案。OpenAI对GPT - 5进行了“超过五千小时”的测试以了解其安全风险。

在用户体验方面，GPT - 5减少了过度附和行为，在专门设计的谄媚测试中，谄媚回复率从14.5%降至不足6%。新模型使用更少不必要的表情符号，回应更加细腻和深思熟虑。此外，OpenAI还为所有用户推出了四种ChatGPT的预设个性：愤世嫉俗者、机器人、倾听者和书呆子，这些个性最初适用于文本聊天，晚些时候将上线语音，用户可根据个人喜好调整ChatGPT的交互风格。在现场演示中，语音交互变得非常自然且可控。

不同用户的使用权限与相关产品

用户使用权限

今天开始，GPT - 5成为ChatGPT的新默认模型，向所有Plus、Pro、Team和免费用户推出，Enterprise和Edu用户将在一周后获得访问权限。免费版用户每5小时可发送10条消息，Plus用户每3小时可发送80条消息。Pro用户可无限制访问GPT - 5及GPT - 5 Pro，免费用户达到使用限制后将自动切换到GPT - 5 mini。Pro、Plus和Team用户还可以通过ChatGPT登录Codex CLI，在开发环境中调用GPT - 5来完成代码编写、调试等任务。

相关产品

OpenAI还发布了GPT - 5 pro，这是GPT - 5的一个变体，能够进行更长时间的思考，采用规模化但高效的并行测试时计算，能够提供最高质量和最全面的答案。在1000多个具有经济价值的真实世界推理提示评估中，外部专家在67.8%的情况下更倾向选择GPT - 5 Pro，其重大错误率较GPT - 5减少22%，并且在健康、科学、数学和编码方面表现出色，获得专家们的一致好评。

面向开发者，OpenAI为API平台推出三个不同规格的版本：gpt - 5、gpt - 5 - mini和gpt - 5 - nano，开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。GPT - 5支持回复API、聊天完成API等主流接口，同时成为Codex CLI的默认模型。所有版本都具备reasoning_effort和verbosity参数控制能力，以及自定义工具功能。除基础对话能力外，GPT - 5还集成了并行工具调用、内置工具（网络搜索、文件处理、图像生成）、流式处理、结构化输出等核心功能，以及提示缓存和批量API等成本优化特性。GPT - 5 API还推出四项核心新功能，大幅提升开发者的使用体验，包括通过reasoning_effort参数灵活切换任务场景，通过verbosity参数控制回答详细程度，新增自定义工具功能，以及执行过程可追踪等。此外，API版本专门针对开发者需求优化，更适合编程和Agent任务场景，受到Windsurf、Vercel、JetBrains等知名开发工具和平台的积极评价。

对行业竞争格局的影响

GPT - 5的发布，对Claude而言可能是一记重拳。据外媒The Information报道，Anthropic当前50亿美元的年化收入中，有超过六成来自API，其中仅Cursor和GitHub Copilot这两家编程客户就贡献了14亿美元。这种收入结构暴露了Anthropic的软肋。过去Claude能在编程领域迅速崛起，很大程度上是因为ChatGPT在代码能力上的相对滞后。但随着GPT - 5在代码编程任务和Agent能力的提升，结合OpenAI更强的生态绑定和产品分发渠道，一旦Cursor等工具回流OpenAI，将极大撼动Anthropic的收入，也许很快我们就能看到Claude 5的到来。

作者：恒达娱乐

GPT - 5震撼登场：免费可用，重塑AI格局

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →