GPT-4.1 模型發佈重點摘要
GPT-4.1 模型的新功能與特色
- 全新模型系列:OpenAI 推出 GPT-4.1 及其兩個變體 —— GPT-4.1 mini 和 GPT-4.1 nano,這是首次引入「nano」等級的小模型 (Introducing GPT-4.1 in the API | OpenAI)。這些模型在編碼、指令遵循和長上下文處理方面均有重大提升,整體效能全面超越前一代的 GPT-4o 系列 (Introducing GPT-4.1 in the API | OpenAI)。
- 超長上下文:GPT-4.1 系列將上下文長度擴大至 100 萬個 tokens(較 GPT-4o 的 128,000 大幅提升) (Introducing GPT-4.1 in the API | OpenAI)。模型能有效運用如此龐大的上下文窗口,在長文檔中提取相關資訊而不受干擾,並可靠地處理長篇幅輸入 (Introducing GPT-4.1 in the API | OpenAI)。這意味著它可一次性處理相當於 8 份 React 程式庫全文的內容量,適用於大型程式碼庫、多份文件的分析等場景 (Introducing GPT-4.1 in the API | OpenAI)。
- 知識更新:GPT-4.1 的訓練知識截止日期更新至 2024 年6月 (Introducing GPT-4.1 in the API | OpenAI)。相較之前版本,這讓模型對較新的事件和資料具備更完善的認知基礎。
- 小模型高效能:GPT-4.1 mini 在小模型表現上有重大飛躍,在許多基準上甚至超越 GPT-4o。它在智力測試中與 GPT-4o 相當或更佳,同時延遲減少近一半、成本降低達 83% (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 nano 是目前最快、最便宜的模型,具有同樣 1M tokens 上下文長度 (Introducing GPT-4.1 in the API | OpenAI)。雖然體積小,但表現出色:在學術測試 MMLU 中得分 80.1%,在問答測試 GPQA 中得 50.3%,在多語言程式編碼評測中得 9.8%,均高於 GPT-4o mini (Introducing GPT-4.1 in the API | OpenAI)。nano 模型非常適合對低延遲要求高的任務,例如即時分類或自動補全。
- 多模態能力:GPT-4.1 系列在視覺/圖像理解上也表現強勁。特別是 GPT-4.1 mini,對圖表、圖形、地圖等題目的理解表現較 GPT-4o 有明顯提升 (Introducing GPT-4.1 in the API | OpenAI)。它能解決視覺數學問題、分析科學論文中的圖表,甚至在長影片內容的理解問答中創下新記錄(在多影片長上下文測試中達到 72.0% 的正確率,優於 GPT-4o 的 65.3%) (Introducing GPT-4.1 in the API | OpenAI)。
與 GPT-4 相比的效能改進
- 編碼與程式能力:GPT-4.1 在各種程式碼任務上顯著優於 GPT-4(特別是 GPT-4o 版本)。例如,在軟體工程基準測試 SWE-bench(Verified 子集)中,GPT-4.1 完成了 54.6% 的任務,相較 GPT-4o 的 33.2%,提升了 21 個百分點 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。這反映出 GPT-4.1 更善於探索程式碼庫、完成任務並產生可執行且通過測試的代碼。同時,GPT-4.1 能更可靠地遵循程式碼差異格式(diff)輸出,相關評測得分是 GPT-4o 的兩倍以上,甚至比 GPT-4.5 高出 8 個百分點 (Introducing GPT-4.1 in the API | OpenAI)。前端開發任務中,GPT-4.1 產生的網頁更完善美觀,人工評測中有 80% 偏好 GPT-4.1 的結果 (Introducing GPT-4.1 in the API | OpenAI)。此外,GPT-4.1 在工具使用上一致性更佳,能更有效地調用開發工具執行任務,避免不必要的編輯 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。
- 指令遵循與推理:GPT-4.1 對使用者指示的遵循度明顯提升。在 Scale 的 MultiChallenge 多輪對話評測中,GPT-4.1 比 GPT-4o 高出10.5個百分點 (Introducing GPT-4.1 in the API | OpenAI)。內部測試顯示,GPT-4.1 在格式要求(如輸出特定 XML/JSON 格式)、否定指令(避免特定行為或語句)、順序指令(必須按順序執行的多步驟指示)、內容要求(答案需包含特定資訊)、排序要求(按指定準則排列輸出)以及自信度控制(在不確定時說「不知道」而非亂猜)等各方面,都比前代模型表現更佳 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。尤其在困難級別的指令任務上提升顯著 (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 對多輪對話的上下文記憶和連貫性更強,能更好地提取對話歷史中的相關資訊,使長對話依然保持上下文一致與正確推理 (Introducing GPT-4.1 in the API | OpenAI)。這使得它在長對話中產生更自然、一致的回答,不易遺忘先前交代的細節。
- 長上下文與推理能力:得益於上下文窗口的大幅擴展,GPT-4.1 在處理超長文本時表現出色,而且推理能力也隨之加強。在多模態長上下文理解基準(如 Video-MME 影片測試)中,GPT-4.1 創下 72.0% 的新高紀錄,較 GPT-4o 提升約 6.7 個百分點 (Introducing GPT-4.1 in the API | OpenAI)。內部「大海撈針」(needle in a haystack)實驗證明,無論答案藏在 100 萬 tokens 上下文的何處,GPT-4.1 幾乎都能準確找出目標資訊,顯示其在長文中的檢索能力非常可靠 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。另外,在更複雜的多跳推理測試 Graphwalks 中,GPT-4.1 取得 61.7% 的正確率,明顯優於 GPT-4o,達到與先前最佳模型相當的水準 (Introducing GPT-4.1 in the API | OpenAI)。這表示 GPT-4.1 能在超長內容中進行跨段落、多步驟的推理,而不會因文稿過長而迷失重點或上下文。
- 視覺與多模態能力:相比 GPT-4,GPT-4.1 在圖像和多模態任務上有 notable 的改進。GPT-4.1 mini 在許多圖像理解評測中超越 GPT-4o (Introducing GPT-4.1 in the API | OpenAI)。模型能閱讀含有圖表、示意圖、地圖等的題目並答題,在 MathVista 視覺數學和 CharXiv 科研圖表問答等測試中均取得佳績 (Introducing GPT-4.1 in the API | OpenAI)。對於長影片內容的理解,GPT-4.1 也達到新水平,如在無字幕長影片的問答中表現領先 (Introducing GPT-4.1 in the API | OpenAI)。總的來說,GPT-4.1 對圖像、視頻等非文字訊息的理解精確度和廣度都比前代更進一步。
實際應用場景與使用方式
- 開發者程式助理:GPT-4.1 的強大編碼能力適合用來打造程式開發輔助工具。例如,整合在 IDE 中協助自動寫碼與除錯,利用其可靠的 diff 輸出來自動套用程式碼更改,或用於程式碼審查(如 Qodo 的實驗顯示 GPT-4.1 在 55% 的情況下給出了比其他模型更好的代碼審查建議 (Introducing GPT-4.1 in the API | OpenAI))。開發團隊反饋指出,GPT-4.1 在此類任務中更懂得何時該建議、何時保持謹慎不動作,提供了精準且深入的代碼分析 (Introducing GPT-4.1 in the API | OpenAI)。對前端開發,GPT-4.1 產生的網頁設計更符合需求且美觀,大幅減少人工修改工作 (Introducing GPT-4.1 in the API | OpenAI)。整體而言,它能加速軟體研發流程,減輕工程師的重複性工作負擔。
- 知識問答與專業輔助:由於指令遵循和推理能力提升,GPT-4.1 更適合構建專業諮詢助手和多輪對話系統。在法律、財務、醫療等領域,它能追蹤長對話的上下文,準確理解使用者複雜的要求和限制。例如稅務諮詢平台 Blue J 測試發現,GPT-4.1 在困難的稅法情境問答中準確率提升 53%,能更好理解複雜法規並遵循細緻的指示進行回答 (Introducing GPT-4.1 in the API | OpenAI)。這讓專業人員能更快獲得可靠的參考意見,把時間花在高價值的判斷上 (Introducing GPT-4.1 in the API | OpenAI)。類似地,在商業數據分析平台 Hex 的 SQL 查詢生成中,GPT-4.1 對複雜查詢的正確率接近提升一倍 (Introducing GPT-4.1 in the API | OpenAI),能正確選擇大型資料庫中相關的資料表,大幅減少人工調試時間。這些改進拓寬了 GPT 模型在企業決策支持、資料庫查詢、客服對話等應用上的可靠性。
- 長文檔內容處理:GPT-4.1 特別適合需要閱讀和分析超長文件的任務。例如法律科技公司 Thomson Reuters 將 GPT-4.1 應用在專業法律助手 CoCounsel 中,相比 GPT-4o 將多文件審查的準確率提高了 17% (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 能在多份冗長合約中保持上下文,精確發現文件間隱含的關聯(如條款衝突或補充關係),這對法律分析和決策非常關鍵 (Introducing GPT-4.1 in the API | OpenAI)。投資公司 Carlyle 則利用 GPT-4.1 從大量財務報表(PDF、Excel 等)中提取細項數據,模型表現比以往提高 50% (Introducing GPT-4.1 in the API | OpenAI)。它也是首個成功克服其他模型在此類任務上瓶頸的模型,例如能解決「大海撈針」式的訊息提取、不會遺失中段內容,以及跨文件的多跳推理等難題 (Introducing GPT-4.1 in the API | OpenAI)。這使 GPT-4.1 成為處理法律檔審閱、財務數據抽取、長篇技術報告分析等工作的有力工具。
- 自主代理與多步任務:由於 GPT-4.1 更強的指令遵循穩定性和長上下文理解,它非常適合用來構建AI 代理 (agent),即可以自主連續執行多步驟任務的系統。OpenAI 提到,結合如 Responses API 之類的功能,開發者可以打造更實用可靠的自主代理,讓模型按照用戶目標自動進行軟體工程、從海量文件中提取洞見、處理客戶請求等複雜任務 (Introducing GPT-4.1 in the API | OpenAI)。相比前代,GPT-4.1 驅動的代理系統需要更少的人為引導就能完成任務,因而在自動化工作流和智能助手方面前景更加廣闊。
- 圖像和多模態應用:憑藉增強的視覺理解能力,GPT-4.1 可應用於圖文內容混合的場景。例如教育領域中讓模型閱讀教材中的圖表解釋概念,或在研究中分析論文附帶的圖形資訊。GPT-4.1 能回答包含圖表、地圖的問題並推理出正確答案 (Introducing GPT-4.1 in the API | OpenAI),也能理解數學圖形題、長影片內容等,這對需要處理視覺數據的問答系統是一大助益。
(使用方式提示:GPT-4.1 系列目前僅透過 OpenAI API 提供 (Introducing GPT-4.1 in the API | OpenAI)。開發者可以在 OpenAI 平台上的 Playground 測試這些模型,或透過 API 將 GPT-4.1 整合進應用程式。需要注意的是,ChatGPT 網頁版目前沒有直接提供 GPT-4.1 模型;不過 OpenAI 表示已在 ChatGPT 的 GPT-4o 模型中逐步加入了部分 GPT-4.1 的改進,并將隨後的更新中繼續加入更多 (Introducing GPT-4.1 in the API | OpenAI)。也就是說,ChatGPT Plus 用戶使用的 GPT-4(最新版本)已隱含地獲得了一部分 GPT-4.1 的增強,但 GPT-4.1 完整功能集目前無免費方式獲取。)
價格資訊
-
API 使用收費:GPT-4.1 家族向所有開發者開放使用,採用按用量計費模式
(Introducing GPT-4.1 in the API | OpenAI)。OpenAI 通過提升推理效率,降低了 GPT-4.1 系列的價格——以GPT-4.1 主模型為例,相較 GPT-4o 約減少 26% 成本
(Introducing GPT-4.1 in the API | OpenAI)。長上下文請求並不額外加價,仍按標準 token 計費
(Introducing GPT-4.1 in the API | OpenAI)。各模型的API價格(每 100 萬 tokens)如下:
(Introducing GPT-4.1 in the API | OpenAI)
(Introducing GPT-4.1 in the API | OpenAI)
- GPT-4.1:輸入 $2.00,輸出 $8.00(折合每千 tokens 約\$0.002 和 \$0.008)
- GPT-4.1 mini:輸入 $0.40,輸出 $1.60(約為 GPT-4.1 價格的 1/5)
- GPT-4.1 nano:輸入 $0.10,輸出 $0.40(極低成本,約為 GPT-4.1 價格的 1/20)
上述價格中,對於重複使用相同上下文的請求,快取機制可使重複部分的輸入費用減至 25%(即提供 75% 折扣),降低頻繁上下文重用時的成本 (Introducing GPT-4.1 in the API | OpenAI)。此外,通過 OpenAI 的批量請求 Batch API 使用這些模型,還可在上述價格基礎上再享受 五折優惠 (Introducing GPT-4.1 in the API | OpenAI)。 - 是否有免費版本:目前 沒有針對 GPT-4.1 的免費公開版本。使用 GPT-4.1 需要透過付費 API,但新開發者可利用 OpenAI 提供的免費試用額度進行測試(若有申請到 API 金額)。在 ChatGPT 服務中,免費用戶仍然只能使用 GPT-3.5 系列模型;GPT-4 則僅對 ChatGPT Plus 訂閱用戶開放,而且其中所用的 GPT-4o 模型雖逐步融入了 GPT-4.1 的改進,但完全的 GPT-4.1 模型尚未以免費形式提供 (Introducing GPT-4.1 in the API | OpenAI)。換言之,如需體驗 GPT-4.1 的完整功能與效能提升,需透過付費方案:要麼使用 OpenAI API 按量付費調用 GPT-4.1 系列模型,要麼等待 ChatGPT 服務日後可能的更新。