GPT-4.1 模型發佈重點摘要

GPT-4.1 模型的新功能與特色

全新模型系列：OpenAI 推出 GPT-4.1 及其兩個變體 —— GPT-4.1 mini 和 GPT-4.1 nano，這是首次引入「nano」等級的小模型 (Introducing GPT-4.1 in the API | OpenAI)。這些模型在編碼、指令遵循和長上下文處理方面均有重大提升，整體效能全面超越前一代的 GPT-4o 系列 (Introducing GPT-4.1 in the API | OpenAI)。
超長上下文：GPT-4.1 系列將上下文長度擴大至 100 萬個 tokens（較 GPT-4o 的 128,000 大幅提升） (Introducing GPT-4.1 in the API | OpenAI)。模型能有效運用如此龐大的上下文窗口，在長文檔中提取相關資訊而不受干擾，並可靠地處理長篇幅輸入 (Introducing GPT-4.1 in the API | OpenAI)。這意味著它可一次性處理相當於 8 份 React 程式庫全文的內容量，適用於大型程式碼庫、多份文件的分析等場景 (Introducing GPT-4.1 in the API | OpenAI)。
知識更新：GPT-4.1 的訓練知識截止日期更新至 2024 年6月 (Introducing GPT-4.1 in the API | OpenAI)。相較之前版本，這讓模型對較新的事件和資料具備更完善的認知基礎。
小模型高效能：GPT-4.1 mini 在小模型表現上有重大飛躍，在許多基準上甚至超越 GPT-4o。它在智力測試中與 GPT-4o 相當或更佳，同時延遲減少近一半、成本降低達 83% (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 nano 是目前最快、最便宜的模型，具有同樣 1M tokens 上下文長度 (Introducing GPT-4.1 in the API | OpenAI)。雖然體積小，但表現出色：在學術測試 MMLU 中得分 80.1%，在問答測試 GPQA 中得 50.3%，在多語言程式編碼評測中得 9.8%，均高於 GPT-4o mini (Introducing GPT-4.1 in the API | OpenAI)。nano 模型非常適合對低延遲要求高的任務，例如即時分類或自動補全。
多模態能力：GPT-4.1 系列在視覺/圖像理解上也表現強勁。特別是 GPT-4.1 mini，對圖表、圖形、地圖等題目的理解表現較 GPT-4o 有明顯提升 (Introducing GPT-4.1 in the API | OpenAI)。它能解決視覺數學問題、分析科學論文中的圖表，甚至在長影片內容的理解問答中創下新記錄（在多影片長上下文測試中達到 72.0% 的正確率，優於 GPT-4o 的 65.3%） (Introducing GPT-4.1 in the API | OpenAI)。

與 GPT-4 相比的效能改進

編碼與程式能力：GPT-4.1 在各種程式碼任務上顯著優於 GPT-4（特別是 GPT-4o 版本）。例如，在軟體工程基準測試 SWE-bench（Verified 子集）中，GPT-4.1 完成了 54.6% 的任務，相較 GPT-4o 的 33.2%，提升了 21 個百分點 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。這反映出 GPT-4.1 更善於探索程式碼庫、完成任務並產生可執行且通過測試的代碼。同時，GPT-4.1 能更可靠地遵循程式碼差異格式（diff）輸出，相關評測得分是 GPT-4o 的兩倍以上，甚至比 GPT-4.5 高出 8 個百分點 (Introducing GPT-4.1 in the API | OpenAI)。前端開發任務中，GPT-4.1 產生的網頁更完善美觀，人工評測中有 80% 偏好 GPT-4.1 的結果 (Introducing GPT-4.1 in the API | OpenAI)。此外，GPT-4.1 在工具使用上一致性更佳，能更有效地調用開發工具執行任務，避免不必要的編輯 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。
指令遵循與推理：GPT-4.1 對使用者指示的遵循度明顯提升。在 Scale 的 MultiChallenge 多輪對話評測中，GPT-4.1 比 GPT-4o 高出10.5個百分點 (Introducing GPT-4.1 in the API | OpenAI)。內部測試顯示，GPT-4.1 在格式要求（如輸出特定 XML/JSON 格式）、否定指令（避免特定行為或語句）、順序指令（必須按順序執行的多步驟指示）、內容要求（答案需包含特定資訊）、排序要求（按指定準則排列輸出）以及自信度控制（在不確定時說「不知道」而非亂猜）等各方面，都比前代模型表現更佳 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。尤其在困難級別的指令任務上提升顯著 (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 對多輪對話的上下文記憶和連貫性更強，能更好地提取對話歷史中的相關資訊，使長對話依然保持上下文一致與正確推理 (Introducing GPT-4.1 in the API | OpenAI)。這使得它在長對話中產生更自然、一致的回答，不易遺忘先前交代的細節。
長上下文與推理能力：得益於上下文窗口的大幅擴展，GPT-4.1 在處理超長文本時表現出色，而且推理能力也隨之加強。在多模態長上下文理解基準（如 Video-MME 影片測試）中，GPT-4.1 創下 72.0% 的新高紀錄，較 GPT-4o 提升約 6.7 個百分點 (Introducing GPT-4.1 in the API | OpenAI)。內部「大海撈針」（needle in a haystack）實驗證明，無論答案藏在 100 萬 tokens 上下文的何處，GPT-4.1 幾乎都能準確找出目標資訊，顯示其在長文中的檢索能力非常可靠 (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)。另外，在更複雜的多跳推理測試 Graphwalks 中，GPT-4.1 取得 61.7% 的正確率，明顯優於 GPT-4o，達到與先前最佳模型相當的水準 (Introducing GPT-4.1 in the API | OpenAI)。這表示 GPT-4.1 能在超長內容中進行跨段落、多步驟的推理，而不會因文稿過長而迷失重點或上下文。
視覺與多模態能力：相比 GPT-4，GPT-4.1 在圖像和多模態任務上有 notable 的改進。GPT-4.1 mini 在許多圖像理解評測中超越 GPT-4o (Introducing GPT-4.1 in the API | OpenAI)。模型能閱讀含有圖表、示意圖、地圖等的題目並答題，在 MathVista 視覺數學和 CharXiv 科研圖表問答等測試中均取得佳績 (Introducing GPT-4.1 in the API | OpenAI)。對於長影片內容的理解，GPT-4.1 也達到新水平，如在無字幕長影片的問答中表現領先 (Introducing GPT-4.1 in the API | OpenAI)。總的來說，GPT-4.1 對圖像、視頻等非文字訊息的理解精確度和廣度都比前代更進一步。

實際應用場景與使用方式

開發者程式助理：GPT-4.1 的強大編碼能力適合用來打造程式開發輔助工具。例如，整合在 IDE 中協助自動寫碼與除錯，利用其可靠的 diff 輸出來自動套用程式碼更改，或用於程式碼審查（如 Qodo 的實驗顯示 GPT-4.1 在 55% 的情況下給出了比其他模型更好的代碼審查建議 (Introducing GPT-4.1 in the API | OpenAI)）。開發團隊反饋指出，GPT-4.1 在此類任務中更懂得何時該建議、何時保持謹慎不動作，提供了精準且深入的代碼分析 (Introducing GPT-4.1 in the API | OpenAI)。對前端開發，GPT-4.1 產生的網頁設計更符合需求且美觀，大幅減少人工修改工作 (Introducing GPT-4.1 in the API | OpenAI)。整體而言，它能加速軟體研發流程，減輕工程師的重複性工作負擔。
知識問答與專業輔助：由於指令遵循和推理能力提升，GPT-4.1 更適合構建專業諮詢助手和多輪對話系統。在法律、財務、醫療等領域，它能追蹤長對話的上下文，準確理解使用者複雜的要求和限制。例如稅務諮詢平台 Blue J 測試發現，GPT-4.1 在困難的稅法情境問答中準確率提升 53%，能更好理解複雜法規並遵循細緻的指示進行回答 (Introducing GPT-4.1 in the API | OpenAI)。這讓專業人員能更快獲得可靠的參考意見，把時間花在高價值的判斷上 (Introducing GPT-4.1 in the API | OpenAI)。類似地，在商業數據分析平台 Hex 的 SQL 查詢生成中，GPT-4.1 對複雜查詢的正確率接近提升一倍 (Introducing GPT-4.1 in the API | OpenAI)，能正確選擇大型資料庫中相關的資料表，大幅減少人工調試時間。這些改進拓寬了 GPT 模型在企業決策支持、資料庫查詢、客服對話等應用上的可靠性。
長文檔內容處理：GPT-4.1 特別適合需要閱讀和分析超長文件的任務。例如法律科技公司 Thomson Reuters 將 GPT-4.1 應用在專業法律助手 CoCounsel 中，相比 GPT-4o 將多文件審查的準確率提高了 17% (Introducing GPT-4.1 in the API | OpenAI)。GPT-4.1 能在多份冗長合約中保持上下文，精確發現文件間隱含的關聯（如條款衝突或補充關係），這對法律分析和決策非常關鍵 (Introducing GPT-4.1 in the API | OpenAI)。投資公司 Carlyle 則利用 GPT-4.1 從大量財務報表（PDF、Excel 等）中提取細項數據，模型表現比以往提高 50% (Introducing GPT-4.1 in the API | OpenAI)。它也是首個成功克服其他模型在此類任務上瓶頸的模型，例如能解決「大海撈針」式的訊息提取、不會遺失中段內容，以及跨文件的多跳推理等難題 (Introducing GPT-4.1 in the API | OpenAI)。這使 GPT-4.1 成為處理法律檔審閱、財務數據抽取、長篇技術報告分析等工作的有力工具。
自主代理與多步任務：由於 GPT-4.1 更強的指令遵循穩定性和長上下文理解，它非常適合用來構建AI 代理 (agent)，即可以自主連續執行多步驟任務的系統。OpenAI 提到，結合如 Responses API 之類的功能，開發者可以打造更實用可靠的自主代理，讓模型按照用戶目標自動進行軟體工程、從海量文件中提取洞見、處理客戶請求等複雜任務 (Introducing GPT-4.1 in the API | OpenAI)。相比前代，GPT-4.1 驅動的代理系統需要更少的人為引導就能完成任務，因而在自動化工作流和智能助手方面前景更加廣闊。
圖像和多模態應用：憑藉增強的視覺理解能力，GPT-4.1 可應用於圖文內容混合的場景。例如教育領域中讓模型閱讀教材中的圖表解釋概念，或在研究中分析論文附帶的圖形資訊。GPT-4.1 能回答包含圖表、地圖的問題並推理出正確答案 (Introducing GPT-4.1 in the API | OpenAI)，也能理解數學圖形題、長影片內容等，這對需要處理視覺數據的問答系統是一大助益。

(使用方式提示：GPT-4.1 系列目前僅透過 OpenAI API 提供 (Introducing GPT-4.1 in the API | OpenAI)。開發者可以在 OpenAI 平台上的 Playground 測試這些模型，或透過 API 將 GPT-4.1 整合進應用程式。需要注意的是，ChatGPT 網頁版目前沒有直接提供 GPT-4.1 模型；不過 OpenAI 表示已在 ChatGPT 的 GPT-4o 模型中逐步加入了部分 GPT-4.1 的改進，并將隨後的更新中繼續加入更多 (Introducing GPT-4.1 in the API | OpenAI)。也就是說，ChatGPT Plus 用戶使用的 GPT-4（最新版本）已隱含地獲得了一部分 GPT-4.1 的增強，但 GPT-4.1 完整功能集目前無免費方式獲取。)

價格資訊

API 使用收費：GPT-4.1 家族向所有開發者開放使用，採用按用量計費模式 (Introducing GPT-4.1 in the API | OpenAI)。OpenAI 通過提升推理效率，降低了 GPT-4.1 系列的價格——以GPT-4.1 主模型為例，相較 GPT-4o 約減少 26% 成本 (Introducing GPT-4.1 in the API | OpenAI)。長上下文請求並不額外加價，仍按標準 token 計費 (Introducing GPT-4.1 in the API | OpenAI)。各模型的API價格（每 100 萬 tokens）如下： (Introducing GPT-4.1 in the API | OpenAI) (Introducing GPT-4.1 in the API | OpenAI)
- GPT-4.1：輸入 $2.00，輸出 $8.00（折合每千 tokens 約\$0.002 和 \$0.008）
- GPT-4.1 mini：輸入 $0.40，輸出 $1.60（約為 GPT-4.1 價格的 1/5）
- GPT-4.1 nano：輸入 $0.10，輸出 $0.40（極低成本，約為 GPT-4.1 價格的 1/20）

上述價格中，對於重複使用相同上下文的請求，快取機制可使重複部分的輸入費用減至 25%（即提供 75% 折扣)，降低頻繁上下文重用時的成本 (Introducing GPT-4.1 in the API | OpenAI)。此外，通過 OpenAI 的批量請求 Batch API 使用這些模型，還可在上述價格基礎上再享受五折優惠 (Introducing GPT-4.1 in the API | OpenAI)。
是否有免費版本：目前 沒有針對 GPT-4.1 的免費公開版本。使用 GPT-4.1 需要透過付費 API，但新開發者可利用 OpenAI 提供的免費試用額度進行測試（若有申請到 API 金額）。在 ChatGPT 服務中，免費用戶仍然只能使用 GPT-3.5 系列模型；GPT-4 則僅對 ChatGPT Plus 訂閱用戶開放，而且其中所用的 GPT-4o 模型雖逐步融入了 GPT-4.1 的改進，但完全的 GPT-4.1 模型尚未以免費形式提供 (Introducing GPT-4.1 in the API | OpenAI)。換言之，如需體驗 GPT-4.1 的完整功能與效能提升，需透過付費方案：要麼使用 OpenAI API 按量付費調用 GPT-4.1 系列模型，要麼等待 ChatGPT 服務日後可能的更新。

不正常人類研究所

2025年4月15日星期二

GPT-4.1 模型發佈重點摘要

GPT-4.1 模型發佈重點摘要

GPT-4.1 模型的新功能與特色

與 GPT-4 相比的效能改進

實際應用場景與使用方式

價格資訊

The Era of Experience 導讀

2025年4月15日 星期二

GPT-4.1 模型發佈重點摘要

GPT-4.1 模型發佈重點摘要

GPT-4.1 模型的新功能與特色

與 GPT-4 相比的效能改進

實際應用場景與使用方式

價格資訊

The Era of Experience 導讀

2025年4月15日星期二