OpenAI tuyên bố giành huy chương vàng IMO – Sự thật là gì?”
Ngay sau kỳ thi IMO 2025, OpenAI tuyên bố mô hình AI của họ đạt 35/42 điểm, đủ chuẩn huy chương vàng. Nhưng cộng đồng toán học phản ứng gay gắt, đặt nghi vấn về tính hợp lệ và minh bạch.
Ngay sau khi kỳ International Mathematical Olympiad (IMO) 2025 kết thúc vào ngày 19/07/2025, OpenAI công bố một mô hình lập luận (reasoning LLM) thử nghiệm đạt 35/42 điểm, giải trọn 5 trong 6 bài, đủ mức huy chương vàng theo thang điểm điển hình nhiều năm.
IMO đặc biệt vì thí sinh có hai buổi thi, mỗi buổi 4 giờ 30 phút, mỗi bài cần một chứng minh dài, chặt chẽ, không phải chỉ ghi đáp số. Việc “giải được” nghĩa là viết ra lời giải tự nhiên đủ thuyết phục ban chấm, khác hẳn các bộ đề trả lời nhanh như SAT hay các câu hỏi chỉ cần kết quả cuối.
Theo mô tả của Alexander Wei, bài làm của mô hình được ba cựu huy chương IMO chấm độc lập rồi đạt đồng thuận, tổng 35 điểm từ năm bài (P1–P5), bài cuối cùng (P6) thường khó nhất chưa giải được; đó là một bước nhảy so với các đánh giá trước đây nơi nhiều mô hình gần như “tắt tiếng” trước yêu cầu full proof.
Để thấy tính lịch sử: chỉ năm ngoái, hệ thống kết hợp AlphaProof và AlphaGeometry 2 của DeepMind đạt mức tương đương huy chương bạc (28/42), còn phải dựa vào tổ hợp mô hình chuyên biệt hình học và mô hình sinh chứng minh, chưa vượt mốc vàng.
Trước đó nữa, AlphaGeometry và bản nâng cấp AlphaGeometry2 tập trung sâu vào một nhánh là hình học: tối ưu biểu diễn hình, tìm chuỗi suy luận hình thức, đạt hoặc vượt mức trung bình vàng ở các bài hình học nhiều năm. Nhưng đó vẫn là “vận động viên chuyên môn”, chưa phải “vận động viên toàn năng” của toàn bộ đề IMO đủ dạng (số học, đại số, tổ hợp, hình học).
Trong khi các benchmark trước đây (AIME, GSM8K…) chủ yếu kiểm tra khả năng ra đáp án số hoặc lời giải ngắn, nghiên cứu USAMO 2025 chỉ ra các LLM đứng đầu vẫn dưới 5% nếu chấm nghiêm khắc toàn bộ chứng minh. Nghĩa là chúng hay “nói có vẻ đúng” nhưng thiếu chuỗi lý luận kín.
Vậy tiến bộ cốt lõi là gì?
Một là, chuyển từ “đoán đáp số” sang “dệt lưới lập luận”, mô hình phải tổ chức hàng chục ý nhỏ liên kết như đan lụa, không chỉ bắn ra một dòng kết quả.
Hai là, mô hình tận dụng “thời gian suy nghĩ mở rộng” (test-time compute scaling): tạo nhiều nháp, tự kiểm tra, chọn lọc, giống một học sinh làm nhiều phác thảo trước khi chép bản cuối, hay như vận động viên marathon tích luỹ từng nhịp thở để bứt phá cuối đường.
Ba là, thay vì một hệ rời rạc nhiều module chuyên dụng, xu hướng hợp nhất trong một “bộ não” tổng quát rồi mở rộng sức mạnh bằng compute có kiểm soát.
Ý nghĩa lịch sử có thể tóm lại bằng ba điểm. Một là, trần kiểm tra năng lực AI tăng: từ các bài toán máy tính dễ chấm sang chứng minh tự do nhiều trang, phản ánh bước tiến vào vùng “sáng tạo cấu trúc” chứ không chỉ ký ức và suy luận cục bộ. Hai là, đường tiến hóa “chuyên gia hẹp” (geometry engine) đang hội tụ vào “đa năng + compute”, giống việc từ nhiều xưởng thủ công ghép lại thành một nhà máy linh hoạt. Ba là, OpenAI tuyên bố chưa phát hành ngay mức năng lực này, báo hiệu thời kỳ các phòng thí nghiệm thiết lập “cửa kiểm soát năng lực” thay vì tung ra lập tức, một bước trưởng thành về quản trị và an toàn.
Nhưng đây chưa là dấu chấm hết cho vai trò nhà toán học con người: mô hình vẫn chưa giải được bài 6, chưa chứng minh phát hiện khái niệm mới, và cộng đồng vẫn cần minh bạch hơn về quy trình chống rò rỉ đề, số lần thử, chi phí “suy nghĩ” mỗi lời giải, những điều đang được bàn luận sôi nổi.
Kết lại: thành tựu này giống Prometheus trao thêm một ngọn đuốc. Nó không thay thế sự rèn luyện tư duy bền bỉ mà mời gọi chúng ta kết hợp: học sinh có thể dùng AI như bạn đồng hành kiểm tra ý tưởng, giáo viên cập nhật cách dạy kỹ năng chứng minh, phụ huynh khuyến khích con em chuyển từ học mẹo sang hiểu sâu, và xã hội chuẩn bị cho kỷ nguyên nơi “nội lực” người + “tăng cường” máy cùng hợp tấu.
Phần ngoài lề:
OpenAI công bố kết quả trước lễ bế mạc: OpenAI tuyên bố vào ngày 19/7/2025 rằng mô hình AI thử nghiệm của họ đạt hiệu suất "huy chương vàng" tại IMO 2025, giải được 5/6 bài toán và đạt 35/42 điểm. Tuy nhiên, IMO đã yêu cầu các công ty AI không công bố kết quả ngay lập tức (trong vòng một tuần sau lễ bế mạc, tức ngày 19/7/2025) để tránh làm lu mờ thành tích của các thí sinh. OpenAI đã phớt lờ yêu cầu này và công bố sớm, dẫn đến sự chỉ trích từ ban tổ chức IMO.
Phản ứng từ IMO là không hài lòng. Theo một điều phối viên bài toán số 6 (bài mà AI của OpenAI không giải được), hành động của OpenAI bị coi là "thô lỗ và không phù hợp". IMO nhấn mạnh rằng OpenAI không hợp tác với ban tổ chức để xác minh kết quả, khiến tính hợp lệ của tuyên bố huy chương vàng bị nghi ngờ.
Ý kiến từ Google DeepMind: Lương Minh Thắng, trưởng nhóm nghiên cứu lý luận tại Google DeepMind, đã công khai chỉ trích OpenAI trên X. Anh cho rằng IMO có hướng dẫn chấm điểm nội bộ không công khai, và OpenAI không thể tự tuyên bố đạt huy chương mà không được đánh giá theo hướng dẫn này. Thắng còn lưu ý rằng nếu bị trừ điểm ở bài toán số 6, OpenAI chỉ đạt huy chương bạc, không phải vàng. DeepMind, ngược lại, hợp tác trực tiếp với IMO để xác minh kết quả và tuân thủ yêu cầu không công bố trong vòng một tuần sau lễ bế mạc.
Tính minh bạch và hợp lệ: OpenAI đã công bố các lời giải trên GitHub, nhưng một số ý kiến cho rằng việc này thiếu minh bạch vì không cung cấp chi tiết về cách mô hình được đánh giá. Trong khi đó, DeepMind được cho là đã đạt hiệu suất tương tự (huy chương vàng) nhưng chưa công bố chính thức do tôn trọng quy định của IMO.