Uncle Dao’s Blog
Uncle Dao’s Blog Podcast
Podcast-OpenAI tuyên bố giành huy chương vàng IMO – Sự thật là gì?
0:00
-5:36

Podcast-OpenAI tuyên bố giành huy chương vàng IMO – Sự thật là gì?

Ngay sau kỳ thi IMO 2025, OpenAI tuyên bố mô hình AI của họ đạt 35/42 điểm, đủ chuẩn huy chương vàng. Nhưng cộng đồng toán học phản ứng gay gắt, đặt nghi vấn về tính hợp lệ và minh bạch.

Chào mừng quý vị và các bạn đã quay trở lại với podcast "Góc Nhìn Tương Lai". Tôi là An.

Và tôi là Minh. Các bạn thân mến, hôm nay chúng ta sẽ cùng mổ xẻ một sự kiện, ờm, khá là gây chấn động: OpenAI tuyên bố AI của họ đã đạt hiệu suất... tương đương huy chương vàng tại Olympic Toán học Quốc tế IMO 2025.

Ảnh từ Alexander Wei trên X.com
Ảnh từ Alexander Wei trên X.com

Wow.

Nhưng câu chuyện không chỉ có màu hồng của chiến thắng, mà nó còn có cả những góc khuất, phải nói là, rất gây tranh cãi.

Vâng, đây là một câu chuyện hai mặt. Một mặt là kỳ tích công nghệ...

Ừm.

...mặt khác lại là một vụ lùm xùm về đạo đức. Để mọi người hiểu rõ hơn, Minh có thể giải thích tại sao... tại sao việc giải được bài toán IMO lại là một thử thách lớn như vậy cho AI không?

Chắc chắn rồi, An. Hãy quên đi những bài toán chỉ cần điền đáp số đi. IMO là một cuộc thi... hoàn toàn khác.

Khác như thế nào ạ?

Mỗi thí sinh phải đối mặt với những bài toán cực kỳ khó, và điều quan trọng là... họ phải viết ra một bài chứng minh hoàn chỉnh, logic, chặt chẽ, đôi khi dài đến vài trang giấy lận.

À.

Đây là bài kiểm tra về khả năng tư duy cấu trúc và sáng tạo, chứ không phải là tính toán đơn thuần.

Nói cách khác, AI không chỉ cần 'biết' đáp án, mà phải... phải 'giải thích' được tại sao đáp án đó đúng, một cách thuyết phục như một nhà toán học thực thụ.

Đúng vậy.

Và OpenAI tuyên bố mô hình của họ đã làm được điều đó với 5 trên 6 bài, đạt 35/42 điểm – một ngưỡng huy chương vàng rất điển hình.

Chính xác. Đây là một bước nhảy vọt so với quá khứ. Các AI trước đây, kể cả AlphaGeometry của DeepMind, vốn rất mạnh về hình học...

Vâng.

...cũng chỉ dừng ở mức huy chương bạc thôi và còn phải dựa vào các module chuyên biệt. Còn mô hình mới này của OpenAI được mô tả như một... 'vận động viên toàn năng', có thể xử lý mọi dạng toán của IMO.

Vậy đâu là phép màu đằng sau sự 'toàn năng' đó?

Có một khái niệm rất hay được nhắc đến, đó là **'mở rộng tính toán tại thời điểm thử nghiệm'**.

Nghe... nghe hơi kỹ thuật một chút. Minh có thể 'dịch' nó ra ngôn ngữ đời thường được không?

Rất đơn giản. Hãy tưởng tượng nó không phải là một cỗ máy trả lời ngay lập tức.

Okay.

Thay vào đó, nó giống như một học sinh giỏi. Nó viết ra nhiều bản nháp, tự đọc lại, phát hiện lỗi sai trong lập luận, gạch đi viết lại...

Wow.

...và cuối cùng chọn ra con đường chứng minh hoàn hảo nhất để chép vào bài làm. Nó có thời gian để 'suy ngẫm' và tự hoàn thiện.

À, một sự thay đổi từ việc 'bắn' ra câu trả lời sang quá trình 'dệt' nên một lời giải. Thật đáng kinh ngạc.

Đúng thế.

Đây rõ ràng là một cột mốc lịch sử. Nhưng... chính cái cách OpenAI công bố cột mốc này lại biến nó thành một cuộc khủng hoảng truyền thông.

Đúng vậy. Đây là lúc câu chuyện chuyển hướng 180 độ.

Hmm.

OpenAI đã công bố kết quả ngay trong ngày kỳ thi kết thúc, phá vỡ một quy tắc bất thành văn và cả yêu cầu trực tiếp từ ban tổ chức IMO là phải giữ im lặng trong một tuần.

Ôi.

Mục đích của quy tắc này là để tôn vinh các thí sinh con người, những người đã đổ mồ hôi, công sức cho cuộc thi.

Hành động này ngay lập tức vấp phải sự chỉ trích. Một điều phối viên của IMO gọi đó là 'thô lỗ và không phù hợp'.

Vâng.

Nhưng vấn đề còn sâu hơn thế. Cái mác 'huy chương vàng' đó... hoàn toàn là do OpenAI tự tuyên bố, chứ chưa hề được IMO xác nhận.

Lương Minh Thắng, một nhà nghiên cứu hàng đầu tại Google DeepMind, đã phân tích rất rõ trên mạng xã hội X. Anh ấy chỉ ra rằng, việc chấm điểm ở IMO vô cùng phức tạp và dựa trên các barem điểm nội bộ, không công khai.

Ra là vậy.

Không thể chỉ nhìn vào lời giải rồi tự chấm điểm được. Thậm chí anh còn nói, DeepMind cũng đạt được hiệu suất tương tự, nhưng họ đã chọn cách tôn trọng quy định và hợp tác với ban tổ chức để xác minh.

Vậy là chúng ta có một cuộc đối đầu ngầm giữa hai gã khổng lồ. OpenAI thì chọn cách 'đánh úp' truyền thông.

Chính xác.

Còn DeepMind thì đi theo con đường hợp tác khoa học truyền thống hơn. Nó cho thấy một sự... va chạm văn hóa. OpenAI tung lời giải lên GitHub và nói rằng đó là minh bạch...

Ừm.

...nhưng các nhà khoa học lại hỏi: 'Quá trình đánh giá ở đâu? Chi phí tính toán là bao nhiêu? Tại sao không làm việc với ban tổ chức?'

Chính xác. Rốt cuộc, câu chuyện này để lại cho chúng ta hai di sản. Về mặt công nghệ, đây là một thành tựu không thể phủ nhận.

Vâng.

Nó giống như ngọn lửa Prometheus, một công cụ tư duy mới, mạnh mẽ cho loài người. Nó sẽ thay đổi cách chúng ta dạy và học toán.

Nhưng về mặt xã hội, nó là một lời cảnh tỉnh. Nó cho thấy cuộc đua AI đang nóng đến mức một số công ty sẵn sàng bỏ qua các quy tắc ứng xử của cộng đồng khoa học để giành lấy vị thế dẫn đầu.

Đúng.

OpenAI có thể đã có một bước tiến công nghệ, nhưng họ lại lùi một bước về văn hóa và sự tin tưởng.

Một chiến thắng kỹ thuật... nhưng lại là một thất bại về mặt quan hệ công chúng và đạo đức khoa học.

Chắc chắn rồi.

Nó đặt ra một câu hỏi lớn về trách nhiệm đi kèm với sức mạnh.

Đây là một câu chuyện phức tạp và chắc chắn sẽ còn được bàn luận nhiều. Nó không chỉ là về AI giải toán...

Đúng vậy.

...mà còn là về cách chúng ta định hình tương lai của sự hợp tác giữa con người và máy móc.

Và để kết lại, chúng tôi muốn để lại cho các bạn một câu hỏi để cùng suy ngẫm: Khi một cỗ máy có thể lập luận ở đỉnh cao trí tuệ của con người, chúng ta nên thay đổi định nghĩa về sự 'thông minh' như thế nào?

Ừm hửm.

Và quan trọng hơn, xã hội cần đặt ra những quy tắc ứng xử nào cho cuộc đua AI để đảm bảo sự tiến bộ đi đôi với trách nhiệm?

Cảm ơn quý vị đã lắng nghe. Hẹn gặp lại trong số tiếp theo của "Góc Nhìn Tương Lai".

Discussion about this episode

User's avatar