Ba làn sóng AI: từ LLM, world model tới embodied AI và agent AGI like
Ba làn sóng AI: từ LLM tới embodied AI và agent, qua tranh luận world model và quyết định rời Meta lập startup của Yann LeCun.
Gần đây, hai cái tên có ảnh hưởng lớn trong giới AI, Yann LeCun và Fei-Fei Li, liên tục nhắc lại một luận điểm nghe vừa quen vừa khó chịu: thế hệ AI hiện nay, chủ yếu là các mô hình ngôn ngữ lớn, LLM, đang thiếu một thứ cốt lõi mà con người có, đó là world model, mô hình về thế giới. Không có world model gắn với vật lý, không gian, thời gian và nhân quả, những hệ thống này khó lòng chạm tới trí tuệ ngang tầm con người. (The Wall Street Journal)
Fei-Fei Li, với nền tảng thị giác máy tính, nói rõ hơn: AI muốn “thật” thì không thể chỉ sống trong văn bản, nó phải sở hữu spatial intelligence, trí thông minh không gian, hiểu được thế giới ba chiều, lực, quán tính, chuyển động, tương tác giữa các vật thể. Đó là lý do bà nhấn mạnh embodied AI, những hệ thống có cảm biến, có góc nhìn bản ngã, có khả năng tương tác với môi trường thay vì chỉ ngồi đọc chữ.
Yann LeCun thì đi xa hơn về mặt lý thuyết. Ông cho rằng kiến trúc LLM hiện tại, học bằng cách dự đoán token kế tiếp, là không đủ để xây dựng một world model giàu cấu trúc. Thay vào đó, ông đề xuất hướng world-model-first, với những kiến trúc như JEPA của mình, nơi hệ thống học cách dự đoán trạng thái tương lai của thế giới thông qua perception, prediction và action, chứ không chỉ dự đoán câu chữ.
Trong khi LeCun đang công khai phê phán giới hạn của LLM, thì ở phía Meta, câu chuyện lại đang rẽ sang một hướng rất “Silicon Valley”. Meta đã tái cấu trúc toàn bộ mảng AI, thành lập Meta Superintelligence Labs và mời Alexandr Wang, nhà sáng lập Scale AI, về làm Chief AI Officer, nắm toàn bộ các nhóm AI cấp cao. (Wikipedia)
Đây là một tín hiệu rõ: chiến lược AI của Meta chuyển mạnh sang hướng superintelligence thực dụng, tập trung sản phẩm và hạ tầng, thống nhất nghiên cứu, training, sản phẩm và hạ tầng vào một “bộ chỉ huy” duy nhất. Trong bối cảnh đó, nhiều nguồn tin độc lập cho biết Yann LeCun đang lên kế hoạch rời Meta để lập một startup riêng, tập trung vào hướng world model, như một con đường thay thế cho LLM mà ông đã nói rất nhiều năm qua. (Reuters)
Nói cách khác, tranh luận học thuật về world model vs LLM bây giờ đã bước ra đời thật: nó trở thành tranh luận về chiến lược, về quyền lực, và về hai cách nhìn khác nhau cho tương lai của trí tuệ nhân tạo.
LLM không chỉ là “vẹt thống kê”, nhưng cũng chưa phải trí tuệ có thân xác
Từ góc nhìn của tôi, sẽ hơi cực đoan nếu nói rằng LLM chỉ là “vẹt thống kê”. Thực tế, chúng đã chứng minh khả năng:
Lập luận trên nhiều bước,
Viết và hiểu mã,
Phân tích và tổng hợp tài liệu phức tạp,
Điều phối công cụ bên ngoài, build cả workflow tương đối phức tạp,
Học được những cấu trúc trừu tượng về thế giới xã hội, luật pháp, kinh tế.
Ở mức trừu tượng, đó là một dạng world model trong không gian ký hiệu: thế giới như được kể lại bằng chữ, dữ liệu, code. Không có trọng lượng, ma sát, mô men xoắn, nhưng có hợp đồng, thể chế, đạo đức, chuẩn mực xã hội.
Tuy nhiên, LeCun và Fei-Fei Li đúng ở điểm sau: một world model chỉ sống trong văn bản thì không thể thay thế hoàn toàn cho world model gắn với thân xác và vật lý. Embodied AI và spatial intelligence chạm vào vùng mà LLM thuần túy khó với:
Làm việc với robot,
Vận hành nhà máy và hạ tầng,
Xử lý dữ liệu từ sensor thời gian thực,
Học hành vi thông qua tương tác và hậu quả.
Nhìn như vậy, LLM không phải “vô dụng”, mà là chưa đủ. Nó giống như một nhà hiền triết có trong tay thư viện Alexandria, nhưng vẫn cần đôi mắt, đôi tay và một cuộc đời thực để trở thành người “thông tuệ sống”, chứ không chỉ “thông minh trên giấy”.
Khi tranh luận học thuật gặp trò chơi quyền lực
Sự xuất hiện của Alexandr Wang tại Meta tạo thêm một lớp nghĩa nữa cho câu chuyện này. Wang là biểu tượng cho thế hệ “AI doanh nhân” mới, nơi ranh giới giữa nghiên cứu và sản phẩm bị xóa nhòa. Từ Scale AI, chuyên về dữ liệu và hạ tầng cho mô hình, anh bước sang Meta để chỉ huy một dự án tham vọng mang tên “Superintelligence Labs”, với mục tiêu rất thẳng: xây dựng những hệ thống AI tổng quát, phục vụ hàng tỉ người dùng. (Wikipedia)
Trong quá trình đó, vai trò của LeCun bị thu hẹp dần, khi Meta gom các nhóm nghiên cứu vào dưới một mái nhà do Wang cầm cờ. Các báo cáo cho thấy LeCun đã cân nhắc rời Meta để lập startup riêng, tập trung vào tầm nhìn world-model-first của mình, thay vì tiếp tục ở trong một cấu trúc đang ưu tiên tốc độ sản phẩm và “superintelligence” kiểu công nghiệp. (Reuters)

Câu chuyện này nói với chúng ta một điều giản dị mà gai góc rằng trong kỷ nguyên AI, ý tưởng khoa học, kiến trúc kỹ thuật và quyền lực kinh tế không tách rời nhau. Đường đi của LLM, world model, embodied AI hay agent AGI like không chỉ được quyết định trong các bài báo và hội thảo, mà còn ở các deal hàng chục tỉ đô, các cuộc tái cấu trúc công ty, và những lần “chuyển ghế” giữa các thế hệ lãnh đạo AI.
Ba làn sóng AI: một khung đơn giản để không bị lạc trôi
Để không bị cuốn trôi trong vô số buzzword, tôi thích nhìn toàn cảnh AI hiện nay bằng một khung ba làn sóng, đủ đơn giản để giải thích cho sinh viên và lãnh đạo, nhưng cũng đủ sâu để không đánh mất bản chất.
Làn sóng 1: AI dựa trên ngôn ngữ, LLM first
Đây là làn sóng chúng ta đang sống trong đó: GenAI, ChatGPT, Claude, Llama, Qwen… AI chủ yếu hoạt động trên văn bản, hình ảnh, video, code, nói chung là trên dữ liệu đã số hóa và được ký hiệu hóa.
Giá trị chính:
tăng năng suất trí tuệ,
hỗ trợ sáng tạo nội dung,
tăng tốc phân tích tri thức,
cho phép “đóng gói” chuyên môn vào các chatbot và assistant.
Làn sóng 2: Embodied AI, spatial intelligence, world-model-first
Đây là nơi những ý tưởng của Fei-Fei Li và LeCun trở nên quan trọng. AI bây giờ không chỉ đọc tài liệu, mà cảm nhận, dự đoán và tương tác với thế giới vật lý:
Robot trong nhà máy, kho vận, logistics
Digital twin của lưới điện, nhà máy điện, hệ thống giao thông
Vehicle tự hành và robot công nghiệp
Agent học trong môi trường ảo có mô phỏng vật lý
Ở làn sóng này, world model không chỉ là cấu trúc khái niệm trên text, mà là mô hình trạng thái của một thế giới có trọng lượng, ma sát, lực, giới hạn an toàn, chi phí và rủi ro. Đây là nơi AI phải “sai biết đau”, nghĩa là sai thì trả giá bằng chi phí và hậu quả thật, chứ không chỉ là một câu trả lời tệ trên màn hình.
Làn sóng 3: Agentic AI, hệ AGI like
Nếu làn sóng 1 là LLM và làn sóng 2 là embodied AI, thì làn sóng 3 là nơi hai dòng này gặp nhau. Một hệ AGI like trong thực tế rất có thể sẽ:
Dùng LLM mạnh làm lõi ngôn ngữ và lý luận
Dùng world model để hiểu và dự đoán thế giới
Dùng perception để thu nhận tín hiệu đa giác quan
Có memory dài hạn để tích lũy kinh nghiệm
Có khả năng hành động thông qua công cụ, API, robot, hệ thống sản xuất
Đây là nơi ta sẽ thấy những AI agent thực sự: không chỉ trả lời, mà tự đặt mục tiêu nhỏ, lập kế hoạch, thực thi và tự đánh giá lại. Nơi các tranh luận về AGI bớt mang màu sắc tôn giáo, và nhiều hơn là câu hỏi rất đời thường:
“Hệ thống này làm được bao nhiêu loại việc mà trước đây chỉ con người làm được?”
Việt Nam và lựa chọn giữa ba làn sóng
Từ góc nhìn một người làm tư vấn và giáo dục về AI, điều khiến tôi băn khoăn không phải là “LLM có trở thành AGI không”, mà là: Việt Nam sẽ đứng ở đâu trong ba làn sóng đó?
Hiện nay, đa số tổ chức mới chỉ chạm tới làn sóng 1, dùng AI để:
Viết báo cáo,
Hỗ trợ marketing,
Tóm tắt tài liệu,
Dịch thuật,
Trợ lý văn phòng cơ bản.
Đó là bước khởi đầu tốt, nhưng nếu chỉ dừng ở đó, chúng ta sẽ bỏ lỡ làn sóng 2 nơi giá trị kinh tế thực sự bùng nổ:
AI giám sát và tối ưu nhà máy
AI dự đoán bảo trì thiết bị
AI theo dõi chất lượng điện, nước, giao thông, y tế
AI vận hành trong digital twin của các hạ tầng trọng yếu
Và nếu đứng ngoài làn sóng 2, thì gần như chắc chắn chúng ta sẽ đứng ngoài luôn làn sóng 3, khi agentic AI không chỉ viết văn mà vận hành một phần nền kinh tế.
Đó là lý do tôi quan tâm đến các tranh luận như của LeCun hay Fei-Fei Li: không phải để chọn phe “LLM” hay “world model”, mà để nhắc chính mình và cộng đồng rằng AI đang chuẩn bị bước ra khỏi màn hình, đi vào nhà máy, bệnh viện, lưới điện, thành phố.
Làn sóng thứ nhất giúp chúng ta viết tốt hơn, nghĩ nhanh hơn.
Làn sóng thứ hai và thứ ba sẽ quyết định ai vận hành được thế giới mới.
Và câu hỏi tôi luôn muốn để mở cho người đọc bài này là:
Khi Yann LeCun rời Meta để theo đuổi tầm nhìn world-model-first của riêng mình, chúng ta ở Việt Nam sẽ chỉ đứng ngoài quan sát, hay sẽ chọn một vị trí chủ động trong ba làn sóng đó?


