Bài học đắng trong AI

Community Article Published September 29, 2024

Bài học lớn nhất rút ra từ 70 năm trong AI là, những phương pháp tổng quát tận dụng sức mạnh tính toán cuối cùng lại là những phương pháp hiệu quả nhất và vượt xa các phương pháp khác.

Dịch từ http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Hầu hết các nghiên cứu về AI đều cho rằng lượng tính toán là không đổi và cách duy nhất để cải tiến hiệu năng là sử dụng kiến thức của con người. Thời gian trôi qua số lượng tính toán ngày càng nhiều hơn với giá thành rẻ đi. Để tìm kiếm những cải tiến ngắn hạn, các nhà nghiên cứu thường tận dụng hiểu biết của con người của một lĩnh vực, nhưng cuối cùng chỉ có một thứ thực sự quan trọng trong dài hạn đó là tận dụng sức mạnh tính toán.

Cả hai cách, tận dụng hiểu biết của con người và tận dụng sức mạnh tính toán không cần thiết phải xung đột với nhau, nhưng trong thực tế chúng có xu hướng xung đột. Ưu tiên một hướng này có nghĩa là bỏ bê hướng còn lại. Đó là những cam kết về tâm lý, nếu bạn đầu tư vào hướng này hoặc hướng kia thì sẽ không đầu tư vào hướng còn lại. Và hướng tận dụng kiến thức của con người thường làm cho phương pháp trở nên phức tạp và không tận dụng được sức mạnh tính toán.

Trong cờ vua, phương pháp đánh bại nhà vô địch thế giới Kasparov vào năm 1997 dựa trên tìm kiếm sâu đồng thời số lượng lớn. Vào thời điểm đó phần lớn các nhà nghiên cứu về chơi cờ bằng máy tính theo đuổi các phương pháp tận dụng hiểu biết của con người về những cấu trúc cờ vua nhất định. Trong khi đó một cách tiếp cận đơn giản dựa trên tìm kiếm với phần cứng và phần mềm chuyên dụng đã chứng minh tính hiệu quả to lớn. Lúc đó, những nhà nghiên cứu chơi cờ theo cách tận dụng hiểu biết của con người chưa chịu thua. Họ nói rằng, cách tìm kiếm thuần cơ bắp đã chiến thắng lần này, nhưng nó không phải là một chiến thuật tổng quát, và nó không phải cái cách mà con người chơi cờ. Các nhà nghiên cứu mong chờ các phương pháp mô phỏng con người hay dựa trên dữ liệu của con người sẽ chiến thắng và bị thất vọng khi sự thật không phải như vậy.

Điều tương tự đã lặp lại ở trò chơi cờ Go 20 năm sau (2017). Đã có rất nhiều những nỗ lực ban đầu để tránh sử dụng phải pháp tìm kiếm bằng cách tận dụng hiểu biết của con người trong trò chơi này, nhưng tất cả những nỗ lực này đều không phù hợp, hay thậm chí tệ hơn khi mà giải pháp tìm kiếm được áp dụng hiệu quả trên diện rộng. Một điều quan trọng nữa là việc sử dụng tự chơi để học (learning by self-play), mặc dù phương pháp này chưa được áp dụng vào năm 1997. Học bằng cách tự chơi và học nói chung cũng giống như tìm kiếm ở chỗ nó cho phép tận dụng lượng tính toán lớn. Tìm kiếm và máy học là hai nhánh quan trọng nhất của các kỹ thuật tận dụng sức mạnh tính toán khổng lồ trong nghiên cứu AI. Điều muốn nhấn mạnh ở đây là, tương tự như cờ vua, nghiên cứu về việc dùng máy tính để chơi cờ Go cũng bắt đầu bằng việc tận dụng hiểu biết của con người và rất lâu mới đạt được những thành tựu vượt trội bằng cách sử dụng tìm kiếm (1) và máy học (2).

Trong nhận dạng tiếng nói cũng vậy. Được tài trợ bởi DARPA (Cơ quan Chỉ đạo các Dự án Nghiên cứu Quốc phòng Tiên tiến Mỹ) vào những năm 1970, họ cũng bắt đầu bằng những phương pháp tận dụng sử hiểu biết của con người về ngôn ngữ, ngữ âm, về cấu trúc thanh quản ... và một mặt khác là các phương pháp mới hơn dựa trên thống kê và cần nhiều tính toán hơn như mô hình Markov ẩn. Một lần nữa, các phương pháp dựa trên thống kê chiến thắng các phương pháp dựa trên hiểu biết của con người. Điều này dẫn tới những thay đổi to lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), chuyển biến dần qua từng thập kỷ, cho tới khi thống kê và tính toán trở nên thống trị. Việc áp dụng học sâu (deep learning) trong nhận dạng tiến nói là bước tiến tiếp theo của định hướng đó. Học sâu càng ngày càng ít dựa vào những hiểu biết của con người, và càng sử dụng nhiều tính toán hơn và học tập trên một tập dữ liệu ngày càng lớn hơn và cho kết quả ngày càng tốt hơn. Điều muốn nhấn mạnh ở đây là: cũng như lĩnh vực trò chơi, các nhà nghiên cứu luôn có gắng tạo ra các hệ thống vận hành theo cách trí óc con người vận hành (bắt chước, mô phỏng), họ cố gắng cho các tri thức của con người vào hệ thống, nhưng hóa ra điều đó lại phản tác dụng, tốn quá nhiều thời gian nghiên cứu, trong khi đó nhờ Moore law, một lượng tính toán lớn (với giá rẻ hơn) đã trở nên sẵn sàng và một phương thức tốt hơn đã được tìm thấy để sử dụng sức mạnh tính toán đó.

Trong thị giác máy tính điều tương tự cũng lặp lại ...

ĐÂY LÀ MỘT BÀI HỌC LỚN! Vậy mà chúng ta vẫn chưa học được nó một cách triệt để và vẫn tiếp tục lặp lại cùng một kiểu sai lầm. Chúng ta phải chấp nhận bài học đắng là: xây dựng (hệ thống) theo cách chúng ta suy nghĩ sẽ không có tác dụng lâu dài. Bài học đắng này dựa trên các dữ kiện lịch sử như sau:

  • các nhà nghiên cứu AI thường bắt đầu với những hiểu biết của con người
  • cách này mang lại những lợi thế ngắn hạn
  • nhưng về lâu dài nó nhanh chóng bị hạn chế và thậm chí ức chế tiến bộ
  • một cách tiếp cận ngược lại, tận dụng sức mạnh tính toán, là tìm kiếm và máy học đã mang lại những đột phá

Thành công cuối cùng thường có vị đắng, không được chấp nhận bởi giới nghiên cứu vì nó không phải là cái họ yêu thích (cách tiếp cận lấy con người làm trung tâm).

Bài học quan trọng nhất là sức mạnh to lớn của các phương pháp tổng quan, các phương pháp tiếp tục mở rộng với sức mạnh tính toán tăng dần thậm chí cả khi một lượng tính toán vượt trội được cung cấp. Hai phương pháp dường như luôn có được khả năng mở rộng đó là tìm kiếmmáy học.

Bài học thứ hai là nội dung cụ thể của trí óc (con người) là vô cùng vô cùng phức tạp, chúng ta nên dừng việc cố gắng tìm ra những cách đơn giản để nghĩ về trí óc. Các cách tiếp cận đó cuối cùng đều có độ phức tạp vô tận, thay vào đó chúng ta chỉ nên xây dựng những siêu phương pháp có khả năng nắm giữ độ phức tạp tùy ý. Cốt lõi là các phương pháp đó có khả năng tìm các xấp xỉ tốt, nhưng việc tìm kiếm những xấp xỉ đó không phải là chúng ta làm! Chúng ta muốn những AI agents tìm kiếm như cách chúng ta tìm kiếm giải pháp, chứ không phải những gì ta đã khám phá ra. Xây dựng dựa trên những gì ta đã phám khá ra chỉ khiến nó trở nên khó khăn hơn để nhìn thấy quá trình tìm kiếm giải pháp nên được hoàn thành như thế nào (3).

(1) Tìm kiếm ở đây là nói về việc tìm kiếm một giải pháp tốt nhất trong một không gian giải pháp, ví dụ tìm kiếm đường đi ngắn nhất từ A đến B trong rất nhiều các cách đi từ A đến B.

(2) Tác giả dùng từ learning không phải machine learning. Tạm dịch là máy học để chỉ rõ đối tượng học ở đây là máy tính.

(3) Đoạn này ý nói để máy tính tự học, tự khám phá lấy từ dữ liệu.