Cuối năm 2022, khi ChatGPT được ra mắt chính thức, ai trong ngành nghiên cứu phát triển AI cũng nói về một thế hệ mới của trợ lý ảo, kết hợp khả năng hiện có với những tính năng tạo sinh ngôn ngữ tự nhiên. Nhưng trong khoảng 1 năm trở lại đây, sự háo hức của công nghệ mới đã chuyển sang tập trung vào một sản phẩm và mục tiêu mới: Nhân sự AI, hay AI agent.
Tại sự kiện Google I/O, AI agent đã được đề cập rất nhiều, trở thành trung tâm của sự kiện tổ chức hồi tháng 5. Khi ấy, Google hé lộ một AI agent mang tên Astra, cho phép người dùng tương tác với ứng dụng này thông qua âm thanh giọng nói và hình ảnh đầu vào quay chụp từ thiết bị công nghệ. Và giống như vậy, GPT-4o cũng đã được coi là một AI agent khác.
Vấn đề là khái niệm AI agent không đơn thuần chỉ là một khái niệm thuần túy mang giá trị marketing để các tập đoàn công nghệ thu hút sự chú ý của mọi người. Các tập đoàn công nghệ thực sự đang đổ hàng tỷ USD để phát triển những AI agent. Và tiềm năng của những công cụ AI này cũng rất lớn, có thể trở nên hữu ích, thứ mà con người và cả ngành công nghệ đã mơ ước từ hàng thập kỷ qua.
Nhưng mà “nhân sự AI” khác gì “trợ lý AI”? Và chúng ta dùng những công cụ này như thế nào?
Tại sự kiện Google I/O, AI agent đã được đề cập rất nhiều, trở thành trung tâm của sự kiện tổ chức hồi tháng 5. Khi ấy, Google hé lộ một AI agent mang tên Astra, cho phép người dùng tương tác với ứng dụng này thông qua âm thanh giọng nói và hình ảnh đầu vào quay chụp từ thiết bị công nghệ. Và giống như vậy, GPT-4o cũng đã được coi là một AI agent khác.
Vấn đề là khái niệm AI agent không đơn thuần chỉ là một khái niệm thuần túy mang giá trị marketing để các tập đoàn công nghệ thu hút sự chú ý của mọi người. Các tập đoàn công nghệ thực sự đang đổ hàng tỷ USD để phát triển những AI agent. Và tiềm năng của những công cụ AI này cũng rất lớn, có thể trở nên hữu ích, thứ mà con người và cả ngành công nghệ đã mơ ước từ hàng thập kỷ qua.
Nhưng mà “nhân sự AI” khác gì “trợ lý AI”? Và chúng ta dùng những công cụ này như thế nào?
AI Agent là gì?
Hiện giờ tình hình nghiên cứu phát triển AI agent vẫn còn khá mới, và ngành công nghệ vẫn chưa có một khái niệm đồng nhất để mô tả những công cụ AI hỗ trợ con người này. Nhưng hiểu theo cách đơn giản, AI agent là những mô hình và thuật toán AI có thể tự động tạo ra những quyết định trong thế giới thực. Đó là quan điểm của tiến sĩ, nhà nghiên cứu cấp cao Jim Fan, người đang dẫn đầu những nỗ lực phát triển AI agent của Nvidia.
Tầm nhìn đối với ngành phát triển AI agent là những thuật toán và ứng dụng có thể thực hiện rất nhiều công việc và tác vụ, giống hệt như một trợ lý là con người. Trong tương lai, AI agent có thể giúp đặt vé máy bay hay đặt phòng khách sạn, rồi còn có thể nhớ sở thích của người dùng trước đó, để tự động đặt phòng khách sạn ở tầm giá và chất lượng phù hợp.

Rồi kế đến, AI agent còn biết lựa chọn ngày giờ bay phù hợp nhất với lịch trình của người dùng, và lên kế hoạch ăn ở trong chuyến đi ấy dựa trên sở thích của người dùng. Nó còn có thể lên kế hoạch những món đồ người dùng nên đưa vào hành lý, và cả dự báo thời tiết để chuyến đi được lên kế hoạch tốt nhất. Và thậm chí nếu người dùng có bạn bè người thân ở khu vực sắp đến thăm hoặc công tác, AI agent sẽ tự động gửi lịch trình cho họ, rồi mời họ tham gia cùng những bữa tối hay những buổi đi chơi.
Còn ở nơi làm việc, AI agent có thể phân tích danh sách những việc cần làm, rồi thực hiện những công việc trong danh sách ấy, chẳng hạn như tự động gửi thông tin cuộc họp, tin nhắn hay email dựa trên yêu cầu trước đó của người dùng.
Một tầm nhìn phát triển AI agent là định hướng đa chế độ, tức là công cụ AI có thể xử lý ngôn ngữ, hình ảnh và video. Lấy ví dụ trong demo Google Astra, người dùng có thể trỏ camera trên smartphone về những món đồ và hỏi Astra những câu hỏi có liên quan. Công cụ AI này sau đó có thể trả lời những yêu cầu với dữ liệu đầu vào là văn bản, âm thanh và video.

Những “nhân sự AI” này có thể giúp việc kinh doanh và vận hành các doanh nghiệp, tổ chức dễ dàng hơn. Đó là tuyên bố của David Barber, giám đốc trung tâm AI của đại học London. Lấy ví dụ, AI agent có thể vận hành như một con bot hỗ trợ khách hàng, nhưng thay vì chỉ trả lời những câu hỏi của khách hàng dựa trên dữ liệu có sẵn và mô hình tạo sinh, khả năng của nó sẽ phức tạp và sâu hơn rất nhiều.
QUẢNG CÁO
Theo ông Barber, thế hệ trợ lý ảo AI hiện tại dựa trên mô hình ngôn ngữ chỉ có thể tạo ra những chuỗi văn bản dựa trên xác suất, đoán cụm từ hợp lý nhất để tạo thành một câu. Còn AI agent thì sẽ phải có khả năng xử lý tự động những câu lệnh ngôn ngữ tự nhiên, xử lý những tác vụ hỗ trợ khách hàng mà không cần tới sự quản lý của con người.
Lấy ví dụ, AI agent sẽ phải thực hiện được việc phân tích những lời phàn nàn trong thư điện tử của khách hàng, rồi biết rằng nó sẽ phải kiểm tra chéo với mã số phản hồi của khách hàng, truy xuất thông tin từ cơ sở dữ liệu quản lý quan hệ khách hàng và hệ thống phân phối hàng hóa, để kiểm tra xem lời phàn nàn có đúng hay không, và xử lý nó dựa trên quy chế của doanh nghiệp.

Tiến sĩ Fan của Nvidia thì cho rằng, nói chung, sẽ có hai dạng AI agent: “Nhân sự phần mềm và nhân sự AI có hình thù.”
Những nhân sự phần mềm chạy trên máy tính, máy chủ hay chính bản thân chiếc điện thoại của mọi người, thông qua những ứng dụng, giống hệt như ví dụ trợ lý ảo hỗ trợ lên lịch trình một chuyến đi được đề cập ở trên: “Những trợ lý AI này sẽ vô cùng hữu ích cho công việc văn phòng hay gửi thư điện tử, và xử lý những chuỗi công việc có thứ tự.”
Còn trong khi đó, AI có hình thù sẽ hiện diện dưới hình thái những mô hình đồ họa trong thế giới ảo 3D, hoặc có cơ thể robot đàng hoàng, không hiện diện theo cách có phần trừu tượng bên trong những ứng dụng máy tính và smartphone.
Những dạng AI agent có hình thù cụ thể, con người có thể nhìn thấy này có thể giúp những trò chơi điện tử cuốn hút hơn, khi mọi người có thể tương tác với những nhân vật máy được mô hình AI điều khiển. Còn trong đời thật, AI agent ứng dụng cho tự động hóa sẽ giúp tạo ra những chú robot hữu ích hơn, có thể giúp ích cho con người trong cuộc sống hàng ngày, đặc biệt là những robot quản gia giúp đỡ người tàn tật và người cao tuổi, chẳng hạn như biết gấp quần áo hay nấu ăn.

Tiến sĩ Fan là một trong những nhà nghiên cứu đã phát triển ra MineDojo, một AI agent vận hành bên trong trò chơi nổi tiếng Minecraft. Sử dụng lượng dữ liệu khổng lồ thu thập được trên mạng internet, AI agent của tiến sĩ Fan cùng các đồng sự tạo ra có thể học những kỹ năng mới để thực hiện những nhiệm vụ khám phá thế giới ảo, rồi biết làm những nhiệm vụ phức tạp như quây hàng rào vây những con lạc đà trong game, hoặc xúc dung nham trong game bỏ vào xô. Sở dĩ AI agent được phát triển thông qua game, là vì trò chơi điện tử đã có sẵn bộ mã nguồn mô phỏng vật lý để AI học và hiểu những quy luật vật lý của thế giới thật, rồi cả kỹ năng phân tích và logic thông thường nữa.
Trong báo cáo nghiên cứu khoa học mới, các nhà nghiên cứu tại đại học Princeton nói rằng AI agent thường có ba đặc điểm khác nhau.
Thứ nhất, một công cụ AI sẽ được coi là “agent” thay vì “assistant” nếu như chúng có thể thực hiện những nhiệm vụ và mục tiêu khác nhau mà không cần phải được hướng dẫn trong những môi trường công việc hay cuộc sống phức tạp. Thứ hai, công cụ AI có thể được coi là “agent” nếu con người có thể đưa ra lệnh bằng ngôn ngữ tự nhiên, và vận hành hoàn toàn tự động mà không cần con người kiểm soát. Cuối cùng, khái niệm “agent” cũng có thể áp dụng cho những hệ thống machine learning có khả năng sử dụng những công cụ như tìm kiếm trực tuyến hay lập trình, và có khả năng lên kế hoạch một chuỗi những công việc tuần tự.
AI agent có phải thứ hoàn toàn mới?
Theo giáo sư ngành khoa học máy tính Chirag Shah tại đại học Washington, khái niệm AI agent đã tồn tại được nhiều năm, nhưng cứ mỗi thời kỳ nó lại có một ý nghĩa khác nhau.
Còn theo tiến sĩ Fan, đã từng có hai xu hướng phát triển “nhân sự AI”. Xu hướng hiện tại được tăng tốc phát triển nhờ vào giai đoạn bùng nổ phát triển và ứng dụng những mô hình ngôn ngữ lớn, và sự phổ biến của những hệ thống chatbot AI như ChatGPT hay Claude.

Còn xu hướng trước đó thì được thiết lập vào năm 2016, khi DeepMind khi ấy giới thiệu AI chơi cờ vây AlphaGo, một hệ thống AI có khả năng chiến thắng cả kỳ thủ số 1 thế giới khi ấy là Lee Sedol. Dựa trên khái niệm mà các nhà khoa học đại học Princeton đưa ra, AlphaGo là một AI agent vì nó có thể đưa ra quyết định những nước đi và tính toán cả chiến lược để chơi cờ. Khả năng này có được dựa vào cơ chế học tăng cường, kích thích những thuật toán AI đạt được những phản hồi và hành động con người mong muốn.
Oriol Vinyals, phó chủ tịch phụ trách nghiên cứu tại Google DeepMind cho biết: “Nhưng những công cụ AI ấy không phải phổ quát.” Những AI như AlphaGo được tạo ra với mục đích rất rõ ràng và cụ thể, chỉ phục vụ một mảng duy nhất, trong trường hợp này là chơi cờ vây. Tua nhanh 8 năm sau, thế hệ AI dựa trên mô hình ngôn ngữ có thể giúp AI agent trở nên phổ quát hơn, vì chúng có thể học từ chính thế giới thật, nơi con người tương tác với máy móc và tương tác với nhau.
Những giới hạn của công nghệ là gì?
Hiện giờ vẫn còn rất nhiều câu hỏi cần phải được giải quyết và trả lời. CEO kiêm nhà sáng lập startup nghiên cứu AI Imbue, Kanjun Qiu so sánh tình hình phát triển AI agent của thời điểm hiện tại rất giống thời điểm chục năm trước khi ngành công nghệ chạy đua phát triển thuật toán xe hơi tự hành. Hiện tại Imbue đang phát triển những mô hình AI có thể tư duy logic và lập trình.
Theo Qiu, AI agent giờ đúng là có thể làm được nhiều việc, nhưng không thực sự đáng tin cậy, mà cũng không thực sự tự động hoàn toàn. Lấy ví dụ, công cụ lập trình có thể tạo ra những dòng code, nhưng đôi khi viết sai, và sau đó lại không biết làm cách nào để chạy thử những dòng code chính nó đã viết ra. Con người vẫn phải liên tục can thiệp vào quá trình vận hành của công cụ AI. Và quan trọng hơn, những hệ thống AI giờ vẫn chưa có khả năng tư duy logic hoàn thiện. Đây là bước cực kỳ quan trọng để những hệ thống machine learning có thể vận hành ngoài thế giới thực phục vụ con người.

Tiến sĩ Fan thì cho rằng: “Chúng ta chưa hề đạt được mục tiêu phát triển được một AI agent có thể tự động hóa mọi công việc lặp đi lặp lại hàng ngày.” Những hệ thống hiện tại “luôn có khả năng bị loạn ngôn và không phải lúc nào chúng cũng tuân theo chính xác yêu cầu của người dùng.”
Một giới hạn khác là, sau một khoảng thời gian, AI sẽ không còn theo sát được danh sách những gì chúng đã và cần phải làm. Khái niệm này gọi là “không gian ngữ cảnh”, context window, lượng dữ liệu mà một mô hình ngôn ngữ có thể đọc, hiểu, phân tích và xử lý cùng một lúc.
Tiến sĩ Fan nói: “ChatGPT có thể lập trình, nhưng không làm được nội dung code lập trình dài một cách hiệu quả. Nhưng với những lập trình viên, chúng ta có thể nhìn vào cả một gói dữ liệu lưu trữ trên GitHub, với hàng chục, thậm chí hàng trăm dòng code, nhưng hoàn toàn không gặp khó khăn trong việc theo dõi chúng.”
Để giải quyết vấn đề này, Google đã phải cải thiện không gian ngữ cảnh mà phiên bản mô hình Gemini mới có thể xử lý và hiểu được, từ đó cho phép người dùng có thể tương tác với chatbot lâu hơn trong 1 phiên làm việc. Cùng với đó, mô hình cũng có khả năng ghi nhớ những lần làm việc trước đó. Google cho biết, họ đang làm việc để mô hình AI trong tương lai có không gian ngữ cảnh vô hạn, tức là nhớ được và hiểu được mọi thứ.

Còn với những AI agent “có hình thù” như nhân vật ảo trong game hay robot, thậm chí còn có nhiều giới hạn hơn. Hiện giờ đang rất thiếu dữ liệu để huấn luyện robot làm được những công việc như khả năng của con người. Các nhà khoa học ở thời điểm hiện tại cũng mới chỉ bắt đầu nghiên cứu cách ứng dụng AI tạo sinh cho ngành tự động hóa.
Nói một cách ngắn gọn thì, mọi tiềm năng của AI agent hỗ trợ con người ở mọi ngành nghề hiện giờ mới chỉ là tham vọng và mục tiêu phát triển. Còn bản thân quá trình nghiên cứu phát triển công nghệ machine learning này vẫn còn ở thời kỳ rất sơ khai, phải mất nhiều năm nữa máy móc mới làm được những gì con người mong muốn.
Những công cụ như ChatGPT hay phiên bản mô hình ngôn ngữ GPT-4 của OpenAI chính là những sản phẩm thử nghiệm đầu tiên của mục tiêu tạo ra những AI agent. Hiện giờ những ứng dụng tốt nhất cũng chỉ làm được những tác vụ và công việc tương đối hẹp, như vận hành code tự động, vận hành bot hỗ trợ khách hàng hay tự động hóa những công việc hàng ngày.
Cô Qiu cho rằng: “Giờ chúng ta đã có những hệ thống máy tính cực kỳ mạnh mẽ, nhưng con người vẫn phải kiểm soát kỹ mọi thứ.”