Đây là những tuyên bố của ông Xuedong Huang, người đứng đầu nhóm các nhà khoa học trong lĩnh vực giọng nói của Microsoft.
Nếu đã từng sử dụng qua những trợ lý ảo cá nhân trên di động như Apple Siri hay Microsoft Cortana, chắc hẳn bạn từng có lúc cảm thấy ngán ngẩm với những cô nàng nhân tạo này. Rằng chúng không thể hiểu được chủ nhân của mình, biết bạn thực sự muốn gì, cần gì.
Thế nhưng, mọi chuyện có thể thay đổi trong thời gian tới. Khi mới đây, ông Xuedong Huang, một trong những kỹ sư xuất nhất tại Microsoft, cũng đồng thời là người đứng đầu nhóm các nhà khoa học trong lĩnh vực giọng nói của công ty này đã công bố một thành tựu mới.
Cụ thể, nhà khoa học Xuedong Huang cho biết: “Trong khoảng 4-5 năm tới, máy móc nói chung có thể hoàn toàn hiểu được con người. Chúng sẽ hiểu được từng lời bạn nói ra và thi hành khi cần thiết”.
Ông Xuedong Huang hiện là người đứng đầu nhóm các nhà khoa học trong lĩnh vực giọng nói của Microsoft
Ông chia sẻ, khi Microsoft lần đầu thực hiện công nghệ nhận diện giọng nói và cài đặt nó như một chương trình có sẵn trên Windows 95, nhóm kỹ sư của ông đã vấp phải rất nhiều chỉ trích, khi mà tỉ lệ lỗi được ghi nhận lên tới 100%.
Thế nhưng, với sự nỗ lực, lòng đam mê của nhóm kỹ sư do nhà khoa học Xuedong Huang chịu trách nhiệm, công nghệ nhận dạng giọng nói đã trở nên tốt hơn khoảng 20% mỗi năm, nếu được vẽ ra dưới dạng biểu đồ trong suốt 20 năm qua. Và kết quả là thành tựu mà ông và nhóm của mình đã đặt được vào ngày hôm nay.
Tuy nhiên, đây vẫn chưa phải là đích đến mà ông Xuedong Huang, cũng như các nhà khoa học tại Microsoft nói riêng, các nhà khoa học trên thế giới nói chung đang hướng tới. Sau khi công nghệ nhận dạng giọng nói được hoàn thiện, họ sẽ tiếp tục chuyển sang một giai đoạn mới: xây dựng trí tuệ nhân tạo thực sự!
Dù đã bước đầu đạt được những thành tựu lớn trong công nghệ nhận dạng giọng nói, nhưng bản thân ông Xuedong Huang đã nhận thấy những khó khăn bước đầu trong giai đoạn trí tuệ nhân tạo kế tiếp. Ông cho rằng, để tạo ra một AI thực sự, các nhà khoa học cần tới một nền tảng vững chắc, không chỉ đơn thuần là dãy số 1 và 0.
Phát biểu trước báo giới, ông Huang cho biết: “Giúp máy móc hiểu được từng từ dễ dàng hơn hẳn so với việc hiểu được toàn bộ ngữ cảnh”.
Vị kỹ sư trưởng nhận định, các trợ lý ảo thông dụng hiện nay như: Microsoft Cortana, Google Now, Apple Siri, và Amazon Alexa đã và đang làm rất tốt công việc của mình. Nhưng các tác vụ mà những trợ lý ảo này làm được vẫn còn rất cơ bản.
Và mọi chuyện sẽ trở nên khó khăn hơn với những cuộc trò chuyện phức tạp, khi mà thứ chúng ta cần là kết hợp nhiều ứng dụng, nhiều câu hỏi, nhiều tiện ích lại với nhau, thay vì chỉ để xem giờ hay xem dự báo thời tiết.
Ông cho rằng, việc tiếp cận và phát triển trí thông minh nhân tạo sẽ được coi là một cuộc cách mạng thực sự của là loài ngoài. Sự thay đổi không chỉ tới từ khả năng giọng nói, mà còn là giao diện của máy móc, cách chúng ta sử dụng các thiết bị trong tương lai.
Để chứng minh cho những tuyên bố của mình, ông Xuedong Huang đã gợi ý về một thiết bị cá nhân có tên là MiPad, từng được Microsoft trình diễn tại sự kiện CES 2001. Dù MiPad chưa bao giờ được thương mại hóa, nhưng vào thời điểm đó, thiết bị này đã chứng minh: máy móc hiểu được con người là có thật.
Thiết bị bí ẩn có tên MiPad từng xuất hiện tại CES 2001.
Hiện tại, ông Xuedong Huang đang kì vọng rất nhiều vào một dự án có tên là Oxford. Về cơ bản, đây là một công cụ dạng máy học (machine learning), có khả năng nhận biết hình ảnh và giọng nói. Nếu đã từng sử dụng các công cụ thú vị của Microsoft như How-Old.net, hoặc MyMoustache, thì đó chính là một phần của Oxford.
Được biết, Oxford là một công nghệ mở, dành cho tất cả các nhà phát triển trên thế giới. Nói cách khác, các lập trình viên có thể tự do đưa công nghệ này lên các ứng dụng của riêng mình. Ngược lại, Oxford của Microsoft sẽ có khả năng tự học, thu thập được nhiều dữ liệu hơn.
Về phương thức hoạt động, tương tự Cortana, Oxford sẽ học cách lắng nghe những câu hỏi của người dùng, và đưa ra những câu hỏi thông minh nhất. Thế nhưng, Oxford sẽ không chỉ đơn thuần là người tiếp chuyện Cortana, mà còn có thể trở thành một vị quản gia thông minh.
Thành tựu của nhóm các nhà khoa học trong lĩnh vực giọng nói tại Microsoft.
Chia sẻ về tiềm năng của Oxford, ông Xuedong Huang cho biết, công nghệ này sẽ giúp người dùng quản lý được hầu hết các thiết bị điện tử trong gia đình, chỉ thông qua một mệnh lệnh đơn giản. Còn trung tâm của Oxford sẽ là hệ thống đám mây Microsoft Azure, hoạt động như phần nền tảng.
“Chúng tôi đã mất 20 năm để đạt được mục tiêu đó”, Huang tự hào chia sẻ. Đặc biệt, vị chuyên gia còn cho rằng, ngay cả khi Microsoft chưa thể hoàn thiện dự án Oxford, họ đã bắt đầu nghĩ tới những tiềm năng và công nghệ xa hơn trong tương lai.
Thật vậy, ông chia sẻ rằng, trong tương lai, Microsoft sẽ sử dụng các cảm biến Xbox Kinect cho phép người dùng điều khiển các trò chơi video trên Xbox thông qua 2 phương thức chính là: giọng nói và chuyển động. Thực chất, hệ thống này đã bắt đầu được thử nghiệm tại tòa nhà Trung tâm nghiên cứu của Microsoft.
Và cuối cùng, vị chuyên gia cũng khẳng định, trí tuệ nhân tạo sẽ sớm thay đổi cả tương lai loài người. Khi những đứa trẻ sẽ được lớn lên cùng các AI. “Nhờ đó, con cái chúng ta sẽ sớm được tiếp cận với phương pháp thông minh hơn. Và đó là cách chúng tôi tạo ra thế giới mới”, Huang chia sẻ.
Nguồn: GenK
Chưa có bình luận.