Alexa, Siri và Google Đừng hiểu một từ bạn nói

Amazon

Các trợ lý giọng nói như Alexa, Google Assistant và Siri đã đi một chặng đường dài trong vài năm qua. Nhưng, đối với tất cả các cải tiến của họ, một điều giữ họ lại: Họ không hiểu bạn. Họ phụ thuộc quá nhiều vào các lệnh thoại cụ thể.

Nhận dạng giọng nói chỉ là một trò ảo thuật

Amazon

Trợ lý giọng nói không hiểu bạn. Không thực sự, dù sao. Khi bạn nói chuyện với Google Home hoặc Amazon Echo, về cơ bản, nó sẽ chuyển đổi các từ của bạn thành một chuỗi văn bản và sau đó so sánh nó với các lệnh dự kiến. Nếu nó tìm thấy một kết quả khớp chính xác, thì nó sẽ tuân theo một bộ hướng dẫn. Nếu không, nó tìm kiếm một giải pháp thay thế dựa trên thông tin nào có và nếu nó không hoạt động, bạn sẽ nhận được một thông báo thất bại như là Tôi xin lỗi, nhưng tôi không biết rằng . Nó không chỉ là một chút ma thuật tay để lừa bạn nghĩ rằng nó hiểu.

Nó không thể sử dụng manh mối theo ngữ cảnh để đưa ra dự đoán tốt nhất hoặc thậm chí sử dụng sự hiểu biết về các chủ đề tương tự để thông báo quyết định của mình. Không khó để đi lên trợ lý giọng nói. Trong khi bạn có thể hỏi Alexa, Bạn có làm việc cho NSA không? Và nhận được câu trả lời, nếu bạn hỏi, Bạn có bí mật là một phần của NSA không? Bạn có nhận được một câu trả lời không? thời gian viết bài này).

Con người, người thực sự hiểu lời nói, không làm việc như thế này. Giả sử bạn hỏi một con người, thì thế nào là klarvain trên bầu trời? Một trong số đó là hình vòng cung, và có đầy đủ các màu sọc như đỏ, cam, vàng và xanh lam. Mặc dù klarvain là một từ được tạo ra, người bạn hỏi có thể hình dung ra từ bối cảnh mà bạn mô tả về cầu vồng.

Trong khi bạn có thể lập luận rằng một con người đang chuyển đổi lời nói thành ý tưởng, thì một con người sau đó có thể áp dụng kiến thức và hiểu biết để kết luận một câu trả lời. Nếu bạn hỏi một người nếu họ bí mật làm việc cho NSA, họ sẽ cho bạn câu trả lời có hoặc không, ngay cả khi câu trả lời đó là lời nói dối. Một con người sẽ không nói rằng tôi không biết rằng một câu hỏi như thế. Con người có thể nói dối là một cái gì đó đi kèm với sự hiểu biết thực sự.

Trợ lý giọng nói không thể vượt ra ngoài lập trình của họ

Trợ lý giọng nói cuối cùng bị giới hạn ở các tham số dự kiến được lập trình và đi lang thang bên ngoài chúng sẽ phá vỡ quy trình. Thực tế đó cho thấy khi các thiết bị của bên thứ ba đến chơi. Thông thường, lệnh để tương tác với những thứ đó rất khó sử dụng, do nhà sản xuất thiết bị nói với điều khiển tùy chọn. Đối với một ví dụ chính xác sẽ là: Hãy nói với Whirlpool để tạm dừng máy sấy. kỹ năng điều khiển một số lò GE. Một người sử dụng kỹ năng này cần phải nhớ để nói với Geneva, chứ không phải nói với GE, sau đó là phần còn lại của lệnh. Và trong khi bạn có thể yêu cầu nó làm nóng lò trước tới 350 độ, bạn không thể theo dõi yêu cầu tăng nhiệt độ thêm 50 độ nữa. Một con người có thể làm theo những yêu cầu này mặc dù.

Amazon và Google đã làm việc rất chăm chỉ để vượt qua những trở ngại này, và nó cho thấy. Trường hợp một khi bạn phải tuân theo trình tự trên để điều khiển khóa thông minh, thì bây giờ bạn có thể nói rằng khóa Khóa cửa trước thay thế. Alexa đã từng bị nhầm lẫn bởi những câu nói đùa với con chó, nhưng hãy yêu cầu một trò đùa ngày hôm nay, và nó sẽ hoạt động. Họ đã thêm các biến thể cho các lệnh bạn sử dụng, nhưng cuối cùng bạn vẫn phải biết đúng lệnh để nói. Bạn cần sử dụng đúng cú pháp, theo đúng thứ tự.

Và nếu bạn nghĩ rằng âm thanh đó rất giống với dòng lệnh, bạn không sai.

Trợ lý giọng nói là một dòng lệnh Fancy

Một dòng lệnh được định nghĩa hẹp để thực hiện các tác vụ đơn giản, nhưng chỉ khi bạn biết cú pháp thích hợp. Nếu bạn trượt khỏi cú pháp đúng đó và gõ dyr thay vì dir, thì dấu nhắc lệnh sẽ cung cấp cho bạn một thông báo lỗi. Bạn có thể sử dụng các bí danh để dễ nhớ các lệnh hơn, nhưng bạn phải biết ý tưởng của các lệnh ban đầu là gì, cách chúng hoạt động và cách sử dụng các bí danh một cách hiệu quả. Nếu bạn không dành thời gian để tìm hiểu về dòng lệnh và dòng lệnh, bạn sẽ không bao giờ nhận được nhiều từ nó.

Trợ lý giọng nói cũng không khác. Bạn cần biết cách chính xác để nói lệnh hoặc đặt câu hỏi. Và bạn cần biết cách thiết lập các nhóm cho Google và Alexa, tại sao việc nhóm các thiết bị của bạn lại là điều cần thiết và cách đặt tên cho các thiết bị thông minh của bạn. Nếu bạn không làm theo các bước cần thiết này, bạn sẽ cảm thấy thất vọng khi yêu cầu trợ lý giọng nói của mình tắt nghiên cứu chỉ để được yêu cầu, nên tắt chương trình nghiên cứu nào.

Ngay cả khi bạn sử dụng đúng cú pháp theo đúng thứ tự, quy trình có thể thất bại. Hoặc với phản ứng sai được ban hành hoặc một kết quả đáng ngạc nhiên. Hai ngôi nhà Google trong cùng một ngôi nhà có thể cung cấp thời tiết cho các vị trí hơi khác nhau mặc dù họ có quyền truy cập vào cùng thông tin tài khoản người dùng và kết nối internet.

Trong ví dụ trên, lệnh Nhóm Đặt bộ hẹn giờ trong nửa giờ được đưa ra. Trung tâm Google Home đã tạo một bộ đếm thời gian có tên là Giờ Giờ Hồi và sau đó hỏi xem bộ hẹn giờ sẽ dài bao lâu. Và lặp lại cùng một lệnh ba lần khác hoạt động chính xác và tạo ra một bộ đếm thời gian 30 phút. Sử dụng lệnh Nhóm Đặt bộ hẹn giờ trong 30 phút, hoạt động chính xác trên cơ sở phù hợp hơn.

Mặc dù việc nói chuyện với Google Home hoặc Echo có thể trôi chảy hơn, bên dưới trợ lý giọng nói và các dòng lệnh hoạt động theo cùng một cách. Bạn có thể không cần học một ngôn ngữ mới, nhưng bạn cần học một phương ngữ mới.

Hiểu biết hẹp về Trợ lý giọng nói sẽ hạn chế sự tăng trưởng

Không ai trong số này ngăn các trợ lý giọng nói như Google Assistant và Alexa hoạt động đủ tốt (mặc dù Cortana là một câu chuyện khác). Trợ lý Google và Alexa và tìm kiếm trực tuyến các câu hỏi, mặc dù không ngạc nhiên khi Google tìm kiếm tốt hơn và có thể trả lời các câu hỏi cơ bản như chuyển đổi đo lường và toán đơn giản. Với một nhà thông minh được thiết lập chính xác và người dùng được đào tạo tốt, hầu hết các lệnh nhà thông minh sẽ hoạt động như dự định. Nhưng điều này đến từ công việc và nỗ lực, không phải sự hiểu biết về trí tuệ.

Đồng hồ bấm giờ và báo động được sử dụng để đơn giản. Theo thời gian đặt tên đã được thêm vào, sau đó khả năng thêm thời gian vào một bộ đếm thời gian. Họ chuyển từ đơn giản sang phức tạp hơn. Trợ lý giọng nói có thể trả lời nhiều câu hỏi hơn và mỗi ngày mang đến những kỹ năng và tính năng mới. Nhưng đó không phải là một sản phẩm của sự phát triển bản thân đến từ sự học hỏi và hiểu biết.

Và không ai trong số đó cung cấp khả năng vốn có để sử dụng những gì đã biết để đạt được điều chưa biết. Đối với mỗi lệnh và câu hỏi không hoạt động, sẽ luôn có ba câu hỏi không. Không có sự đột phá trong A.I. mang đến khả năng hiểu biết giống như con người, trợ lý giọng nói hoàn toàn không phải là trợ lý. Chúng chỉ là các dòng lệnh bằng giọng nói - hữu ích trong kịch bản phù hợp nhưng bị giới hạn trong các kịch bản mà chúng đã được lập trình để hiểu.

Nói cách khác: máy móc đang học mọi thứ, nhưng không thể hiểu chúng.