Hầu hết mọi người liên kết Đạo luật về người khuyết tật của Hoa Kỳ với những thay đổi về thể chất, cơ sở hạ tầng cần được thực hiện đối với các tòa nhà hoặc các địa điểm khác, nhưng khi định nghĩa về khuyết tật ngày càng mở rộng, mọi người nhận ra rằng 'có thể truy cập' cũng áp dụng cho những thứ như trang web và nhận dạng giọng nói.
Trong trường hợp này, gã khổng lồ công nghệ Google đang nỗ lực cải tiến phần mềm nhận dạng giọng nói của mình với Project Euphonia. Dự án Euphonia là một sáng kiến ghi lại các mẫu giọng nói của các tình nguyện viên và phân tích chúng để những người mắc bệnh ALS, rối loạn thần kinh và các chứng khó nói khác có thể sử dụng thiết bị thông minh của họ một cách dễ dàng như một cá nhân 'điển hình'.
Tại sao tôi tình nguyện
Dây thanh bên trái bị liệt và lưỡi không đối xứng do khối u não đã dẫn đến chứng bệnh Dysarthria của tôi. Nói ngọng và giọng yếu ớt của tôi khiến bạn bè và gia đình khó hiểu hoặc nghe thấy tôi, đặc biệt là trong một không gian đông đúc. Điều này khiến tôi trở thành ứng cử viên hàng đầu cho Dự án Euphonia, vì vậy tôi đã tình nguyện ngay khi đọc về nó. Ghi âm mẫu trên một trang web thô sơ, tôi nhắc lại 4.500 cụm từ từ "Làm cách nào để đến Mountain View, California?" Đến "Phát các bài hát của Cardi B".
Bên cạnh việc đáp ứng các tiêu chí của Dự án Euphonia, tôi còn tình nguyện vì lần đầu tiên tôi được giới thiệu chương trình nhận dạng giọng nói hàng đầu Dragon Natural Speaking vào năm 1997 - và chương trình này đã thất bại một cách ngoạn mục. Trong nhiều năm, tôi đã thử các chương trình tương tự tại Phòng thí nghiệm Công nghệ Hỗ trợ tại Bệnh viện Nhi đồng Boston cũng như các phiên bản cập nhật của Rồng, và mặc dù phần mềm này đã đạt được những bước tiến lớn, nhưng nó vẫn gặp khó khăn trong việc xác định giọng nói của tôi.
Điều này có vấn đề vì hai lý do: Tôi là một nhà văn không có kỹ năng vận động tốt, vì vậy tôi gõ bằng một tay hoặc chậm bằng hai tay nếu tôi thấy mệt. Với ba tập thơ tự xuất bản, một cuốn hồi ký và một tuyển tập những câu chuyện liên quan đến tên tôi chưa được xuất bản, tôi rùng mình khi nghĩ rằng mình có thể tạo ra thêm được bao nhiêu nếu việc đánh máy không phải là một công việc khó khăn về thể chất như vậy.
Lý do khác khiến tính năng nhận dạng giọng nói phụ tạo ra rào cản đối với tôi là do sự gia tăng của các sản phẩm hỗ trợ giọng nói trong nhà và trên điện thoại. Chỉ sử dụng câu chuyện của tôi, nếu tôi có thể truy cập máy tính và các thiết bị thông minh theo cách chúng được sử dụng, điều đó sẽ mang lại cho tôi nhiều thời gian rảnh hơn, cho phép tôi hoàn thành toàn bộ nhiệm vụ và có khả năng thay đổi cách sống của tôi.
Dự án Euphonia: Nó hoạt động như thế nào?
Vậy, Euphonia hoạt động như thế nào? Sau khi tải ứng dụng nguyên mẫu có mô hình nhận dạng giọng nói được cá nhân hóa xuống điện thoại, tôi đặt điện thoại bên cạnh máy tính xách tay và đọc chính tả vào đó; khi tôi đã làm điều này, tôi đã xem mọi thứ tôi nói sẽ xuất hiện trong Google Tài liệu trên máy tính xách tay của tôi. Tôi đã làm việc này trong vài tháng, ghi lại các cụm từ trong cuốn tiểu thuyết tôi đang viết và sửa mọi điểm không chính xác cho Google bằng ứng dụng.
Sau vài tháng nữa mà không ghi lại các cụm từ, tôi đã hoàn thành bản thảo đầu tiên của một cuốn tiểu thuyết - 20.000 từ - bằng ứng dụng. Điều này không có nghĩa là nó hoàn hảo; Cứ mỗi giờ tôi viết, tôi phải quay lại và dành một giờ để chỉnh sửa nhỏ. Nhưng tôi không phiền vì Euphonia đang trong giai đoạn thử nghiệm và thay vì chậm chạp tạo ra 100 từ mỗi ngày, tôi đang tạo ra 500 từ mỗi ngày.
Sau đó, có một thực tế là Euphonia không được thiết kế để xử lý văn bản - nó nhiều hơn cho các lệnh khai báo - và phong cách viết của tôi là cái mà họ gọi là 'quần lót' (bay ngang qua ghế của bạn), vì vậy tôi có rất nhiều thời gian tạm dừng bởi vì tôi không biết một câu sẽ kết thúc như thế nào - bạn biết đấy, giống như Michael Scott. Tuy nhiên, khi tôi biết mình muốn nói gì, chẳng hạn như trong tin nhắn văn bản, email hoặc đưa ra hướng dẫn cho trợ lý của mình, đó là tính năng nhận dạng giọng nói chính xác nhất mà tôi từng sử dụng cho đến nay.
Khi các tổ chức như Google có tiếng nói với người khuyết tật trong việc thiết kế kiến trúc của tương lai, để họ vẫn là chính mình thay vì cố gắng biến họ thành một thứ gì đó ‘bình thường’, tôi hy vọng rằng trong thời đại của AI, chủ nghĩa nhân văn sẽ chiếm ưu thế.
Nếu bạn muốn truy cập trang web của Project Euphonia, hoặc bị khiếm khuyết về giọng nói và muốn đóng góp một mẫu giọng nói, bạn có thể truy cập liên kết này: https://sites.research.google/euphonia/about/