Cuộc đua phục hồi giọng nói cho những người không thể trò chuyện

Cuộc đua phục hồi giọng nói cho những người không thể trò chuyện
10 giờ trướcBài gốc
Các nhà nghiên cứu tại một số trường đại học ở bang California (Mỹ) cùng những công ty như Precision Neuroscience (có trụ sở tại thành phố New York, Mỹ) đang đạt được tiến bộ trong việc tạo ra giọng nói tự nhiên bằng cách kết hợp giữa cấy ghép não và AI.
Trong nhiều năm, các khoản đầu tư và sự chú ý đã tập trung vào những thiết bị cấy ghép giúp người bị khuyết tật nặng vận hành bàn phím máy tính, điều khiển cánh tay robot hoặc khôi phục một phần khả năng sử dụng các chi bị liệt. Tuy nhiên, một số phòng thí nghiệm đang đạt được bước tiến bằng cách tập trung vào công nghệ chuyển đổi tín hiệu suy nghĩ thành lời nói.
“Chúng tôi đang đạt được tiến bộ lớn và mục tiêu chính là làm cho việc giao tiếp từ não bộ đến giọng nói nhân tạo trôi chảy như cuộc trò chuyện giữa hai người bình thường. Các thuật toán AI mà chúng tôi đang sử dụng ngày càng nhanh hơn và chúng tôi học được nhiều điều từ mỗi người tham gia nghiên cứu”, bác sĩ phẫu thuật thần kinh Edward Chang tại Đại học California - San Francisco (Mỹ) nói.
Tháng trước, Edward Chang và các đồng nghiệp, gồm cả chuyên gia từ Đại học California - Berkeley, đã công bố nghiên cứu trên tạp chí Nature Neuroscience về công việc của họ với người phụ nữ bị liệt tứ chi không thể nói suốt 18 năm sau một cơn đột quỵ.
Bệnh nhân đã huấn luyện một mạng nơ-ron học sâu bằng cách cố gắng nói thầm các câu được tạo thành từ 1.024 từ khác nhau. Âm thanh giọng nói của cô được tạo ra bằng cách truyền dữ liệu thần kinh đến một mô hình kết hợp giữa tổng hợp giọng nói và giải mã văn bản.
Mạng nơ-ron học sâu là một loại mô hình học máy được lấy cảm hứng từ cấu trúc và cách hoạt động của bộ não con người, cụ thể là các nơ-ron sinh học.
Điểm đặc trưng chính của học sâu là việc sử dụng mạng nơ-ron có nhiều lớp ẩn giữa lớp đầu vào và lớp đầu ra.
Lớp đầu vào: Nhận dữ liệu ban đầu như pixel của hình ảnh, âm thanh, từ trong văn bản.
Lớp ẩn: Là các lớp nằm giữa lớp đầu vào và lớp đầu ra. Đây là nơi các phép tính phức tạp diễn ra để trích xuất và biến đổi các đặc trưng của dữ liệu.
Lớp đầu ra: Đưa ra kết quả cuối cùng như dự đoán đó là con mèo hay chó, nhận dạng lời nói, dịch văn bản.
Kỹ thuật này đã rút ngắn độ trễ giữa tín hiệu não của bệnh nhân và âm thanh đầu ra từ 8 giây xuống còn 1 giây, gần hơn nhiều so với khoảng thời gian 100 - 200 mili giây trong lời nói bình thường. Tốc độ giải mã trung bình của hệ thống là 47,5 từ mỗi phút, tương đương khoảng 1/3 tốc độ nói chuyện thông thường.
Hàng chục nghìn người mỗi năm có thể hưởng lợi từ bộ phận giả giọng nói. Họ vẫn giữ được chức năng nhận thức bình thường nhưng bị mất khả năng nói do đột quỵ, bệnh thoái hóa thần kinh ALS hoặc các bệnh lý não khác.
ALS là bệnh hiếm gặp nhưng nghiêm trọng, trong đó các tế bào thần kinh vận động bị thoái hóa và chết dần theo thời gian. Những tế bào này điều khiển chuyển động cơ bắp, nên khi chúng chết đi, người bệnh dần mất khả năng đi lại, nói chuyện, nuốt và cuối cùng là thở.
Nếu thành công, các nhà nghiên cứu hy vọng kỹ thuật này có thể mở rộng để giúp những người gặp khó khăn trong phát âm do bại não hoặc tự kỷ.
Tiềm năng của bộ phận giả thần kinh giọng nói đang bắt đầu thu hút sự quan tâm từ giới kinh doanh. Precision Neuroscience tuyên bố thu nhận được tín hiệu não có độ phân giải cao hơn so với các nhóm nghiên cứu học thuật vì các điện cực trong thiết bị cấy ghép của họ được sắp xếp dày đặc hơn. Công ty này đã làm việc với 31 bệnh nhân và dự kiến sẽ sớm thu thập dữ liệu từ nhiều người hơn, mở ra con đường tiềm năng cho thương mại hóa.
Bộ phận giả thần kinh giọng nói là một loại thiết bị hoặc hệ thống được thiết kế để phục hồi hoặc thay thế chức năng tạo ra giọng cho những người không thể nói do vấn đề về thần kinh như đột quỵ, ALS, tổn thương não...
Thiết bị này hoạt động bằng cách:
- Đọc tín hiệu từ não: Ghi lại hoạt động thần kinh trong các vùng não liên quan đến việc có ý định nói hoặc tưởng tượng ra lời nói (thường sử dụng các điện cực cấy ghép).
- Giải mã tín hiệu: Sử dụng các thuật toán (thường là AI) để phân tích và hiểu các tín hiệu não này tương ứng với từ, âm thanh hoặc câu nào.
- Tạo ra giọng nói tổng hợp: Chuyển đổi thông tin đã giải mã thành giọng nói nhân tạo phát ra từ loa hoặc thiết bị khác.
Ngày 17.4, Precision Neuroscience đã được cơ quan quản lý cho phép để lại cảm biến trong cơ thể người tối đa 30 ngày mỗi lần cấy ghép. Điều này sẽ cho phép các nhà khoa học huấn luyện hệ thống của họ với những dữ liệu thần kinh độ phân giải cao có thể trở thành “kho dữ liệu lớn nhất thế giới” trong vòng một năm, Michael Mager (nhà đồng sáng lập kiêm Giám đốc điều hành Precision Neuroscience) nói.
Bước tiếp theo là “thu nhỏ các thành phần và đóng gói chúng trong các gói kín khí, tương thích sinh học để có thể cấy vào cơ thể vĩnh viễn”, Michael Mager cho biết.
Các nhà nghiên cứu đang đạt được tiến bộ trong việc tạo ra giọng nói tự nhiên bằng cách kết hợp giữa cấy ghép não và AI - Ảnh: FT
Câu hỏi chưa có lời giải
Neuralink, công ty giao diện não–máy tính (BCI) nổi tiếng nhất do Elon Musk điều hành, tập trung vào việc giúp người bị liệt điều khiển máy tính, thay vì tạo ra giọng nói nhân tạo. Một trở ngại lớn với công nghệ chuyển tính hiệu não thành giọng nói là thời gian bệnh nhân cần để học cách sử dụng hệ thống.
Một câu hỏi chưa có lời giải là mức độ khác biệt giữa các mẫu phản ứng trong vỏ não vận động (vùng điều khiển các hành động tự nguyện, gồm cả lời nói) ở mỗi người là bao nhiêu. Nếu các mẫu này tương đối giống nhau, các mô hình học máy được huấn luyện từ người trước có thể được áp dụng cho người sau, theo Nick Ramsey (nhà nghiên cứu BCI tại Trung tâm Y tế Đại học Utrecht, Hà Lan).
Điều đó sẽ giúp rút ngắn quá trình hiện tại vốn cần “hàng chục đến hàng trăm giờ thu thập đủ dữ liệu bằng cách hiển thị văn bản và yêu cầu người tham gia cố gắng nói theo”.
Nick Ramsey tiết lộ rằng tất cả nghiên cứu về chuyển đổi tín hiệu não thành giọng nói đều tập trung vào vỏ não vận động, nơi các nơ-ron kích hoạt cơ nói, và chưa có bằng chứng cho thấy lời nói có thể được tạo ra từ các vùng não khác hoặc bằng cách giải mã suy nghĩ bên trong.
“Ngay cả khi có thể, bạn cũng sẽ không muốn người khác nghe thấy suy nghĩ nội tâm của mình. Có rất nhiều điều tôi không nói ra vì không có lợi cho bản thân hoặc có thể làm tổn thương người khác”, Nick Ramsey thổ lộ.
Sự phát triển của giọng nói nhân tạo đạt đến mức như lời nói khỏe mạnh vẫn còn “khá xa”, theo Sergey Stavisky, đồng giám đốc phòng thí nghiệm thần kinh học tại Đại học California - Davis.
Sergey Stavisky cho biết phòng thí nghiệm của ông đã chứng minh có thể giải mã người tham gia đang cố nói gì với độ chính xác khoảng 98%. Tuy nhiên, giọng nói đầu ra không diễn ra tức thì và không thể hiện được các yếu tố quan trọng như ngữ điệu. Chưa rõ liệu phần cứng ghi nhận tín hiệu (các điện cực) có thể cho phép tổng hợp giọng nói đạt đến chất lượng của giọng người khỏe mạnh hay không, theo Sergey Stavisky.
Các nhà khoa học cần hiểu sâu hơn về cách não mã hóa quá trình phát âm và phát triển thuật toán tốt hơn để chuyển đổi hoạt động thần kinh thành giọng nói, Sergey Stavisky tiết lộ.
Ông kết luận: “Mục tiêu cuối cùng của bộ phận giả thần kinh giọng nói là phải cung cấp đầy đủ khả năng biểu đạt của giọng người, để người dùng có thể điều khiển chính xác cao độ, nhịp điệu và thậm chí là hát”.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/cuoc-dua-phuc-hoi-giong-noi-cho-nhung-nguoi-khong-the-tro-chuyen-231749.html