Một phụ nữ Anh mắc bệnh thần kinh vận động (MND), khiến bà mất khả năng nói, đã có thể giao tiếp trở lại bằng chính giọng nói của mình nhờ công nghệ trí tuệ nhân tạo (AI) và một đoạn ghi âm dài 8 giây trích từ video cũ của gia đình.
Bà Sarah Ezekiel và con trai Eric. Ảnh: AFP
Bà Sarah Ezekiel, một nghệ sĩ sống ở phía Bắc thủ đô London, mất khả năng nói sau khi được chẩn đoán mắc bệnh MND ở tuổi 34 khi đang mang thai lần thứ hai cách đây 25 năm. Căn bệnh này gây tổn thương hệ thần kinh, làm suy yếu các cơ ở lưỡi, miệng và cổ họng, khiến một số bệnh nhân mất hoàn toàn khả năng nói.
Trong nhiều năm, bà Ezekiel đã phải sử dụng máy tính và công nghệ tạo giọng nói để giao tiếp, tuy nhiên giọng này nghe không giống giọng của bà. Hai người con của bà, Aviva và Eric, lớn lên mà chưa từng biết giọng nói thực sự của mẹ mình.
Những năm gần đây, các chuyên gia đã có thể sử dụng công nghệ để tái tạo giọng nói gốc của một người. Tuy nhiên, kỹ thuật này yêu cầu các bản ghi âm dài và chất lượng tốt, và giọng nói tạo ra thường bị đánh giá là "nghe đều đều".
Ông Simon Poole, đại diện công ty truyền thông y tế Smartbox của Anh, cho biết ban đầu công ty đề nghị bà Ezekiel cung cấp một bản ghi âm dài 60 phút. Tuy nhiên, bà Ezekiel chỉ tìm được một đoạn clip rất ngắn và chất lượng kém, trích từ một video gia đình những năm 1990. Đoạn clip chỉ dài 8 giây, bị méo tiếng và có tiếng ồn từ tivi.
Ông Poole đã phải tìm đến công nghệ do ElevenLabs, công ty tạo giọng nói từ AI có trụ sở tại New York (Mỹ), phát triển. Công nghệ này có khả năng tái tạo giọng nói chân thực chỉ với rất ít dữ liệu. Ông Poole đã sử dụng một công cụ AI để tách giọng nói khỏi đoạn ghi âm cũ, sau đó dùng một công cụ khác - được huấn luyện bằng dữ liệu giọng nói thật - để tạo ra sản phẩm cuối cùng.
Kết quả khiến bà Ezekiel vô cùng xúc động. Giọng nói tái tạo rất giống giọng thật của bà, đó là giọng London đặc trưng và giọng hơi ngọng mà bà từng không thích.
Theo Hiệp hội Bệnh MND Vương quốc Anh, cứ 10 người mắc căn bệnh này thì có tới 8 người gặp khó khăn về giọng nói sau khi được chẩn đoán. Tuy nhiên, các giọng nói do máy tính tạo ra hiện nay vẫn thường bị đánh giá là thiếu nhịp điệu và cảm xúc.
Ông Poole cho biết tiến bộ của công nghệ AI hiện nay là khả năng tạo ra giọng nói giống con người và có cảm xúc, qua đó "thổi hồn" cho những giọng nói máy tính trước đây vốn nghe khá khô khan. Ông nhấn mạnh rằng việc cá nhân hóa giọng nói cũng là cách gìn giữ bản sắc cá nhân.
Hiện nay, những người có nguy cơ mất khả năng nói do các bệnh như MND thường được khuyến khích ghi âm giọng nói của mình càng sớm càng tốt để lưu giữ bản sắc cá nhân cũng như phục vụ giao tiếp sau này. Tuy nhiên, trước khi điện thoại thông minh trở nên phổ biến, việc có được những bản ghi âm phù hợp là điều không dễ dàng.