Triển vọng phát triển chíp nhận dạng tiếng nói tiếng Việt

Ấp ủ ý tưởng về sản phẩm ứng dụng dựa trên nhận dạng tiếng nói tiếng Việt, TS Hoàng Trang và nhóm nghiên cứu trẻ của Trường Đại học Bách khoa - Đại học Quốc gia TP Hồ Chí Minh đã tìm hiểu các đề tài trong nước về nhận dạng giọng nói trên máy tính và đề xuất ý tưởng đề tài “Thiết kế chíp nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA”.

TS Hoàng Trang và cộng sự giới thiệu thiết bị điều khiển thiết bị trong nhà sử dụng tiếng nói. Ảnh: VPCT

 

Đề tài có mã số KC.01.TN15/11-15 đã được Bộ Khoa học và Công nghệ xét duyệt. Bắt đầu được triển khai từ tháng 1/2012 và chỉ đến tháng 3/2013, đề tài đã được TS Hoàng Trang cùng nhóm cộng sự bảo vệ thành công cấp Nhà nước loại xuất sắc.

 

Gian nan mở đường


Theo TS Hoàng Trang, trong quá trình nghiên cứu và làm việc tại các nước châu Âu và Mỹ, anh nhận thấy, các nhóm nghiên cứu thuộc các trường đại học, công ty nghiên cứu giải thuật nhận dạng tiếng nói được các nước đầu tư cho một nguồn kinh phí rất lớn. Điển hình là Công ty Sony, Trường Đại học Cambrige, Cơ quan Aurona tại châu Âu... Ngoài ra, các nước này đều có chính sách hỗ trợ cho việc nghiên cứu nhằm tạo ra những sản phẩm thiết thực phục vụ người khuyết tật, với những ứng dụng dựa trên nhận dạng tiếng nói. Mong ước về thiết kế được chíp nhận dạng tiếng nói tiếng Việt cho người Việt, TS Trang đã quyết tâm thực hiện mơ ước của mình.


"Bước đầu, chúng tôi đề ra mục tiêu nghiên cứu, thiết kế IC nhận dạng tiếng nói tiếng Việt với tập tiếng nhận dạng là 20 tiếng trên nền công nghệ FPGA, dựa trên việc trích đặc trưng MFCC và bộ phận dạng dùng mô hình Markov ẩn (HMM) với nhiều cải tiến. Đề tài được kiểm nghiệm trên FPGA của Altera. Số lượng tiếng được nhận dạng là 20 tiếng", TS Trang cho biết.


Sau 15 tháng say mê nghiên cứu, kết quả thu được vượt xa mong ước ban đầu của anh, như nhận dạng tiếng nói tiếng Việt gồm 20 tiếng đơn như từ “không” đến “chín”, “trái”, “phải”, "trên”, “dưới”, “tới”, “lui”, “chạy”, “dừng”, “gọi”, “đứng”, khi cần thiết có thể thay đổi dễ dàng tập 20 tiếng nói khác... Ngoài ra, sản phẩm nhận dạng tiếng nói tiếng Việt còn có thể chạy trên FPGA, SoPC, vi điều khiển, hệ thống nhúng. TS Trang cho biết, chíp được thiết kế chi tiết, gồm các cấu trúc vi mạch để thực hiện các giải thuật phức tạp trong lĩnh vực nhận dạng tiếng nói tiếng Việt, đã được thử nhiệm trên 7.400 mẫu âm thanh, trên nền công nghệ 65mm...

 

Thành công bước đầu


Không giấu được niềm vui, tự hào về “đứa con tinh thần” của mình, TS Hoàng Trang bộc bạch: "Thế giới đã có nhiều thành công trong việc nghiên cứu xây dựng phần mềm nhận dạng tiếng nói chạy trên nền tảng vi xử lý và tài nguyên của máy tính. Tuy nhiên, việc chuyển các thuật toán được sử dụng trong các phần mềm nói trên sang hoạt động trên nền cấu trúc vi mạch vẫn còn là thách thức với các nhà nghiên cứu công nghệ trong lĩnh vực này".


Trong nhiều năm qua, một số hãng công nghệ lớn trên thế giới đã đầu tư nghiên cứu về lĩnh vực này, nhưng kết quả thu được còn khá khiêm tốn. Chỉ có một số ít công ty có chíp nhận dạng tiếng nói tiếng Anh như Công ty Sony, Motorola, nhưng vẫn bị giới hạn về số từ vựng và ứng dụng. Ở Việt Nam, vấn đề nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ, mặc dù đây là lĩnh vực công nghệ cao được ưu tiên phát triển.


Đề tài "Thiết kế chíp nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA” đã góp phần “cứng hóa” thành công các giải thuật phức tạp trong nhận dạng tiếng Việt. Phần cứng có ba vấn đề rất quan trọng cần được quan tâm, bao gồm: độ chính xác nhận dạng, tải nguyên phần cứng và tốc độ tính toán. Ba yếu tố này thường được cân nhắc chọn lựa kỹ càng bởi khó có thể đạt được tối ưu trên cùng lúc cả ba yêu tố trên.


Đề tài đã được TS Trang nghiên cứu, thí nghiệm, kiểm tra và chọn được các thông số tối ưu nhất trong giải thuật nhận dạng tiếng nói tiếng Việt để cả ba yếu tố quan trọng trên đều đạt tiêu chuẩn. Đặc biệt, đề tài đã đề xuất các kiến trúc vi mạch mới, giải thuật mới không chỉ giúp tăng tốc độ nhận dạng trên phần cứng nhanh hơn nhiều lần so với các giải thuật thông thường mà còn giảm tài nguyên phần cứng và độ chính xác nhận dạng chỉ giảm từ 1-3%.


So với chip của hãng Motorola, sản phẩm của đề tài này vượt hơn hẳn về tính năng như nhận dạng nhanh hơn, số từ nhận dạng nhiều hơn và nhận dạng nhiều giọng nói hơn...


Các thiết kế, thí nghiệm để tìm ra thông số tối ưu được thực hiện trên rất nhiều mẫu âm thanh của người dân cả ba miền Bắc, Trung, Nam vốn có giọng nói khác nhau. Sự khác nhau về giọng nói giữa các vùng, miền vốn là thách thức lớn cho các nhóm nghiên cứu trong lĩnh vực liên quan.

 

Triển vọng phát triển


Nói về triển vọng của việc phát triển, chuyển giao, ứng dụng kết quả của đề tài, TS Trang cho biết, nhóm đã trao đổi, hợp tác bước đầu với các doanh nghiệp để chuẩn bị hoàn thiện, chuyển giao, phát triển sản phẩm. Sản phẩm có thể được ứng dụng khi thực hiện các mô hình, giải pháp ngôi nhà thông minh với các thiết bị trong nhà đều được điều khiển bằng giọng nói từ xa, rôbốt được điều khiển bằng giọng nói từ xa, các ứng dụng dành cho người khuyết tật, trong chế tạo tivi mà hiện tại các hãng lớn của nước ngoài như Sony, Samsung đã sử dụng, nhưng là chíp nhận dạng tiếng nói tiếng Anh.


Từ nay đến tháng 4/2014, TS Hoàng Trang cùng nhóm nghiên cứu phát triển nhận dạng cho bộ từ vựng lớn hơn, bao gồm: các từ ghép, các từ gần giống âm như từ “dừng” và từ “ngừng”, nhận dạng cả câu nói tiếng Việt, phát triển phần cứng nhận dạng người qua giọng nói trong ứng dụng bảo mật. TS Trang kỳ vọng, đến năm 2016, chíp sẽ được ứng dụng trong chế tạo rôbốt đọc văn bản và phát âm cho người khiếm thị; thiết bị giao tiếp cho người khiếm thính giúp nhận dạng tiếng nói từ người giao tiếp; điều khiển các thiết bị trong nhà (ứng dụng trong ngôi nhà thông minh); trợ giúp người tàn tật chức năng chân hoặc tay trong việc điều khiển các thiết bị thông minh bằng chính giọng nói của mình như điều khiển xe lăn, các thiết bị điện trong nhà...


Đặc biệt, từ tháng 5/2016 đến cuối năm 2018, nhóm sẽ xây dựng cấu hình chíp nhận dạng giọng nói tiếng Việt trên công nghệ 180 mm do Tổng Công ty Công nghiệp Sài Gòn dự kiến áp dụng cho nhà máy sản xuất chíp tại Việt Nam; đồng thời sản xuất thử nghiệm chíp, thực hiện hệ thống mạch hoàn chỉnh gồm chíp được sản xuất và chíp liên quan như ROM, RAM, giải mã audio...; từ đó phát triển và thực hiện thiết bị để gắn vào ti vi, giúp hiển thị chữ tiếng Việt từ những giọng nói tiếng Việt phát ra từ ti vi, ứng dụng trong các nhà máy sản xuất ti vi nội địa, nâng cao vị thế và sức cạnh tranh của hàng Việt Nam...


Nguyễn Bích Thủy

Chia sẻ:

doanh nghiệp - Sản phẩm - Dịch vụ Thông cáo báo chí Rao vặt

Các đơn vị thông tin của TTXVN