Phương pháp này tìm ra các từ khóa mà Chính phủ Triều Tiên hay sử dụng ngay trước khi tiến hành thử hạt nhân. |
Giáo sư Michael Lammbrau thuộc trường Đại học Mercyhurst hợp tác với hai nhà nghiên cứu Taehee Whang và Hyung-min Joo của trường Đại học Yonsei (Hàn Quốc) chế tạo ra một chiếc máy trang bị kỹ thuật có khả năng dự đoán tỷ lệ xảy ra một vụ thử tên lửa hạt nhân của Bình Nhưỡng với độ chính xác lên tới 73,2%.
Trả lời độc quyền báo Anh Express, giáo sư Lammbrau cho biết: “Phần lớn công việc được hoàn thành với các giáo sư Hàn Quốc và công trình mới được xuất bản khi tôi về Mỹ, vẫn còn nhiều việc phải nghiên cứu tiếp… Tôi không thể đọc mọi bài báo và tìm kiếm các cụm từ cụ thể, nhưng chúng tôi có khả năng xử lý thông tin và hỏi máy tính liệu có bất kỳ một quy luật nào xảy ra trước một cuộc xung đột hoặc một vụ thử tên lửa, hạt nhân. Chiếc máy đó làm rất tốt nhưng vẫn chưa hoàn hảo. Chúng tôi muốn thiết lập một phương thức chế tạo một máy chỉ điểm và hệ thống đưa ra quyết định ít nhất có thể cảnh báo trước về nguy cơ gia tăng”.
Thông qua các nội dung tuyên truyền trên trang web chính thức của hãng thông tấn trung ương Triều Tiên (KCNA), đội nghiên cứu thiết lập quy luật hành vi từ phía Bình Nhưỡng trước khi diễn ra một vụ thử hạt nhân, từ đó phán đoán lần thử tiếp theo sẽ diễn ra khi nào.
Bản nghiên cứu có viết: Chúng tôi sử dụng công nghệ học có giám sát (SML – phương thức đưa cho máy tính hàng loạt các ví dụ cùng câu trả lời mẫu với hy vọng máy tính sẽ tìm được những đặc điểm cần thiết để đưa ra dự đoán cho những ví dụ khác chưa có câu trả lời trong tương lai).
Có 4 bước trong phương pháp SML: thu thập dữ liệu, phân loại tài liệu, xử lý trước và phân tích, sau đó xây dựng hình mẫu.
Theo quy trình này, đầu tiên, các nhà khoa học sẽ thu thập mọi bài viết mà website KCNA xuất bản từ 1997 đến 2014. Tiếp đến, máy tính sẽ dán nhãn các bài viết này bằng hai tiêu đề: đe dọa và không là mối đe dọa. Tất cả những bài viết trên KCNA trong vòng 1 tuần trước khi tiến hành 3 vụ thử hạt nhân Triều Tiên đều bị dán nhãn “đe dọa”. Trong khi đó, những bài viết của KCNA trong giai đoạn 10 ngày trước hoặc sau 2 tháng diễn ra vụ thử hạt nhân thì bị dán nhãn “không là mối đe dọa”.
Các mạo từ, giới từ như “a, the, on, at, to, and” đều được coi là vô nghĩa đối với chiếc máy này và bị loại bỏ.
Sau khi được dán nhãn, các bài viết đó được phân ra làm hai loại: dữ liệu đào tạo và dữ liệu thử nghiệm.
Mục dữ liệu đào tạo bao gồm 70% số bài viết được lấy ra, trong khi mục dữ liệu thử nghiệm là 30% bài viết còn lại.
Quá trình học giám sát (SML) sẽ phân tích kho dữ liệu đào tạo để phát triển một mô hình có khả năng phân biệt giữa bài viết “đe dọa” và bài viết “không là mối đe dọa” được đặt trong mục dữ liệu thử nghiệm.
Sau đó, mô hình được tạo ra từ mục dữ liệu đào tạo sẽ so sánh với mục dữ liệu thử nghiệm để kiểm tra mức độ chính xác.
Chiếc máy sẽ có thể đưa ra một nhóm các từ, cụm từ thường xuyên xuất hiện trong bài viết tuyên truyền của Triều Tiên.
Theo mô hình mà phương pháp này tạo ra, những từ khóa giúp phân biệt bài viết “đe dọa” và bài viết “không là mối đe dọa” bao gồm các từ “ngôi sao”, “vệ tinh”, “tôn trọng”, “chủ quyền”, “bảo vệ”… Đặc biệt, “ngôi sao” được gắn nhãn là từ xuất hiện nhiều nhất trong các bài viết đăng tải ngay trước các vụ thử tên lửa. Đây là từ để miêu tả sự tôn kính dành cho cố Chủ tịch Kim Jong-il.
Giáo sư Michael nhận xét: “Thông trường trước và trong các lần thử tên lửa, Triều Tiên sử dụng lối nói khoa trương gắn liền với chính quyền trong nước. Cái bạn đọc được sẽ là ngôn từ mạnh mẽ. Họ muốn khoe về sự lớn mạnh nền văn hóa nước họ, hệ thống vĩ đại. Và một khi cộng đồng quốc tế phản ứng, họ sẽ đáp lại bằng những quan điểm tiêu cực”.
Tuy nhiên, một điểm trừ trong phương thức nghiên cứu của giáo sư Micheal cùng các đồng nghiệp Hàn Quốc là dữ liệu chỉ cập nhật tới năm 2014, trong khi kể từ đó đến nay, Triều Tiên đã thử thêm 3 lần vũ khí hạt nhân khác.