Administrator . 24-09-2025, 10:23 PM
Trong bài báo này, chúng tôi đề xuất một công cụ mô phỏng phi công ảo mới nhằm tăng tốc quá trình đào tạo kiểm soát viên không lưu (ATCo) thông qua việc tích hợp các công cụ trí tuệ nhân tạo (AI) tiên tiến. Công cụ mô phỏng phi công ảo này tiếp nhận các trao đổi bằng lời nói từ học viên ATCo và thực hiện nhận dạng cũng như hiểu ngữ nghĩa của thông tin đó. Như vậy, hệ thống không chỉ dừng lại ở việc chuyển giọng nói thành văn bản, mà còn có thể hiểu được ý nghĩa nội dung giao tiếp.
Kết quả sau đó được chuyển tới hệ thống sinh phản hồi, mô phỏng lời “read-back” bằng giọng nói mà phi công sẽ đáp lại cho học viên ATCo.
Chuỗi xử lý tổng thể bao gồm các mô-đun con sau:
Hệ thống nhận dạng giọng nói tự động (ASR) – chuyển đổi âm thanh thành chuỗi từ.
Bộ phân tích thực thể cấp cao liên quan đến không lưu (ATC entity parser) – hiểu ngữ nghĩa từ văn bản đã được nhận dạng.
Mô-đun chuyển văn bản thành giọng nói (Text-to-Speech) – sinh ra câu trả lời bằng giọng nói giống như một phi công trong ngữ cảnh hội thoại.
Hệ thống của chúng tôi sử dụng các công cụ AI tiên tiến như Wav2Vec 2.0, Conformer, BERT và Tacotron. Theo hiểu biết của chúng tôi, đây là công trình đầu tiên được xây dựng hoàn toàn trên cơ sở tài nguyên ATC mã nguồn mở và các công cụ AI.
Ngoài ra, chúng tôi đã phát triển một hệ thống mạnh mẽ và có tính mô-đun, với các mô-đun tùy chọn có thể tăng cường hiệu suất bằng cách tích hợp dữ liệu giám sát thời gian thực, siêu dữ liệu liên quan đến bài tập (ví dụ: khu vực, đường cất hạ cánh), hoặc thậm chí cố ý tạo lỗi read-back để rèn luyện học viên ATCo nhận biết và xử lý.
Hệ thống ASR của chúng tôi có thể đạt tỷ lệ lỗi từ (WER) thấp tới 5,5% trên âm thanh ATC chất lượng cao và 15,9% trên âm thanh chất lượng thấp. Chúng tôi cũng chứng minh rằng việc bổ sung dữ liệu giám sát vào hệ thống ASR có thể giúp đạt độ chính xác nhận dạng callsign hơn 96%.