Tiếng Việt, IT ( Information Technology ) Công Nghệ Thông Tin: những Nghiên Cứu Cần Thiết!

Vấn Đề

Tiếng Việt độc âm. Nhưng chữ Việt không độc âm.

Hải đường mơn mởn cành tơ
Hải đường mơn mởn cành tơ

Hai câu thơ bên dưới trong Truyện Kiều, có bao nhiêu âm, và bao nhiêu chữ?

Hải đường mơn mởn cành tơ
Ngày Xuân càng gió càng mưa càng nồng

— Có tổng cộng 14 ( mười bốn ) âm, nhưng chỉ có 12 ( mười hai ) chữ!

Trong các ngôn ngữ Châu Âu, một chuỗi mẫu tự liền nhau, có một khoảng trống ở sau, hoặc khoảng trống ở trước và sau là một chữ. Thí dụ:

I am writing now.

Thì “I“, “am“, “writing” và “now” là chữ.

Vô cùng đơn giản. Tiếng Việt không đơn giản như vậy: đây không phải là đặc điểm của tiếng Việt, một vài ngôn ngữ Á Châu khác cũng có chung điểm này với tiếng Việt.

*
* *

Natural Language Processing ( NLP ) và Computational Linguistics

Có bao giờ quý vị đã thử sử dụng Google để dịch từ tiếng Anh sang tiếng Việt?

— Thường thì trật lất hết!

Trong khi từ tiếng Anh sang các tiếng Âu khác ( hay ngược lại ), tiếng Nhật sang tiếng Anh, tiếng Tàu sang tiếng Anh độ chính xác khá cao.

Trong một cuộc triển lãm máy “vi tính” ( thời đó thì chưa “vi” ) thuộc loại đầu tiên, người ta xiểng dương công dụng “dịch thuật tự động” — họ biểu diễn “dịch” vài câu từ tiếng Anh sang tiếng Nga, và ngược lại.

( Thành thật xin lỗi, vì không dẫn tài liệu chính xác. Tôi đọc hồi 1990s. )

Thật sự đó chỉ là màn biểu diễn bồng bột… Nhưng áp dụng máy vi tính vào “xử lý” ngôn ngữ, theo đà phát triển của máy vi tính đã thành chuyên ngành riêng biệt của khoa học vi tính: Natural Language Processing ( NLP ) và Computational Linguistics.

— Diễn tả sơ lược ở bề mặt thì NLP và Computational Linguistics là sử dụng khoa học vi tính ( máy vi tính ) để phân tích cấu trúc ngữ pháp, đánh vần v.v… và từ đó làm bàn đạp để làm được nhiều việc khác khó hơn. Thí dụ: kiểm tra ngữ pháp, tự động chỉnh sửa chính tả, chữ sang bài đọc tự động hoặc chúng ta đọc tự động sang chữ… và dĩ nhiên dịch thuật tự động hay Machine Translation.

Thập niên 1990s, nghiên cứu về NLP / Computational Linguistics / Machine Translation rất mạnh. Chắc có lẽ đến bây giờ nghiên cứu vẫn chưa ngưng, đặc biệt với những khám phá ngày càng cao của Artificial Intelligence.

Thí dụ: người ta tạo ra một cô Android xinh như mộng và cố gắng cho cô này khả năng đối đáp bằng ngôn ngữ bình thường. Đó là một áp dụng của NLP / Computational Linguistics / Artificial Intelligence.

Thập niên 1990s, trong thư viện của đại học RMIT ( đã có một chi nhánh ở Việt Nam từ lâu ), có gần như nguyên một tầng chỉ chứa sách vỡ về NLP / Computational Linguistics / Machine Translation. Chủ yếu liên quan đến tiếng Anh.

Thời đó, tiếng Tàu, tiếng Nhật, tiếng Ấn cũng đã có những nghiên cứu đáng kể.

Cho nên đừng ngạc nhiên vì sao Google “dịch” tiếng Việt quá tệ: ngay cả một tự điển Anh-Việt online nghiêm chỉnh chúng ta còn chưa có.

*
* *

Trở Lại Vấn Đề của Tiếng Việt

Như đã bàn về phần “âm” và “chữ” ở bên trên, chúng ta có thể thấy, trong một câu tiếng Việt, trước khi phân tích ngữ pháp, chúng ta phải biết đâu là âm đâu là chữ.

— Hình như vì tiếng Việt là ngôn ngữ đầu tiên của chúng ta nên chúng ta phân biệt một cách thật “tự động”?

Nhưng computers ( software của máy vi tính ) thì không! Chúng ta cần phải có những phương pháp để phân tích dẫn đến kết quả chính xác.

Hải đường mơn mởn cành tơ
Ngày Xuân càng gió càng mưa càng nồng

Chúng ta biết được “hải đường” là chữ hai âm, “mơn mởn” là chữ hai âm, còn lại là những chữ độc âm.

— Vấn đề là làm sao để computers “hiểu” được và đưa ra kết quả giống chúng ta!

Không qua được “cửa ải” nhận diện “đâu là chữ” này, thì những phân tích ngữ pháp cần thiết ở độ cao hơn, thí dụ, thành phần ngữ pháp của câu, sẽ không xảy ra được.

Bây giờ, mời quý vị xem ba câu sau:

Ông ấy bà con với tôi.

Bà con đi chợ rồi.

Bà con ơi, xin giữ im lặng.

Hai âm liền nhau “” và “con” trong ba câu, vai trò cấu trúc ngữ pháp có khác nhau không?

Bà con” trong câu đầu và cuối là chữ hai âm. Còn trong câu thứ nhì, là hai chữ độc âm riêng biệt!

Cho nên trong tiếng Việt, vấn đề nhận diện ( biên giới của ) mỗi chữ trong một câu không đơn giản.

*
* *

Nghiên cứu về NLP / Computational Linguistics / Machine Translation áp dụng cho tiếng Việt tôi không tiếp tục.

Sử dụng kiến thức cũ, đưa ra một vài vấn đề ngõ hầu cùng nhau suy gẫm cho một sự khiếm khuyết thua kém của chúng ta.

Chúng ta thua và sau thế giới nhiều quá. Chỉ khi nào chúng ta có một xã hội đàng hoàng, một nền chính trị Tự Do và Công Bằng chúng ta mới có hy vọng phục hưng là cái học của nước nhà. Và sau đó ráng sức đuổi cho kịp thiên hạ.

09/09/2018.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: