Từ Trung Quốc đến Việt Nam: Giọng nói cá nhân có được bảo hộ Sở hữu Trí tuệ?

Giọng nói được sử dụng để giao tiếp, xác minh danh tính, thậm chí là để tạo ra các tác phẩm nghệ thuật. Giọng nói cá nhân là một tài sản vô hình quý giá, mang giá trị cả về mặt cá nhân và thương mại. Tuy nhiên, sự phát triển của công nghệ trí tuệ nhân tạo (Artificial Intelligence – “AI”) cũng đặt ra những câu hỏi mới về việc bảo vệ quyền Sở hữu Trí tuệ (“SHTT”) đối với giọng nói cá nhân. Liệu giọng nói có thể được coi là một dạng tài sản trí tuệ phi truyền thống và được bảo vệ theo luật pháp? Liệu cần có luật pháp mới để bảo vệ giọng nói cá nhân khỏi sự xâm phạm của AI? Làm thế nào để phân biệt giữa việc sử dụng giọng nói hợp pháp và vi phạm?

KENFOX IP & Law Office chia sẻ các thông tin và nhận định liên quan đến vấn đề giọng nói cá nhân trong bối cảnh công nghệ bùng nổ AI như hiện nay để các chủ thể liên quan nhận diện các rủi ro, thách thức và cả cơ hội xung quanh vấn đề giọng nói cá nhân.

1. AI và quyền đối với giọng nói cá nhân: Vụ kiện tại Trung Quốc

Vụ kiện giữa diễn viên lồng tiếng Yin và Beijing Intelligent Technology Company (Công ty Công nghệ Thông minh Bắc Kinh – BCT – Bị đơn 1) là một ví dụ điển hình cho những thách thức liên quan đến giọng nói cá nhân và AI. Trong vụ kiện này, Yin đã kiện BCT vì sử dụng giọng nói của cô trong các sản phẩm AI mà không được phép.

Yin phát hiện ra rằng giọng nói của mình đang được sử dụng trái phép trong một số ứng dụng nổi tiếng, được tạo ra bằng công nghệ AI chuyển văn bản thành giọng nói (Text-To-Speech – TTS). Giọng nói của Yin được sử dụng từ các bản ghi âm trước đây do Beijing Cultural Media Company (Công ty Truyền thông Văn hóa Bắc Kinh – Bị đơn 2) thực hiện, sau đó được cấp phép cho một công ty phần mềm (Bị đơn 3) để xử lý AI và phát triển sản phẩm TTS.

Theo đơn kiện của Yin: Mặc dù BCT có thể sở hữu bản quyền đối với bản ghi âm gốc, việc sử dụng giọng nói của cô cho các sản phẩm AI cần có sự cho phép bổ sung, hành động của BCT đã xâm phạm quyền SHTT và quyền công khai (right of publicity) của cô.

Trong một phán quyết mang tính bước ngoặt, Tòa án Nhân dân Bắc Kinh đã ra phán quyết có lợi cho diễn viên lồng tiếng Yin, buộc (i) BCT và các bị đơn phải ngừng sử dụng giọng nói của Yin trong sản phẩm TTS ngay lập tức. (ii) BCT phải bồi thường cho Yin 250.000 RMB (khoảng 34.500 USD) cho thiệt hại về kinh tế và danh tiếng và (iii) BCT phải công khai xin lỗi Yin vì đã sử dụng giọng nói của cô một cách trái phép.

Mặc dù Tòa án có xem xét Luật SHTT liên quan đến việc sử dụng giọng nói và hình ảnh của một cá nhân trong các sản phẩm thương mại, nhưng dường như không có giải thích nào về việc giọng nói và hình ảnh có được coi là đối tượng bảo hộ của quyền SHTT hay không. Tuy nhiên, xem xét dưới góc độ SHTT, có thể thấy rằng:

[i] Quyền đối với giọng nói: Yin sở hữu quyền đối với giọng nói của mình, được coi là một dạng tài sản phi vật thể và cô có quyền đối với việc sử dụng nó. Việc sử dụng giọng nói của ai đó mà không có sự đồng ý của họ có thể vi phạm quyền sở hữu này. Trong trường hợp này, Yin khẳng định BCT đã sử dụng giọng nói của cô mà không có sự đồng ý, vi phạm quyền SHTT của cô.

[ii] Quyền khai thác tác phẩm: Quyền công khai cho phép cá nhân kiểm soát việc sử dụng hình ảnh, giọng nói và các đặc điểm nhận dạng khác của họ cho mục đích thương mại. Yin đã thu âm giọng nói của mình cho Công ty Truyền thông Văn hóa Bắc Kinh (Bị đơn 2). Bị đơn 2 có bản quyền đối với bản ghi âm, nhưng quyền này không bao gồm quyền sử dụng giọng nói của Yin cho các mục đích khác, chẳng hạn như trong sản phẩm TTS. Việc BCT sử dụng giọng nói của Yin từ bản ghi âm mà không có sự đồng ý của cô có thể vi phạm quyền khai thác tác phẩm của cô đối với bản ghi âm.

Vụ kiện của Yin là một ví dụ điển hình về những thách thức mới trong việc bảo vệ quyền SHTT trong thời đại kỹ thuật số. Việc sử dụng trí tuệ nhân tạo (AI) có thể tạo ra những bản sao chính xác của giọng nói và hình ảnh, dẫn đến nguy cơ vi phạm quyền SHTT cao hơn, đòi hỏi luật pháp và thực tiễn pháp lý phải thích ứng để bảo vệ quyền của họ.

2. Giọng nói cá nhân và cơ chế bảo hộ tại Việt Nam

2.1. Giọng nói cá nhân có thể được pháp luật bảo vệ như thế nào tại Việt Nam?

Trên thực tế, mỗi cá nhân đều có một đặc điểm sinh học duy nhất có thể bao gồm đặc điểm khuôn mặt, ảnh chụp võng mạc, giọng nói, dấu vân tay…Tại Việt Nam, giọng nói của cá nhân được xếp vào nhóm “dữ liệu cá nhân nhạy cảm” theo quy định tại Điều 2.4(đ) Nghị định 13/2023/NĐ-CP về bảo vệ dữ liệu cá nhân. Dữ liệu cá nhân là thông tin dưới dạng ký hiệu, chữ viết, chữ số, hình ảnh, âm thanh hoặc dạng tương tự trên môi trường điện tử gắn liền với một con người cụ thể hoặc giúp xác định một con người cụ thể.

Dữ liệu cá nhân, trong đó có giọng nói được pháp luật bảo vệ trước các hành vi vi phạm và tùy theo mức độ nghiêm trọng của hành vi vi phạm, có thể xử lý bằng biện pháp hành chính, dân sự, hoặc hình sự.

Như vậy, tại Việt Nam, giọng nói cá nhân được xếp vào nhóm các đặc điểm sinh học gắn liền với cá nhân và được bảo vệ theo quy định của pháp luật về bảo vệ dữ liệu cá nhân.

2.2. Có thể bảo vệ giọng nói cá nhân theo quy định về SHTT tại Việt Nam hay không?

Đến thời điểm sửa đổi Luật SHTT lần thứ 3 của Việt Nam vào năm 2022, “dấu hiệu âm thanh được thể hiện dưới dạng đồ họa” (hay nhãn hiệu âm thanh) đã chính thức được bảo hộ. Nhìn chung, nhãn hiệu âm thanh có thể là một đoạn âm thanh, là sự kết hợp từ các loại âm thanh khác nhau như nhạc cụ, giọng hát, tiếng kêu của động vật, tiếng phát ra từ các vật dụng khác… đủ để người tiêu dùng có mức hiểu biết trung bình có thể ghi nhớ và phân biệt được. Câu hỏi đặt ra là liệu giọng nói cá nhân có được bảo hộ theo pháp luật về SHTT của Việt Nam hay không?

Giọng nói cá nhân không được liệt kê là các đối tượng bảo hộ độc quyền như sáng chế, kiểu dáng công nghiệp, nhãn hiệu hay bản quyền theo Điều 3 Luật SHTT Việt Nam cho mục đích bảo hộ độc quyền. Việt Nam cũng chưa thiết lập các cơ chế để đăng ký bảo hộ giọng nói cá nhân. Do vậy, có thể hiểu rằng, giọng nói cá nhân không được pháp luật Việt Nam bảo hộ dưới dạng quyền SHTT.

Tuy nhiên, thực tiễn hiện nay cho thấy rằng, giọng nói cá nhân có thể sử dụng như một phương tiện, công cụ cho mục đích bán các hàng hóa hữu hình hay thúc đẩy khách hàng sử dụng dịch vụ của doanh nghiệp. Ngày nay, với sự phát triển mạnh mẽ của công nghệ, giọng nói được ứng dụng rộng rãi trong nhiều lĩnh vực, từ thương mại, quảng cáo đến giải trí. Giọng nói có thể được sử dụng như một phương tiện hay yếu tố thu hút sự chú ý, truyền tải thông điệp và tạo dựng bản sắc, uy tín, danh tiếng (thương hiệu) cho doanh nghiệp. Và như vậy, giọng nói là công cụ thúc đẩy đẩy thương mại, tác động đến quyết định mua hàng của người tiêu dùng, tăng doanh số bán hàng, tạo lợi thế cạnh tranh trong các hoạt động thương mại và xây dựng thương hiệu hiệu quả. Trong một chừng mực nào đó, dù vấn đề này còn mới và lạ lẫm, giọng nói cũng có thể thực hiện chức năng phân biệt các hàng hóa, dịch vụ cùng loại của các doanh nghiệp khác nhau giống như những loại nhãn hiệu phi truyền thống khác.

Do vậy, với sự phát triển của các loại nhãn hiệu phi truyền thống, việc bảo vệ giọng nói cá nhân như một loại quyền SHTT không phải là không có cơ sở.

2.3. Bảo hộ giọng nói cá nhân như một đối tượng quyền SHTT: Những thách thức nào?

Tuy nhiên, bảo hộ giọng nói cá nhân như một đối tượng quyền SHTT đặt ra không ít thách thức. Giống như các nhãn hiệu phi truyền thống, một loạt các câu hỏi sau đây cần phải trả lời thỏa đáng để đảm bảo sự cân bằng giữa quyền lợi của chủ sở hữu giọng nói và lợi ích chung của cộng đồng (với lưu ý rằng, việc bảo hộ không hạn chế quyền tự do ngôn luận hoặc cản trở sáng tạo nghệ thuật).

Tiêu chí đánh giá tính độc đáo: Giọng nói nào được coi là độc đáo, đủ điều kiện để bảo hộ, mức độ khác biệt so với giọng nói thông thường cần thiết để được bảo hộ là bao nhiêu, các yếu tố nào ảnh hưởng đến tính độc đáo của giọng nói (ngữ điệu, cách phát âm,…) là các vấn đề cần phải xem xét trên cơ sở khoa học.
Phạm vi bảo hộ: Bảo hộ toàn bộ giọng nói hay chỉ những yếu tố cụ thể (cách phát âm, ngữ điệu,…), mức độ bảo hộ cho các phần khác nhau của giọng nói như thế nào, làm thế nào để phân biệt giữa việc sử dụng giọng nói hợp pháp và vi phạm là các câu hỏi để làm rõ phạm vi bảo hộ khi mà giọng nói cá nhân bị nghi ngờ xâm phạm. Nếu không, việc thiết lập cơ chế bảo hộ giọng nói cá nhân như một đối tượng quyền SHTT sẽ chỉ có trên giấy, không có giá trị thực thi.
Quyền lợi của chủ sở hữu: Chủ sở hữu giọng nói được hưởng những quyền lợi gì (sử dụng, chuyển nhượng, cho phép sử dụng,…), làm thế nào để đảm bảo quyền lợi của chủ sở hữu giọng nói được tôn trọng, cơ chế giải quyết tranh chấp khi có vi phạm quyền sở hữu giọng nói như thế nào?
Tác động đến các ngành nghề: Việc bảo hộ giọng nói cá nhân sẽ ảnh hưởng như thế nào đến các ngành nghề sử dụng giọng nói (diễn viên lồng tiếng, ca sĩ,…), làm thế nào để đảm bảo sự cân bằng giữa quyền lợi của chủ sở hữu giọng nói và lợi ích chung của cộng đồng, vì trên thực tế có những người có thể có giọng nói giống nhau. Pháp luật sẽ giải quyết vấn đề này như thế nào?
Vai trò của công nghệ: Công nghệ AI có thể đóng vai trò gì trong việc bảo hộ và quản lý quyền sở hữu giọng nói? Làm thế nào để ứng dụng công nghệ AI một cách hiệu quả và có trách nhiệm trong lĩnh vực này?

2.4. Giọng nói cá nhân: Bảo hộ dưới góc độ SHTT như thế nào?

Mặc dù giọng nói cá nhân chưa được bảo hộ độc lập như một đối tượng quyền SHTT, nhưng trên thực tế, nó có thể được bảo vệ dưới góc độ SHTT. Tuy nhiên, phạm vi bảo hộ và loại hình bảo hộ có thể khác nhau tùy theo quy định của từng quốc gia và bối cảnh cụ thể. Giọng nói cá nhân có thể được bảo hộ theo luật pháp về:

Bản quyền: Nếu giọng nói cá nhân được ghi âm như một phần của một buổi biểu diễn, nó có thể được bảo vệ theo luật bản quyền. Điều này có nghĩa là việc sử dụng bản ghi âm trái phép có thể bị xử lý theo quy định của pháp luật (xem bài viết “AI Voice Cloning and Personality Rights: A New Challenge for the Music Industry”).
Nhãn hiệu: Trong một số trường hợp, giọng nói độc đáo có thể được đăng ký nhãn hiệu dưới dạng “nhãn hiệu âm thanh” (sound mark). Điều này thường áp dụng cho những giọng nói đặc biệt, có tính độc đáo cao và dễ dàng được nhận biết và gắn liền với một thương hiệu hoặc nhân vật cụ thể (xem bài viết “AI Voice Cloning and Personality Rights: A New Challenge for the Music Industry”).
Chống gian lận trí tuệ nhân tạo: Một số quốc gia, để thích ứng với tiến bộ của công nghệ, như Hoa Kỳ đang dự thảo “Đạo luật Chống Gian Lận Trí Tuệ Nhân Tạo” (No AI FRAUD Act) nhằm mục đích thiết lập các quyền SHTT cụ thể cho giọng nói và hình ảnh cá nhân, đặc biệt là để giải quyết các vấn đề liên quan đến bản sao do AI tạo ra. Dự luật này nhằm mục đích quy định về các quyền SHTT đối với giọng nói và hình ảnh của cá nhân, đồng thời đưa ra các biện pháp khắc phục bao gồm cả bồi thường theo quy định của pháp luật và thu hồi lợi nhuận bất chính. (xem bài viết: No AI FRAUD Act Would Create IP Rights to Prevent Voice and Likeness Misappropriation).

Lời kết

Việc bảo vệ giọng nói cá nhân bằng luật bảo vệ dữ liệu cá nhân tại Việt Nam là một bước tiến quan trọng. Tuy nhiên, để đảm bảo sự bảo vệ toàn diện và mang lại nhiều lợi ích hơn cho cá nhân, việc bổ sung quy định bảo hộ giọng nói cá nhân dưới dạng quyền SHTT là cần thiết. Một số quốc gia khác trên thế giới đã công nhận giọng nói cá nhân là một dạng quyền SHTT. Theo xu hướng này, Việt Nam có thể đảm bảo sự phù hợp với luật pháp quốc tế và thúc đẩy hợp tác quốc tế, đặc biệt trong bối cảnh bùng nổ công nghệ AI như hiện nay.

Bảo hộ giọng nói cá nhân dưới dạng SHTT có thể khuyến khích sáng tạo và sử dụng giọng nói một cách độc đáo. Khi giọng nói được bảo vệ về SHTT, các cá nhân sẽ có nhiều khả năng thử nghiệm và sử dụng giọng nói của họ trong các tác phẩm nghệ thuật, âm nhạc và các hình thức biểu đạt khác. Chính đều này có thể thúc đẩy sự phát triển của các ngành công nghiệp sáng tạo dựa trên giọng nói, chẳng hạn như công nghệ nhận dạng giọng nói, ứng dụng trợ lý ảo và sản xuất âm thanh.

Nguyễn Vũ Quân | Partner, IP Attorney

Đỗ Thị Phấn | Special Counsel

Hoàng Thị Tuyết Hồng | Senior Trademark Attorney

Đọc thêm: