Lab Report #5: Nguồn gốc MP3 và pha thoát pressing ấn tượng nhất lịch sử cuộc chiến định dạng
Câu chuyện về nhóm nghiên cứu người Đức phát triển MP3 và chiến thắng ngoạn mục của họ trước tập đoàn công nghệ sừng sỏ
Mùa xuân năm 1995, một nhóm các chuyên gia hàng đầu trong lĩnh vực âm thanh đã nhóm họp tại Erlangen, Đức để cùng đưa ra một quyết định quan trọng: chọn ra định dạng tiêu chuẩn của nhạc số.
Như chúng ta đều biết, MP3 là định dạng được lựa chọn. Và trong suốt hơn 20 năm sau đó, MP3 vẫn là chuẩn định dạng dùng để nén âm thanh phổ biến nhất và gần như trở thành một khái niệm được sử dụng để chỉ thay cho âm nhạc.
Tuy nhiên, bạn sẽ nghĩ sao nếu vừa rồi chỉ là những chi tiết được chính mình bịa ra? Trên thực tế, định dạng được lựa chọn hôm đó lại là một cái tên có phần xa lạ: MP2. Đúng vậy. Trong cuộc họp đó, các chuyên gia đen từ Hiệp hội về Hình ảnh động (Moving Picture Expert Group - hay MPEG), đã quyết định chọn MP2 là chuẩn định dạng duy nhất. Đồng nghĩa với việc các định dạng khác, bao gồm cả MP3, chính thức bị khai tử.
Ấy vậy, vì sao phần lớn chúng ta lại cảm thấy xa lạ với định dạng MP2 trong khi MP3 - một định dạng đáng lẽ ra không thể tồn tại - lại trở nên phổ biến đến vậy?
Để tìm kiếm lời giải cho thắc mắc này, chúng ta sẽ cần tìm hiểu về một trong những những “Cuộc chiến Định dạng” (hay “Format War”) nổi tiếng bậc nhất trong lịch sử công nghệ. Đây là câu chuyện về cách mà chàng trai David đánh bại gã khổng lồ Goliath, khi một nhóm các học giả đến từ một viện nghiên cứu nhỏ đã vượt qua vô vàn các thử thách để giành chiến thắng trước một tập đoàn công nghệ hùng mạnh và trực tiếp thay đổi hoàn toàn lịch sử của ngành công nghiệp âm nhạc. Và điểm khởi nguồn cho câu chuyện này bắt đầu từ hành trình của một người đàn ông người Đức có tên là Karlheinz Brandenburg - hay còn được biết đến là “cha đẻ của MP3”
Tổng quan
Khi hạn chế của tai người lại mang đến đột phá cho công nghệ nén âm thanh
Gia nhập Viện Fraunhofer để phát triển công nghệ MP3 dựa trên bài nghiên cứu cao học
Khi công nghệ nén âm thanh còn là sân chơi của những ông lớn công nghệ
Cuộc chiến định dạng và những thất bại liên tiếp của MP3 trước MP2
Karlheinz Brandenburg là ai?
Karlheinz Brandenburg sinh ngày 20/06/1954 tại thành phố Erlangen, xứ Bavaria nước Đức. Ông tốt nghiệp bậc cử nhân (song bằng Kỹ sư Điện và Toán) tại Đại học Erlangen và tiếp tục học thẳng bậc tiến sĩ chuyên ngành Kỹ sư Điện.
Cũng chính thời gian này. Brandenburg bắt đầu bén duyên với công nghệ xử lý âm thanh khi làm đề tài nghiên cứu dưới sự chỉ dẫn của Giáo sư Dieter Seitzer, một chuyên gia đầu ngành trong lĩnh vực tâm thính học (psychoacoustic). Seitzer và nhóm nghiên cứu của ông ngay từ đầu những năm 1980 đã tìm hiểu và phát triển thiết bị phát nhạc kỹ thuật số (“digital jukebox"), một hệ thống cho phép nhạc trực tiếp (stream) đến người dùng thông qua đường dây điện thoại chuẩn ISDN - ý tưởng gần giống những gì Spotify hiện thực hoá gần 30 năm sau này.
Tuy nhiên, thời bấy giờ, việc sản xuất một thiết bị như vậy là bất khả thi. Dung lượng băng thông của hệ thống ISDN còn quá hạn chế so với các bản nhạc được thu lại bằng đĩa CD. Ý tưởng này chỉ có thể được thực hiện nếu dung lượng của một bản nhạc có thể giảm xuống hơn 12 lần. Trọng trách nghiên cứu phát triển công nghệ giúp làm giảm dung lượng của tệp âm thanh này được Seitzer giao cho chính Brandenburg.
Khi hạn chế của tai người lại mang đến đột phá cho công nghệ nén âm thanh
Việc nghiên cứu dưới sự dìu dắt của Seitzer là một may mắn của Brandenburg, bởi vị giáo sư này chính là một trong những học trò xuất sắc nhất của Eberhard Zwicker , cha đẻ của tâm thính học (pyschoacoustic) - lĩnh vực nghiên cứu chuyên sâu về phương thức con người nhận biết âm thanh. Quá trình tìm đọc các nghiên cứu của Zwicker đã mang đến cho Brandenburg một góc nhìn thú vị: thính giác của con người có rất nhiều điểm hạn chế. Do đó, ông nhận ra rằng mình có thể loại bỏ phần lớn các dữ liệu âm thanh được lưu trữ trong đĩa CD mà không hề làm ảnh hưởng tới nhận thức của người nghe. Hay chính xác hơn hơn, bản chất chính hệ thống thính giác của con người đã tự loại bỏ đi những dữ liệu này.
Vận dụng phát hiện này, Brandenburg xây dựng một thuật toán giúp phát hiện và loại bỏ đi những dữ liệu không cần thiết, dựa trên bốn nguyên lý thính học của Zwicker, bao gồm:
1. Thính giác của con người chỉ có thể nhận biết được âm thanh trong một dải tần số nhất định
Nguyên lý: Khi tần số âm thanh các cao (hoặc càng thấp) thì khả năng nhận biết âm thanh của chúng ta sẽ suy giảm đến mức không thể nghe được gì.
Ứng dụng: Có thể loại bỏ phần lớn dữ liệu từ các tần số gần hai đầu cực
2. Các âm thanh có gần cao độ có xu hướng triệt tiêu lẫn nhau.
Nguyên lý: âm thanh có tông trầm sẽ lấn át các tông cao.
Ứng dụng: khi tín hiệu có đồng thời âm thanh tông cao (v.d. violin) và tông trầm (v.d. cello), có thể loại bỏ nhiều dữ liệu từ âm thanh tông cao hơn.
3. Xu hướng triệt tiêu tiếng ồn ngay SAU tiếng động lớn
Ứng dụng: Có thể loại bỏ nhiều dữ liệu hơn khoảng vài mili giây sau mỗi tiếng động lớn.
4. Xu hướng triệt tiêu tiếng ồn ngay TRƯỚC tiếng động lớn
Ứng dụng: Có thể loại bỏ nhiều dữ liệu hơn khoảng vài mili giây trước mỗi tiếng động lớn.
Một đột phá khác của Brandenburg là khi ông nhận ra rằng mình có thể lặp lại quy trình này - xử lý dữ liệu qua thuật toán để loại bỏ những thông tin không cần thiết - nhiều lần liên tiếp cho tới khi dung lượng được giảm tối đa mà vẫn không làm cho người nghe nhận ra được sự suy giảm về chất lượng âm thanh.
Việc ứng dụng các kiến thức tâm thính học của Zwicker mang lại hiệu quả lớn trong việc xử lý các tín hiệu âm thanh phức tạp (tổng hoà của nhiều nhạc cụ). Tuy nhiên, cách tiếp cận lại này lại không thật sự phù hợp với các âm thanh một màu, đơn giản và có xu hướng lặp đi lặp lại (v.d. tiếng đàn violin). Do đó, với các tín hiệu này, Brandenburg lại lựa chọn áp dụng một thuật toán khác có tên là “Mã hoá Huffman” (“Huffman Coding”) - thuật toán nén dữ liệu được nhà khoa học máy tính David Huffman phát triển tại MIT từ những năm 1950 . Thuật toán này hoạt động dựa trên một nguyên tắc đó là mã hoá thông tin dựa trên các mô hình (model) và quy luật chung (pattern).
Giả dụ, để lưu trữ một dãy chữ “AAABBC”, chúng ta có hai lựa chọn. Thứ nhất, cách lưu chữ căn bản nhất là ghi lại đầy đủ 3 chữ a, 2 chữ b, và 1 chữ c (mỗi chữ sẽ được ghi lại bằng 8 dãy kí tự được tạo nên bởi 0 và 1 - hay còn gọi là 8 bit). Như vậy, chúng ta sẽ cần tối thiểu (8 x 3) + (8 x 2) + 8 = 48 kí tự để lưu trữ theo cách này. Tuy nhiên, với cách thứ hai (áp dụng “Mã hoá Huffman”), ta chỉ cần ghi chú lại rằng chữ A xuất hiện 3 lần, chữ B 2 lần, và chữ C 1 lần. Và như vậy, chúng ta sẽ chỉ cần sử dụng một dãy kí tự để ghi lại mối liên hệ giữa từng chữ và số lần chúng xuất hiện, thay vì phải dùng đến đủ 48 kí tự.
Bằng việc kết hợp kiến thức (1) tâm thính học cho các âm thanh phức tạp và (2) mã hoá Huffman cho các âm thanh nguyên bản, thuật toán của Brandenburg cho phép giảm dung lượng xuống chỉ còn 1/12 so với dữ liệu ban đầu. Giữa năm 1986, Brandenburg thậm chí đã phát triển một phần mềm giúp chứng minh được tính thực tiễn của thuật toán này. Khi ấy, ông mới chỉ 31 tuổi!
Gia nhập Viện Fraunhofer để phát triển công nghệ MP3 dựa trên bài nghiên cứu cao học
Chứng kiến những bước tiến lớn của Brandenburg trong quá trình nghiên cứu, Seitzer vận động cậu học trò ưu tú gia nhập Viện Nghiên cứu Fraunhofer, một vườn ươm doanh nghiệp công nghệ (incubator) mà chính ông trực tiếp tham gia điều hành.
Đây là một nhánh nhỏ trực thuộc Hiệp hội Fraunhofer, một tổ chức nghiên cứu quốc doanh của Đức, chuyên đầu tư vào những công nghệ tân tiến và có tiềm năng thương mại lớn. Việc gia nhập Viện Fraunhofer mang đến cho Brandenburg cơ hội tiếp cận các trang thiết bị hiện đại, cùng đội ngũ kỹ sư và các nhà nghiên cứu xuất sắc.
Đội ngũ ban đầu tham gia cùng Brandenburg tại Viện Fraunhofer bao gồm Heinz Gerhäuser (trưởng nhóm nghiên cứu), Harald Popp (chuyên gia phần cứng), Ernst Eberlein (chuyên gia xử lý tín hiệu), Bernhard Grill (lập trình viên), và Jürgen Herre (nghiên cứu sinh). Cũng chính đội ngũ 6 người này về sau sẽ được thừa nhận như là những người phát minh ra định dạng MP3.

Bắt đầu từ năm 1987, đội ngũ 6 người này bắt tay vào việc phát triển một sản phẩm thương mại dựa trên thuật toán của Brandenburg. Họ nhìn thấy 2 hướng đi tiềm năng cho sản phẩm này. Thứ nhất, thuật toán nén dữ liệu của Brandenburg có thể được sử dụng để truyền tải nhạc trực tiếp - đúng như những gì mà Seitzer hằng theo đuổi. Thứ hai, công nghệ này có thể được ứng dụng trong việc lưu trữ những tệp nhạc có thể phát lại và lưu trữ trực tiếp trên máy tính cá nhân. Cả hai sản phẩm này đều có chung một yêu cầu: tạo ra một tệp tin nhỏ nhất mà vẫn đảm bảo chất lượng không đổi
Mới đầu, chất lượng âm thanh sau khi được nén bằng thuật toán còn khá nhiều hạn chế: khi đục, khi rè, khi lại quá vang. Để cải thiện chất lượng, nhóm nghiên cứu phải liên tục xử lý một đoạn nhạc nhiều lần bằng thuật toán. Mỗi khi ghi nhận bất kỳ sự thay đổi nào về chất lượng so với đoạn nhạc gốc, họ lại tinh chỉnh thuật toán và thử lại. Quy trình này được nhóm nghiên cứu lặp đi lặp lại hàng trăm lần.
Bên cạnh đó, quá trình này còn đòi hỏi nhóm nghiên cứu xử lý một thư viện âm thanh khổng lồ, bao gồm các bản nhạc từ nhiều thể loại và cả các âm thanh quái dị (tiếng người nói nhanh, nói lắp, hay tiếng động cơ máy bay phản lực). Trong đội ngũ của Viện Fraunhofer, Bernhard Grill, lập trình viên khi đó mới 26 tuổi, là người hào hứng với nhiệm vụ này hơn cả. Vốn là một người mê nhạc nhiệt thành, cộng thêm năng khiếu đặc biệt trong việc nhận biết sự thay đổi của âm thanh, Grill đóng vai trò đặc biệt quan trọng trong suốt quá trình thử nghiệm và đánh giá vô cùng tốn thời gian này.
Những nỗ lực không biết mệt mỏi này đã giúp nhóm nghiên cứu đạt được nhiều bước tiến lớn với thuật toán nén. Tuy nhiên, việc đảm bảo chất lượng giọng hát của ca sĩ sau khi được xử lý vẫn là một thách thức lớn. Thời bấy giờ, công nghệ mã hoá giọng nói đã khá phát triển. Tuy nhiên, khi kết hợp cùng với thuật toán nén của Brandenburg lại cho ra kết quả rất tệ.
Một ngày nọ, Brandenburg tình cờ đọc được một bài báo viết về việc các chuyên gia sử dụng bài hát Tóm Diner của Suzanne Vega trong quá trình kiểm âm loa. Ông liền quyết định sử dụng chính bài hát này để làm thước đo đánh giá thuật toán mà đội ngũ của mình đã phát triển. Khi hồi tưởng lại về nghĩ nghiệm này, Brandenburg từng chia sẻ: “Việc sử dụng bài hát Tom's Diner đánh dấu một dấu mốc quan trọng trong sự phát triển của MP3, vì bản nhạc này nghe quá khủng khiếp khi được chúng tôi (nhóm nghiên cứu) mã hoá lần đầu tiên”

Và kể từ đó, công cuộc “hồi sinh cho giọng hát của Vega" trở thành một nhiệm vụ tối quan trọng với nhóm nghiên cứu của Viện Fraunhofer. Cùng thời gian này, năm 1989, Brandenburg bắt đầu hợp tác với Jim Johnston, một chuyên gia về mã hoá giọng nói đến từ Phòng Thí nghiệm Bell (Bell's Lab) của AT&T. Họ cùng nhau hoàn thiện thuật toán bằng cách thực hiện vô vàn các bài kiểm tra nghe. Sự kết hợp này đã mang đến nhiều đột phá và đến đầu năm 1990, Brandenburg gần như đã có một sản phẩm hoàn thiện. Các bản nhạc sau khi được xử lý trở nên “trong” và giống bản gốc đến nỗi đôi tai tinh tường của Grill cũng không thể phân biệt được. Và cũng từ đó, chiến dịch “giải cứu giọng hát của Vega" đã hái được quả ngọt. Sản phẩm của Brandenburg cùng các cộng sự - công nghệ nén âm thanh - cũng chính thức được hoàn thiện
Khi công nghệ nén âm thanh còn là sân chơi của những ông lớn công nghệ
Tuy nhiên, Viện Fraunhofer không phải là nơi duy nhất trên thế giới lúc bấy giờ quan tâm tới công nghệ nén và mã hoá âm thanh.
Các nhóm nghiên cứu từ Châu Âu, Nhật Bản, hay Mỹ cũng quan tâm đến công nghệ này và nhận được cả sự hậu thuẫn mạnh mẽ đến từ các tập đoàn công nghệ.
Năm 1988, Tổ chức Tiêu chuẩn hoá Quốc tế (International Organization for Standardization - gọi tắt là ISO) đã đứng ra kêu gọi việc xây dựng các tiêu chuẩn chung cho công nghệ mã hoá âm thanh. Một thời gian ngắn sau, cũng chính họ đã trực tiếp dựng lên một tổ chức toàn cầu có khả năng dẫn dắt và quản lý công nghệ này, đặt tên là Hiệp hội Chuyên về Ảnh Động (Moving Picture Expert Group), gọi tắt là MPEG.

Tháng 6/1990, tại Stockholm, Thuỵ Điển, MPEG tổ chức một cuộc thi chính thức nhằm đánh giá và lựa chọn công nghệ tiêu chuẩn để ứng dụng cho việc mã hoá và nén âm thanh. 14 tổ chức và nhóm nghiên cứu đã đăng ký tham gia, bao gồm cả Viện Fraunhofer.
Cuộc thi bao gồm 10 bài kiểm tra nghe dựa trên các tệp âm thanh vô cùng đa dạng, bao gồm: (1) phần solo saxophone của Ornette Coleman, (2) ca khúc “Fast Car" của Tracy Chapman, (3) một đoạn solo trumpet, (4) tiếng đàn glockenspiel, (5) một đoạn thu âm tiếng pháo hoa, (6 + 7) 2 đoạn solo bass, (8) 10 giây đoạn thu tiếng phách castanet, (9) một trích đoạn bản tin, và (10) bài hát Tom's Diner của Suzanne Vega. Đội ngũ giám khảo, bao gồm phần lớn là các sinh viên cao học từ Thụy Điển, sẽ đánh giá các đội thi dựa trên chất lượng âm thanh sau khi được mã hoá.
Trước cuộc thi, Brandenburg đã nghĩ về một chiến thắng áp đảo cho Viện Fraunhofer. Ông hiểu rằng việc nắm trong tay những nghiên cứu về tâm thính học của Zwicker, vốn vẫn chưa được dịch từ tiếng Đức sang các ngôn ngữ khác, là một lợi thế quá lớn giúp cho công nghệ của Viện vượt xa các đối thủ.
Mọi thứ diễn ra đúng như những gì Brandenburg đã dự đoán. Nhưng chỉ một nửa. Kết quả: có tới 2 nhóm cùng giành chiến thắng trong cuộc thi tại Stockholm năm ấy, đó là Viện Fraunhofer và một nhóm nghiên cứu khác có tên MUSICAM. MUSICAM là một tổ chức tập hợp các nhà nghiên cứu đến từ bốn trường đại học tại Châu Âu và có quan hệ mật thiết với Philips - tập đoàn công nghệ đến từ Hà Lan, vốn là chủ sở hữu bằng sáng chế đĩa CD và là cái tên có tiếng trong lĩnh vực mã hoá âm thanh. Một điều đặc biệt nữa là trong hàng ngũ của MUSICAM cũng có một số nhà nghiên cứu người Đức. Brandenburg tin rằng đây không phải là một sự tình cờ: có lẽ chính họ đã giúp MUSICAM tiếp cận những nghiên cứu của Zwicker.

Việc có tới hai công trình nghiên cứu giành chiến thắng là điều mà MPEG không hề dự trù trước. Mỗi công trình lại có những lợi thế riêng. Với Viện Fraunhofer, đó là khả năng tạo ra các tệp âm thanh có chất lượng vượt trội với dung lượng đặc biệt nhỏ. Còn với MUSICAM, thuật toán của họ lại có thể chạy tốt mà không cần yêu cầu quá nhiều về phần cứng và bộ xử lý. Cuối cùng, MPEG đưa ra một đề xuất. Họ sẽ phê chuẩn tính chính thống của nhiều chuẩn định dạng, bao gồm cả công trình của Viện Fraunhofer. Tuy nhiên, với điều kiện là họ phải tích hợp Dãy bộ lọc (Filter Bank) của MUSICAM - công nghệ giúp phân loại âm thanh thành các dải tần số khác nhau.
Đây quả thực là một yêu cầu vô cùng tréo ngoe khi bản thân Viện Fraunhofer đã phát triển và tối ưu bộ lọc dành riêng cho thuật toán của mình. Việc chuyển sang sử dụng dãy bộ lọc của MUSICAM sẽ chỉ làm cho thuật toán của họ thêm phần phức tạp, mất thêm thời gian để tích hợp, trong khi không đem lại hiệu quả gì. Tệ hơn, chính Phillips lại là chủ sở hữu bằng sáng chế cho Dãy bộ lọc này, đồng nghĩa rằng Viện Fraunhofer sẽ phải chia sẻ một lần lợi nhuận cho chính đối thủ lớn nhất của mình. Thoạt nghe thì có vẻ là một lời đề nghị, nhưng thực chất nhóm của Brandenburg không có quyền lựa chọn. Thuận theo yêu cầu vô lí này của MPEG (hay có thể là chính MUSICAM giật dây đằng sau) là giải pháp duy nhất để Brandenburg có thể thương mại hoá công trình nghiên cứu của mình và các cộng sự.
Tháng 4/1991, MPEG đưa ra thông cáo chính thức: trong số 14 công trình nghiên cứu, họ đã chọn ra được ba định dạng chuẩn hoá:
Moving Picture Expert Group, Audio Layer I - sẽ được ứng dụng vào việc mã hoá tín hiệu của các băng cassette kỹ thuật số.
Moving Picture Expert Group, Audio Layer II (hay MP2) - công trình của MUSICAM
Moving Picture Expert Group, Audio Layer II (hay MP3) - công trình của Viện Fraunhofer
Cuộc chiến định dạng và những thất bại liên tiếp của MP3 trước MP2
“Cuộc chiến định dạng”, hay “format war”, là hiện tượng diễn ra khi có hai (hoặc nhiều hơn) công nghệ được phát triển riêng biệt cùng tranh giành thị phần với nhau cho tới khi một bên giành được thế độc tôn và được thừa nhận làm tiêu chuẩn chung cho cả thị trường.
Còn nhớ, MPEG được thành lập với mục đích đánh giá và lựa ra là một tiêu chuẩn chung giúp các nhà sản xuất trên thị trường có thể tập trung vào việc phát triển sản phẩm dựa trên một chuẩn công nghệ duy nhất, mang tính đồng bộ cao. Ấy vậy mà MPEG cuối cùng lại chọn ra tới 3 định dạng khác nhau. Quyết định kỳ quặc này đã chính thức khơi mào nên một cuộc chiến định dạng mới trong lĩnh vực nhạc số, với 2 nhân vật chính là MUSICAM (MP2) và Viện Fraunhofer (MP3).
Lịch sử của các cuộc chiến định dạng trước đây đã cho thấy một quy luật bất thành văn rằng kẻ thắng cuộc chưa chắc đã phải là kẻ xuất sắc nhất, mà là kẻ cao tay và có tiềm lực nhất.
Khi đặt lên bàn cân so sánh, MUSICAM và Viện Fraunhofer như hai bức tranh đối lập. Nếu như Viện Fraunhofer là tập hợp của những sinh viên cao học thiếu kinh nghiệm thương trường, thì MUSICAM thực chất lại là một nhánh con của tập đoàn Philips, giàu cả về tiềm lực dẫn danh tiếng. Phillips của thập niên 90 là một con ngáo ộp trong giới âm nhạc khi họ là chủ sở hữu bằng sáng chế đĩa CD. Mặc dù vẫn còn đang trực tiếp thu nguồn lợi nhuận khổng lồ từ công nghệ đĩa CD, tập đoàn đến từ Hà Lan này đã sớm nhìn ra viễn cảnh tương lai khi mà công nghệ này có thể bị thay thế bởi nhạc số. Do đó, đầu tư vào các nghiên cứu của MUSICAM là một mục tiêu chiến lược của Philips, hòng duy trì vị thế độc tôn của họ trong kỉ nguyên công nghệ mới này.
Liên tiếp 3-4 năm sau đó, MP3 và MP2 cùng tham gia cả thảy 5 cuộc thi khác nhau, nhằm trở thành định dạng tiêu chuẩn cho sóng Radio FM, đĩa CD-ROM, hay đĩa Video CD (tiền thân của DVD). Kết quả: MP3 đều trắng tay trước MP2 trong tất cả các cuộc thi này.
Không đơn thuần chỉ là một thuyết âm mưu, Brandenburg (nay đã trở thành Giám đốc của Viện Fraunhofer) cùng các cộng sự tin rằng đã có sự tác động từ Philips lên các cuộc thi trên. Cùng thời gian này, cả nhóm ngày càng nhận được nhiều lời phê bình, chủ yếu là những ý kiến, hoài nghi về sự phức tạp của MP3 cũng như việc đòi hỏi quá nhiều về phần cứng để có thể xử lý được định dạng này. Tuy nhiên, những hạn chế này thực chất đều bắt nguồn từ việc phải tích hợp Dãy bộ lọc của MUSICAM, thay vì sử dụng công nghệ riêng được chính Viện Fraunhofer phát triển và tối ưu.
Oái oăm thay, Viện Fraunhofer đã bị Philips lừa vận một bộ trang phục xấu xí, để rồi lại bị chính họ chế giễu sau lưng.
Không nản chí, mùa xuân năm 1995, Brandenburg tiếp tục đăng ký tham dự sự kiện của MPEG nhằm lựa chọn định dạng tiêu chuẩn cho Radio tại Châu Âu. Đây là một dịp đặc biệt ý nghĩa vì sự kiện được tổ chức tại chính Erlangen, sân nhà của Viện Fraunhofer. Hơn nữa, nguồn thu từ việc được lựa chọn trong cuộc thi này có thể giúp duy trì hoạt động của Viện Fraunhofer, và nhất là giúp Brandenburg giữ chân những người cộng sự cần mẫn đã cùng ông phát triển công nghệ này nhiều năm qua.
Điều đáng buồn là kết quả vẫn không có gì thay đổi. Một đại diện của Philips còn thẳng thừng “Các vị, làm ơn đừng làm xáo trộn hệ thống ổn định mà chúng ta đang có thêm nữa”. Gần như cũng chỉ cần có vậy, một quyết định chính thức đã được MPEG thông qua khi đại đa số các thành viên biểu quyết loại bỏ hoàn toàn MP3. Quyết định chính thức đánh dấu chấm hết cho hành trình hơn 7 năm phát triển của MP3. Còn với MPEG, họ cũng đã có cho mình một định dạng chuẩn chung duy nhất, và loại bỏ được cái gai MP3 trong mắt.
Tỉ số: MP2 7 - MP3 0
Hành trình tự cứu MP3 của Brandenburg và Viện Fraunhofer
Vượt qua sự thất vọng khi bị MPEG ghẻ lạnh, Brandenburg cùng các cộng sự tích cực tham dự các hội chợ thương mại về công nghệ trên khắp nước Mỹ và các nước Châu Âu nhằm tìm kiếm các đối tác tiềm năng cho đứa con tinh thần của mình. Sau một loạt thất bại, vận may chỉ bắt đầu đến khi Brandenburg gặp Steve Church - CEO của một startup tên là Telos System - tại một sự kiện.
Church, vốn là một cựu dẫn chương trình radio, đã sớm nhìn thấy tiềm năng thương mại từ việc cải thiện chất lượng truyền tải âm thanh. Giống như Brandenburg, Church từ lâu đã mất niềm tin vào MPEG. Ông tin rằng cơ quan này bị phân tâm bởi quá nhiều yếu tố thay vì tập trung vào yếu tố quan trọng tiên quyết à chất lượng âm thanh. Do đó, vị CEO này quyết định tự thực hiện một bài kiểm tra nghe giữa MP3 và MP2 nhằm lựa chọn ra một định dạng tối ưu để sử dụng cho sản phẩm của mình.
“Rõ ràng là chất lượng âm thanh của MP3 hay hơn rất nhiều mà!” - Church nhận xét sau bài kiểm tra, và lập tức đặt mua vài trăm chiếc máy Zephyr - thiết bị chuyển đổi và truyền tải tín hiệu MP3 thời gian thực của Viện Fraunhofer. Ông sau đó đem chính những thiết bị này cho khách hàng lớn nhất của Telos System - Liên đoàn Khúc côn cầu Hoa Kỳ - thuê lại. Telos từ đó trở thành vị khách hàng doanh nghiệp đầu tiên (và cũng là duy nhất trong một thời gian) của Brandenburg.
Thoả thuật với Telos System là một dấu son quan trọng của Viện Fraunhofer. Chỉ trong một thời gian ngắn, những chiếc máy Zephyr đã xuất hiện ở gần hết các sân vận động khúc côn cầu lớn nhỏ trên toàn Bắc Mỹ. Doanh thủ của Telos System cũng nhờ đó mà tăng lên gấp 4 lần. Mặc dù vậy, theo thoả thuận, Viện Fraunhofer chỉ được chia sẻ doanh thu tính trên mỗi thiết bị bán được, trong khi số lượng sân vận động khúc côn cầu lại có hạn. Do đó, Brandenburg và các cộng sự chỉ được hưởng một phần nhỏ lợi nhuận từ sự thành công này. Tuy nhiên, chính trải nghiệm đã giúp Brandenburg tìm ra hướng đi cho MP3: bán bản quyền sử dụng MP3 đến nhiều người nhất có thể.
May mắn cho Brandenburg là cùng thời gian này, các thiết bị máy tính cá nhân bắt đầu trở nên phổ biến phổ biến và có giá thành ngày càng phải chăng. Ông tin rằng lượng người dùng đông đảo này sẽ là tập khách hàng tiềm năng của MP3. Với mục tiêu này, bắt đầu từ đầu năm 1994, Brandenburg đã giao cho Grill một nhiệm vụ quan trọng: phát triển một phần mềm trên PC có khả năng mã hoá và chơi nhạc bằng các tệp tin MP3. Grill nhanh chóng hoàn thành phần mềm này chỉ sau vài tháng và đặt tên là “Máy mã hoá cấp độ 3” (Level 3 Encoder, hay viết tắt là “L3Enc").
L3Enc có dung lượng vừa đủ một đĩa mềm (floppy disk). Sản phẩm này đánh dấu một hướng đi mới của MP3: trở thành một công nghệ phổ biến với đại chúng. Qua đó, đích thân người dùng có thể tự mã hoá, sản xuất các tệp mp3 của riêng mình để sử dụng trên các thiết bị cá nhân và chia sẻ với nhau. Để quảng bá phần mềm này đến nhiều người nhất có thể, từ cuối năm 1994 và đầu năm 1995, các thành viên của Viện Fraunhofer đã in phần mềm này ra các đĩa mềm để chia sẻ với bạn bè, gia đình, người thân, đồng nghiệp hay thậm chí cả các đối thủ cạnh tranh trực tiếp.
Cũng trong thời gian này, Grill được giao nhiệm vụ phát triển một phần mềm chơi nhạc định dạng mp3 (MP3 media player) trên hệ điều hành Windows 95. Chỉ trong một tháng, Grill đã một tay hoàn thành một phần mềm mang tên WinPlay3.
Công đoạn cuối cùng mà đội ngũ phát triển cần làm đó là chọn tên cho đuôi định dạng. Microsoft yêu cầu các tệp tin trên Windows 95 đều phải đi kèm 3 ký tự ở đuôi để chỉ định dạng - cũng chính là nguyên do dẫn đến một số cái tên khá kì quặc như “.jpg” (Joint Photographic Experts Group) hay “.gif”—Graphics Interchange Format. Nhóm đội ngũ đã có một số trao đổi về việc chọn về việc chọn một cái tên dễ nhớ và bớt tối nghĩa hơn Moving Picture Experts Group, Audio Layer III. Nhưng cuối cùng, họ vẫn quyết định giữ gìn lại bản sắc của mình và chọn đuôi định dạng là mp3. Một quyết định chung đã được đưa ra vào ngày 14/7/1995, và từ đó đây cũng trở thành ngày sinh nhật không chính thức của MP3.
Tuy nhiên, Viện Fraunhofer cũng không thề ngờ rằng về sau đây lại là một quyết định vô cùng sáng suốt. Chỉ một thời gian ngắn sau, nhóm nghiên cứu phát hiện ra rằng MUSICAM cũng đang phát triển công nghệ mã hoá tương thích với hệ điều hành Windows, sử dụng đuôi định dạng MP2. Viện Fraunhofer nhờ đó mà lại vô tình hưởng lợi từ quyết định này. Mặc dù hai công nghệ được phát triển cùng thời, nhưng việc lựa chọn cái tên này dễ khiến nhiều người lầm tưởng rằng MP3 là phiên bản mới và cao cấp hơn của chính MP2.
Mặc dù là 2 công nghệ được phát triển cùng thời, nhiều người lại nhầm tưởng rằng MP3 là phiên bản cao cấp hơn của MP2
Và như vậy, mọi công đoạn chuẩn bị cho WinPlay3 đã hoàn tất. Sản phẩm hoàn thiện có khả năng chơi được 20 bài hát, và sau đó có cơ chế tự huỷ. Để tiếp tục sử dụng, người dùng phải đóng một khoản phí cho Viện Fraunhofer để nhận lại một dãy số để cài phần mềm chính thức. WinPlay3 ban đầu có giá 125$ một bản quyền, tuy nhiên được liên tiếp giảm giá sau đó nhiều lần xuống còn 5$, nhằm giúp phổ biến MP3 đến nhiều người dùng nhất có thể. Cuối năm 1995, khi trang web chính thức đầu tiên của MP3 ra mắt, phần mềm này trở nên hoàn toàn miễn phí.
Mặc dù vậy, trong suốt hơn 1 năm sau đó, sản phẩm này vẫn không thu hút được quá nhiều người dùng và mấp mé trở thành một thất bại tiếp theo của Viện Fraunhofer. Tuy nhiên, Brandenburg cùng các cộng sự của mình không hề biết rằng có một làn sóng mới sắp ập tới và thay đổi cả vận mệnh của họ.
Cú thoát pressing ngoạn mục của MP3
Đôi khi, thành công lại bất chợt đến bắt nguồn từ những yếu tố mà chính những người trong cuộc cũng không thể đoán trước.
Nửa sau của thập niên 90s, làn sóng sử dụng các cộng đồng nhóm chat IRC (viết tắt cho “Internet Relay Chat”) bắt đầu bùng nổ mạnh mẽ. Ở IRC, cũng giống như các mạng xã hội thời nay như Yahoo, Discord, hay Reddit, người dùng có thể tìm thấy các nhóm chat theo vô vàn chủ đề. (như #computer, #film, v.v…)
Tuy nhiên, sự bùng nổ của các nhóm chat IRC cũng trực tiếp kéo theo sự phát triển của phong trào chia sẻ tệp tin (file-sharing), mà phần lớn là các sản phẩm lậu ăn cắp bản quyền. Thời bấy giờ, phong trào này được gọi chung là “The Warez Scene", hay phổ biến hơn là “The Scene". Mới đầu, họ chỉ tập trung vào việc chia sẻ các phần mềm lậu, còn gọi là “warez”. Tuy nhiên, chỉ một thời gian ngắn sau, trào lưu này lan cả sang việc chia sẻ các tệp tin khác như phim ảnh, sách báo, tạp chí, v.v… và nhất là: âm nhạc.
Sôi nổi nhất trong nhóm này là một phòng chat IRC có tên #mp3. Phòng chat này được sáng lập bởi một nhóm người tiên phong tận dụng các tệp tin MP3 - với dung lượng siêu nhỏ so với các tệp tin WAVE thông dụng bấy giờ - để chia sẻ nhạc. Họ còn là những người vô cùng âm hiểu công nghệ, khi trực tiếp tìm ra cách mở khoá phần mềm L3Enc và WinPlay3 của Viện Fraunhofer. Quy chế tự huỷ sau 20 bài hát của WinPlay3 bởi vậy cũng bị vô hiệu, giúp người dùng có thể nghe nhạc MP3 lậu hoàn toàn miễn phí và không giới hạn. Từ chỗ là công nghệ bị MPEG ghẻ lạnh, MP3 giờ đây lại trở thành một chiếc chìa khoá vàng, một vũ khí bí mật của các cộng đồng “hải tặc”này.
Các nhóm chia sẻ nhạc lậu hoạt động theo mô hình chuyên nghiệp từ đó cũng mọc lên như nấm. Nổi bật hơn cả là nhóm Compress ‘Da Audio (hay CDA), sáng lập bởi NetFraCk. Ngày 10/08/1996, chính CDA đã đăng tải tệp nhạc MP3 lậu đầu tiên lên mạng trong lịch sử: ca khúc Until It Sleep của Metallica. Sự xuất hiện của các nhóm ngầm (nhưng hoạt động vô cùng công khai) này đã hoàn toàn thay đổi quan niệm của người dùng thời bấy giờ về âm nhạc. Việc trả tiền cho âm nhạc, bắt đầu từ đây, cũng trở thành dĩ vãng.

Sự phổ biến của MP3 thậm chí còn phát triển bùng nổ hơn nữa với sự xuất hiện của Winamp - phần mềm chơi nhạc MP3 được phát triển bởi Justin Frankel, sinh viên năm nhất đến từ Đại học Utah. Thực chất, Winamp chỉ là một phần mềm được cải tiến (chủ yếu về mặt hình ảnh và trải nghiệm người dùng) dựa trên phần mềm WinPlay 3. Ra mắt lần đầu vào tháng 4/1997, Winamp thu về hơn 15 triệu lần tải chỉ trong vòng một năm.

Cùng với đó, một loạt các nhà phát triển bên thứ 3 cũng bắt tay vào sản xuất và cho ra mắt các phần mềm mã hoá MP3 của riêng mình, được cải tiến từ phần mềm L3Enc. Giờ đây, MP3 không còn chỉ là một công nghệ ngách được ít người biết đến nữa, mà đã trở thành một hiện tượng. Ngày 17/12/1997, trang web mp3.com (không liên quan gì đến với Viện Fraunhofer) ra mắt và gần như ngay lập tức trở thành một điểm đến không thể bỏ qua cho các tín đồ tải nhạc lậu. Cũng từ đây, MP3 bắt đầu trở thành một khái niệm được sử dụng để chỉ thay cho âm nhạc (cụ thể là nhạc số)

Hiện tượng MP3 cũng làm cho sự chú ý dành cho Viện Fraunhofer ngày một nhiều hơn. Ngày 27/5/1997, tuần san USA Today cho đăng một bài viết nhà báo âm nhạc Bruce Haring với tựa đề “Sound Advances Open Doors to Bootleggers” (Sự phát triển của công nghệ âm thanh mở toang cơ hội cho những kẻ buôn lậu nhạc). Đây là bài báo đầu tiên giới thiệu về khái niệm MP3 và phổ biến tới đến công chúng. Cũng chính từ bài báo này, Brandenburg cùng các cộng sự mới thực sự nhận ra rằng họ đã tạo nên một sản phẩm thay đổi hoàn toàn lịch sử ngành công nghiệp âm nhạc. Chỉ có điều, thành công này bắt nguồn từ một việc mà họ chưa từng dự tính: chia sẻ nhạc lậu.
Tuy vậy, không thể phủ nhận rằng chính làn sóng chia sẻ nhạc lậu đã giúp MP3 giành chiến thắng chung cuộc xứng đáng trước MP2 trong cuộc chiến định dạng nhạc số.
Khá trớ trêu là chính bởi vậy mà mối quan hệ giữa Brandenburg và MPEG cũng thay đổi nhanh chóng. Từ chỗ bị coi như là cái gái trong mắt của MPEG, thì nay Brandenburg lại trở thành một trong những người có tiếng nói nhất lên tổ chức này. Đơn cử như trong một cuộc họp của MPEG vào năm 1998, khi trao đổi về việc thông qua một đề xuất, một đại biểu MPEG đến từ Nhật đã chỉ về phía Brandenburg và nói “Hãy hỏi ý kiến của ông ấy”. Cũng năm này, Brandenburg nhận giải thưởng cao quý cho những đóng góp về công nghệ từ Hiệp hội Kỹ thuật Âm thanh (Audio Engineering Society), mở đầu cho vô vàn các giải thưởng khác. Đây không chỉ là sự công nhận cho sự đột phá của công nghệ MP3, mà còn là sự thừa nhận xứng đáng cho đội ngũ của Viện Fraunhofer cùng những nỗ lực không biết mệt mỏi của họ. Nhóm 6 nhà nghiên cứu đầu tiên tham gia vào dự án MP3 cũng hưởng lợi trực tiếp từ thành quả này và trở nên giàu có nhờ việc hưởng phần trăm lợi nhuận từ bằng sáng chế MP3.

Ngày 15/5/2017, Viện Fraunhofer đưa ra thông báo chính thức việc ngừng khai thác thương mại MP3, để tập trung vào việc phát triển các chuẩn định dạng chất lượng cao hơn như AAC. Hay nói cách khác, đây là ngày mà MP3 chính thức “về hưu” - hoàn thành sứ mệnh hơn 20 năm là chuẩn định dạng đến nén âm thanh phổ biến nhất toàn thế giới. Đã hơn 6 năm trôi qua, ngày nay chúng ta không còn thường xuyên thấy sự hiện diện của MP3 trên các nền tảng giải trí hay phát nhạc trực tuyến nữa mà thay vào đó là AAC - người “em ruột” cũng được chính Viện Fraunhofer phát triển. Tuy nhiên, có lẽ với đông đảo bộ phận người yêu âm nhạc thì MP3 sẽ luôn là một phần ký ức vô cùng thân thuộc.
Bài viết tham khảo và tổng hợp từ nhiều nguồn
Sách
Witt, S. (2015). How Music Got Free
Bài báo
https://www.npr.org/sections/therecord/2011/03/23/134622940/the-mp3-a-history-of-innovation-and-betrayal
https://museumofportablesound.com/mp325-timeline/
Video