22.1 C
Munich
Saturday, September 19, 2020

AI mới khiến con người tin rằng Hiệu ứng âm thanh tổng hợp là có thật

Must read

Nỗ lực cấp cơ sở để chống lại thông tin sai lệch trong đại dịch

Trong thời kỳ đỉnh điểm của đại dịch COVID-19 chết người, với thông tin sai lệch tràn ngập khắp mọi phương tiện truyền thông,...

Ngân hàng Canada có thể giữ lãi suất thấp cho đến năm 2023, các chuyên gia nói

những hình ảnh đẹpTiền giấy Canada được nhìn thấy ở đây trong hình ảnh này. Thống...

Volocopter bắt đầu bán trước cho các chuyến bay taxi hàng không đầu tiên – với thời gian chờ 2-3 năm – TechCrunch

Nếu câu thần chú về công nghệ có khuôn mặt buồn bã của bạn là “chúng tôi đã được hứa hẹn với những chiếc...

sang một bên.inlay.xlrg.XploreFree {
font-family: “Georgia”, serif;
border-width: 4px 0;
border-top: solid # 888;
viền-đáy: solid # 888;
đệm: 10px 0;
font-size: 19px;
font-weight: bold;
text-align: center;
}
span.FreeRed {
màu đỏ;
text-biến đổi: chữ hoa;
font-family: “Theinhardt-Medium”, sans-serif;
}
span.XploreBlue {
màu: # 03a6e3;
font-family: “Theinhardt-Medium”, sans-serif;
}

Biểu trưng báo cáo Journal Watch, liên kết đến trang đích báo cáo

Hãy tưởng tượng bạn đang xem một bộ phim đáng sợ: nhân vật nữ chính len lỏi qua một tầng hầm tối tăm, cảnh giác cao độ. Âm nhạc ly kỳ phát trong nền, trong khi một số sinh vật nham hiểm, không thể nhìn thấy len lỏi trong bóng tối… và sau đó – BANG! Nó gõ lên một đối tượng.

Những cảnh như vậy sẽ khó hấp dẫn và đáng sợ nếu không có các hiệu ứng âm thanh cường độ cao, nhưng được canh thời gian hoàn hảo, như tiếng nổ lớn khiến nhân vật chính của chúng ta phải xoay người trong sợ hãi. Thông thường những hiệu ứng âm thanh này được ghi lại bởi Nghệ sĩ Foley trong phòng thu, người tạo ra âm thanh bằng cách sử dụng vô số đồ vật theo ý của họ. Việc ghi lại tiếng kính vỡ có thể liên quan đến việc thực sự làm vỡ kính nhiều lần, chẳng hạn, cho đến khi âm thanh đó khớp với video clip.

Trong một phần cốt truyện gần đây hơn, các nhà nghiên cứu đã tạo ra một chương trình tự động phân tích chuyển động trong các khung hình video và tạo hiệu ứng âm thanh nhân tạo của riêng nó để phù hợp với cảnh phim. Trong một cuộc khảo sát, phần lớn những người được thăm dò ý kiến ​​chỉ ra rằng họ tin rằng hiệu ứng âm thanh giả là thật. Mô hình, AutoFoley, được mô tả trong học xuất bản ngày 25 tháng 6 trong Giao dịch IEEE trên Đa phương tiện.

“Thêm hiệu ứng âm thanh trong hậu kỳ bằng cách sử dụng nghệ thuật của Foley đã là một phần phức tạp của nhạc phim và truyền hình kể từ những năm 1930,” giải thích Jeff Prevost, giáo sư tại Đại học Texas ở San Antonio người đồng tạo AutoFoley. “Phim sẽ có vẻ trống rỗng và xa vời nếu không có lớp kiểm soát của nhạc phim Foley chân thực. Tuy nhiên, quá trình tổng hợp âm thanh Foley do đó làm tăng thêm thời gian và chi phí đáng kể cho việc tạo ra một hình ảnh chuyển động ”.

Bị hấp dẫn bởi ý tưởng về một hệ thống Foley tự động, Prevost và nghiên cứu sinh tiến sĩ của mình, Sanchita Ghose, bắt tay vào việc tạo ra một chương trình máy học nhiều lớp. Họ đã tạo ra hai mô hình khác nhau có thể được sử dụng trong bước đầu tiên, bao gồm xác định các hành động trong video và xác định âm thanh phù hợp.

Mô hình học máy đầu tiên trích xuất các tính năng hình ảnh (ví dụ: màu sắc và chuyển động) từ khung của các clip hành động chuyển động nhanh để xác định hiệu ứng âm thanh thích hợp.

Mô hình thứ hai phân tích mối quan hệ thời gian của một đối tượng trong các khung riêng biệt. Bằng cách sử dụng lý luận quan hệ để so sánh các khung hình khác nhau theo thời gian, mô hình thứ hai có thể dự đoán hành động đang diễn ra trong video.

Ở bước cuối cùng, âm thanh được tổng hợp để khớp với hoạt động hoặc chuyển động được một trong các mô hình dự đoán. Prevost và Ghose đã sử dụng AutoFoley để tạo âm thanh cho 1.000 đoạn phim ngắn ghi lại một số hành động phổ biến như mưa rơi, ngựa phi nước đại và đồng hồ tích tắc.

Phân tích cho thấy – không có gì đáng ngạc nhiên – rằng AutoFoley là tốt nhất trong việc tạo ra âm thanh mà thời gian không cần phải phù hợp hoàn hảo với video (ví dụ: mưa rơi, lửa nổ lách tách). Tuy nhiên, chương trình có nhiều khả năng không đồng bộ với video khi các cảnh trực quan chứa các hành động ngẫu nhiên có sự thay đổi về thời gian (ví dụ: đánh máy, sấm sét).

Tiếp theo, Prevost và Ghose đã khảo sát 57 sinh viên đại học địa phương về những đoạn phim nào mà họ cho là có nhạc phim gốc. Khi đánh giá các bản nhạc được tạo ra bởi mô hình đầu tiên, 73% sinh viên được khảo sát đã chọn clip AutoFoley tổng hợp làm bản gốc thay vì clip âm thanh gốc thực sự. Khi đánh giá mô hình thứ hai, 66% người được hỏi chọn clip AutoFoley hơn clip âm thanh gốc.

Prevost cho biết: “Một hạn chế trong cách tiếp cận của chúng tôi là yêu cầu chủ đề phân loại phải có trong toàn bộ chuỗi khung hình video,” Prevost nói, đồng thời lưu ý rằng AutoFoley hiện đang dựa trên tập dữ liệu với các danh mục Foley hạn chế. Trong khi bằng sáng chế cho AutoFoley vẫn đang trong giai đoạn đầu, Prevost cho biết những hạn chế này sẽ được giải quyết trong nghiên cứu trong tương lai.

- Advertisement -

More articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisement -

Latest article

Nỗ lực cấp cơ sở để chống lại thông tin sai lệch trong đại dịch

Trong thời kỳ đỉnh điểm của đại dịch COVID-19 chết người, với thông tin sai lệch tràn ngập khắp mọi phương tiện truyền thông,...

Ngân hàng Canada có thể giữ lãi suất thấp cho đến năm 2023, các chuyên gia nói

những hình ảnh đẹpTiền giấy Canada được nhìn thấy ở đây trong hình ảnh này. Thống...

Volocopter bắt đầu bán trước cho các chuyến bay taxi hàng không đầu tiên – với thời gian chờ 2-3 năm – TechCrunch

Nếu câu thần chú về công nghệ có khuôn mặt buồn bã của bạn là “chúng tôi đã được hứa hẹn với những chiếc...

Kiểm soát thần kinh 911 Đánh giá: Thuốc bổ sung giảm đau thần kinh

Nerve Control 911 là sản phẩm bổ sung làm dịu thần kinh tiên tiến của PhytAge Labs tận dụng các thành phần tự nhiên...