هوش‌مصنوعی که به تصاویر صدا اضافه می‌کند

هوش‌مصنوعی که به تصاویر صدا اضافه می‌کند

در پیش رو یک روش جدید در دنیای هوش‌مصنوعی خواهیم داشت که با استفاده از آن می‌شود چیزی را خلق کرد که هم به عنوان یک تصویر به نظر می‌رسد و هم زمانی که آن را پخش کنیم به عنوان یک صدا شنیده شود. امیدوارم در مسیر مطالعه کلمات موجب گیجی و عدم درک موضوع نشوند.

به عنوان مثال تصور کنید که در حال نگاه کردن به یک گل زیبا هستید و آنچه در روبرو چشمان شماست در درک شما یک تصویر زیبا را خلق میکند. اما اگر بخواهید شنونده صدای این گل باشید یا وجود ندارد و یا صدایی عجیب در انتظار شماست. اما روشی که در ارتباط با آن صحبت خواهیم کرد به ما این امکان را میدهد که تصاویری خلق کنیم که وقتی اقدام به پخش آن می‌کنیم صدایی زیبا و طبیعی نیز داشته باشند.

این اتفاق با استفاده از دو مدل ماشین لرنینگ صورت گرفته است. که یکی تولید کننده تصویر و دیگری تولید کننده صوت میباشد. این دو مدل در یک سطح مشترک کار خود را انجام میدهند و در زمان خلق یک نمونه جدید، هر دو مدل با هم اقدام کرده تا نمونه، یک تصویر و یک شکل صوتی قابل قبول باشد.

در نهایت امکان تبدیل به فرمت صوتی و یا رنگی کردن تصاویر برای جلوه بهتر به کمک هوش مصنوعی وجود دارد.

خلاصه آشنایی با هوش‌مصنوعی صداساز

طیف نگاره‌ها نمایشی ۲بعدی از صدا هستند که بسیار با تصاویری که در جهان بینایی ما وجود دارند متفاوت به نظر میرسند و همینطور تصاویر طبیعی وقتی به عنوان یک طیف نگاره پخش شوند، صداهای غیر طبیعی تولید میکنند. این مقاله و این روش قصد دارد بگوید که امکان سنتز طیف نگاره‌هایی وجود دارد که هم شبیه تصاویر طبیعی به نظر برسند و هم شبیه صداهای طبیعی به گوش برسند. تیم محققین برای این حاصل و این طیف نگاره‌های خلق شده عبارت «تصاویری که صدا دارند» را انتخاب کرده‌اند که به نظر انتخاب به جایی است.

رویکرد محققین هوش‌مصنوعی، ساده و بدون نیاز به آموزش قبلی به نظر میرسد به نحوی که از مدل‌های پیش آموزش دیده متن به تصویر و متن به طیف نگاره استفاده میکنند که در یک فضای مشترک عمل میکنند. در طول فرایند معکوس، با استفاده از برآوردهای نویز، هم از مدل صوتی و هم از مدل تصویری به طور موازی، نویز را از نمونه‌ها حذف میکنند.

در نتیجه نمونه‌ای به دست می‌آید که هم تحت توزیع تصاویر و هم تحت توزیع صداها احتمال بالایی دارد. از طریق ارزیابی‌های کمی و مطالعات ادراکی، نتیجه بر این شد که این روش می‌تواند با موفقیت طیف نگاره‌هایی تولید کند که با صوت همسو بوده و در عین حال در ظاهر بصری هم میتواند تصویر مورد نظر را به خود بگیرد.

همانطور که در فایل زیر مشاهده میکنید از مدل‌های انتشاری استفاده شده که شبیه تصویر هستند اما می‌توانند به عنوان صدا نیز پخش شوند.

همچنین نمونه های دیگری نیز به کمک این هوش‌مصنوعی ساخته شده است که آنها را میتوانید ببینید.

نمونه های رنگی شده

نمونه‌های سیاه‌و‌سفید

روش اجرا

هوش‌مصنوعی که به تصاویر صدا اضافه می‌کند

در خصوص روش اجرا این فرآیند تیم تحقیقات اینطور بیان میکند که در ابتدا مسئله را به عنوان یک مشکل ترکیب چند مودال (تصویر و صدا) مطرح میکنند. و هدف این است که نمونه‌ای به دست بیاید که هم تحت توزیع تصاویر و هم تحت توزیع طیف نگاره‌ها محتمل باشد.

در مرحله بعد به طور همزمان از یک مدل پخش تصویر (image diffusion model) و یک مدل پخش صوتی (audio diffusion model) استفاده می‌شود تا نویزها را از نمونه‌ها حذف نمایند.

در قدم بعد یک نمونه نویزی (Latent) داریم که از هر دو مدل چه تصویر و چه صوت یک برآورد/تخمین از نویز موجود در این نمونه را محاسبه میکنیم.

در ادامه  یک برآورد/تخمین ترکیبی از نویز را از طریق میانگین وزنی از دو تخمین قبلی به دست می‌آوریم.

حالا با استفاده از تخمین ترکیبی، نویز را از نمونه نویزی اولیه کم میکنیم تا به یک نمونه اصطلاحا تمیز (clean latent) دست پیدا کنیم.

در نهایت نمونه تمیز ما به یک طیف نگاره تبدیل می‌شود و با استفاده از یک مدل وکدر (vocoder) از پیش آموزش دیده آن را به موج صوتی یا همان ویوفرم معروف تبدیل می‌کنیم.

این روش بدون نیاز به آموزش یا fine-tuning خاصی قابل اجرا است، چون فقط در مرحله inference تغییر ایجاد می‌کند

برخی موزیسین‌ها تصاویری را در طیف نگاره‌های خود قرار داده‌اند. که از طریق لینک‌های زیر می‌توانید آنها را مشاهده کنید. البته که سبک‌های موسیقی که امکان استفاده از این روش را دارند زیاد متعارف به نظر نمیرسند. در نهایت امیدوارم از این مقاله هوش‌مصنوعی استفاده لازم را برده باشید.

همچنین بررسی این لینک در گیت هاب را به شما پیشنهاد میکنم.

در خصوص فرایند های اجرا اگر تمایل به داشتن اطلاعات بیشتری دارید میتوانید از این لینک استفاده کنید.

در این خصوص یک سایت به صورت تخصصی تر وجود دارد که این لینک شما را به آن سایت منتقل میکند.

اگر به AI علاقه‌مند هستید می‌توانید صفحات «اخبار هوش‌مصنوعی» و «مقالات هوش‌مصنوعی» را دنبال کنید.

Tags: No tags

افکارتان را باما در میان بگذارید

اطلاعات شما پیش ما امن هست، آدرس ایمیل شما منتشر نخواهد شد!