گوگل بهتازگی قابلیتی به نام “Audio Overviews” را به ابزار تحقیقاتی خود، NotebookLM، اضافه کرده است. این ویژگی به کاربران اجازه میدهد تا هرگونه متن نوشتاری، از دستورالعملهای پیچیده گرفته تا مقالات طولانی و حتی گزارشهای عملکرد شخصی را به یک فایل صوتی تبدیل کنند که شبیه به یک قسمت پادکست است.
این ابزار هوش مصنوعی با استفاده از دو صدای رباتیک که سعی در تقلید لحن انسانی دارند، محتوای آپلود شده را بهصورت یک گفتگوی عمیق همراه با استعارهها، شوخیها و حتی گپوگفتهای خودمانی خلاصه میکند. نتیجه نهایی، تجربهای شنیداری شبیه به پادکستهای امروزی است.
NotebookLM حالا میتواند از هر سند، یک گفتوگوی پادکستی با دو ربات خلق کند
یکی از کاربران پس از استفاده از این قابلیت برای چندین سند، متوجه شد که زمان قابل توجهی را بهجای گوش دادن به پادکستهای ساختهشده توسط انسان، صرف این پادکستهای هوش مصنوعی کرده است. این موضوع برای او که خود یک تهیهکننده پادکست است، هم نگرانکننده و هم جذاب بوده است.
کاربر مذکور اذعان میکند که قابلیت “Audio Overviews” بهطرز چشمگیری تاثیرگذار است. این ابزار موضوعات را همانند یک پادکست واقعی در بخشهای مجزا سازماندهی میکند و برای درک بهتر مطلب، اطلاعاتی خارج از متن اصلی نیز به آن اضافه میکند. بهعنوان مثال، پس از ارائه یک دستور پخت پای اسپانیایی به این هوش مصنوعی، میزبانان پادکست تولید شده به تفاوت بافت برنج در پائیا و ریزوتو اشاره کردند، در حالی که نامی از ریزوتو در دستور اصلی برده نشده بود.
با این حال، مانند بسیاری از محصولات هوش مصنوعی، باید مراقب دقت محتوای تولید شده بود. این ابزار نیز گاهی دچار توهم شده است و اطلاعات نادرستی ارائه میدهد. در یک مورد، پس از بارگذاری یادداشتهای مربوط به یک گزارش، میزبانان هوش مصنوعی نقلقولهای ساختگی از منابعی را بیان کردند که اصلاً در سند اولیه وجود نداشت.
نکته جالب در مورد “Audio Overviews” این است که هدف اصلی آن لزوماً صرفهجویی در وقت نیست. میزبانان پادکست هوش مصنوعی اغلب پیش از پرداختن به مطالب اصلی، چند دقیقهای به حواشی میپردازند – رفتاری که در پادکستهای واقعی نیز مشاهده میشود.
سایمون توکومین، مدیر محصول NotebookLM، میگوید این فرمت غیررسمی و خودمانی، کاملاً عمدی است. در ابتدا، این محصول اطلاعات را بسیار سریع و کارآمد ارائه میداد، اما پس از دریافت بازخورد از کاربرانی خارج از گوگل، تیم توسعه متوجه شد که دو گروه مخاطب متفاوت وجود دارد. توکومین توضیح میدهد: «تنها زمانی که شروع به اشتراکگذاری آنچه ساخته بودیم با دیگران کردیم و از افرادی بازخورد گرفتیم که لزوماً به دنبال بهینهسازی هر ثانیه از روز خود نیستند، بلکه بیشتر به دنبال تجربهای آرام و شنیداری برای دریافت اطلاعات هستند، متوجه شدیم که برای دو گروه مختلف محصول میسازیم. و گروهی که ما برای آن محصول میساختیم، لزوماً کارمندان گوگل نبودند.»
این قابلیت جدید سوالاتی را در مورد آینده تولید محتوای صوتی و نقش هوش مصنوعی در آن مطرح میکند.