انقلاب ساندهاوند: هوش مصنوعی که هم می‌شنود و هم می‌بیند

آخرین به‌روزرسانی: 29 مرداد 1404, 5:43 ب.ظ

رضا باقری 28 مرداد 1404 اخبار و رویداد ۴ دقیقه زمان مطالعه 0 دیدگاه ( ۰ امتیاز )

شرکت ساندهاوند ای‌آی (SoundHound AI) که یکی از بازیگران اصلی در حوزه دستیارهای صوتی است، حالا فناوری خود را به قدرت بینایی مجهز کرده است.

تصور کنید در حال رانندگی از کنار یک بنای دیدنی عبور می‌کنید و بدون نیاز به استفاده از تلفن همراه، از خودروی خود می‌پرسید: آن ساختمان چیست؟ و بلافاصله پاسخ را دریافت می‌کنید. این دقیقاً همان فناوری است که ساندهاوند در حال توسعه آن است.

با رونمایی از ویژن ای‌آی (Vision AI)، سیستم جدید ساندهاوند، بینایی و صدا را با هم ترکیب می‌کند تا روشی هوشمندتر و طبیعی‌تر برای تعامل با فناوری خلق کند. ایده اصلی این است که رفتار ما انسان‌ها شبیه‌سازی شود؛ ما فقط به حرف‌های دیگران گوش نمی‌دهیم، بلکه به حرکات و نگاه آن‌ها نیز توجه می‌کنیم.

ساندهاوند امیدوار است با افزودن این درک مبتنی بر زمینه به هوش مصنوعی، تجربه‌های کاربری ناخوشایند و اغلب خسته‌کننده‌ای را که با بسیاری از دستگاه‌های هوشمند امروزی داریم، بهبود ببخشد. این شرکت کاربردهای واقعی را هدف قرار داده است که در آن‌ها این حس ترکیبی می‌تواند تفاوت بزرگی ایجاد کند؛ از خودروی آینده شما گرفته تا باجه‌های سفارش غذا و خطوط تولید کارخانه‌ها.

کیوان مهاجر، مدیرعامل ساندهاوند، در این‌باره گفت: ما در ساندهاوند معتقدیم که آینده هوش مصنوعی فقط چندوجهی نیست، بلکه عمیقاً یکپارچه، پاسخگو و برای تأثیرگذاری در دنیای واقعی ساخته شده است. او افزود: با ویژن ای‌آی، ما پیشتازی خود در هوش مصنوعی صوتی و محاوره‌ای را گسترش می‌دهیم تا نحوه تعامل انسان با محصولات و خدمات کسب‌وکارها را بازتعریف کنیم.

این فناوری چگونه کار می‌کند؟

انقلاب ساندهاوند: هوش مصنوعی که هم می‌شنود و هم می‌بیند

ویژن ای‌آی تصاویر زنده را از یک دوربین دریافت کرده و آن را با فناوری صوتی این شرکت که در درک گفتار طبیعی تبحر دارد، ترکیب می‌کند. این سیستم با پردازش هم‌زمان آنچه می‌بیند و می‌شنود، می‌تواند هدف واقعی کاربر را به شیوه‌ای درک کند که یک دستیار صوتی ساده هرگز قادر به آن نیست.

برای مثال، مکانیکی را تصور کنید که با استفاده از عینک هوشمند، تنها با نگاه کردن به یک قطعه موتور، دستورالعمل‌های لازم را درخواست می‌کند و راهنمایی‌های صوتی و تصویری را بدون زمین گذاشتن ابزارش دریافت می‌کند. یا در یک فروشگاه، کارمندی می‌تواند فقط با نگاه کردن به قفسه‌ها، موجودی انبار را به‌صورت لحظه‌ای بررسی کند. برای ما کاربران عادی نیز این فناوری می‌تواند به معنای کیوسکی باشد که در لحظه سفارش، آن را به‌صورت تصویری روی صفحه تأیید می‌کند.

یکی از بزرگ‌ترین چالش‌های فنی در ساخت چنین سیستمی، اطمینان از هماهنگی کامل (همگام‌سازی) عناصر صوتی و تصویری است. هرگونه تأخیر می‌تواند حس یک گفت‌وگوی طبیعی را از بین ببرد.

پراناو سینگ، معاون مهندسی ساندهاوند، در این مورد توضیح داد: ما با ویژن ای‌آی، تشخیص بصری و هوش محاوره‌ای را در یک جریان واحد و هماهنگ ادغام کرده‌ایم. هر فریم، هر کلام و هر هدف در یک اکوسیستم واحد تفسیر می‌شود تا تجربه‌های کاربری سریع‌تر و طبیعی‌تری را در پلتفرم‌های مختلف، از کیوسک‌ها گرفته تا دستگاه‌های توکار، تضمین کند.

برای کسب‌وکارهایی که این فناوری را به کار می‌گیرند، این سیستم نویدبخش خدماتی سریع‌تر، اشتباهات کمتر و مشتریانی راضی‌تر است. هدف اصلی، حذف موانع و تبدیل فناوری از ابزاری که باید با آن کار کرد، به شریکی است که به انجام کارها کمک می‌کند.

این قابلیت بصری جدید، تنها به‌روزرسانی ساندهاوند نیست. این شرکت همچنین اخیراً مغز سیستم خود را با آپدیت جدیدی به نام املیا ۷.۱ (Amelia 7.1) ارتقا داده است. این بهبود، دستیارهای هوش مصنوعی را سریع‌تر و دقیق‌تر کرده و به کسب‌وکارها کنترل و شفافیت بیشتری بر نحوه عملکرد آن‌ها می‌دهد.

ساندهاوند با ترکیب بینایی و صدا، قصد دارد ما را به جهانی نزدیک‌تر کند که در آن، تعامل با هوش مصنوعی به سادگی و روانی صحبت کردن با یک انسان دیگر باشد.

منابع