شرکت ساندهاوند ایآی (SoundHound AI) که یکی از بازیگران اصلی در حوزه دستیارهای صوتی است، حالا فناوری خود را به قدرت بینایی مجهز کرده است.
تصور کنید در حال رانندگی از کنار یک بنای دیدنی عبور میکنید و بدون نیاز به استفاده از تلفن همراه، از خودروی خود میپرسید: آن ساختمان چیست؟ و بلافاصله پاسخ را دریافت میکنید. این دقیقاً همان فناوری است که ساندهاوند در حال توسعه آن است.
با رونمایی از ویژن ایآی (Vision AI)، سیستم جدید ساندهاوند، بینایی و صدا را با هم ترکیب میکند تا روشی هوشمندتر و طبیعیتر برای تعامل با فناوری خلق کند. ایده اصلی این است که رفتار ما انسانها شبیهسازی شود؛ ما فقط به حرفهای دیگران گوش نمیدهیم، بلکه به حرکات و نگاه آنها نیز توجه میکنیم.
ساندهاوند امیدوار است با افزودن این درک مبتنی بر زمینه به هوش مصنوعی، تجربههای کاربری ناخوشایند و اغلب خستهکنندهای را که با بسیاری از دستگاههای هوشمند امروزی داریم، بهبود ببخشد. این شرکت کاربردهای واقعی را هدف قرار داده است که در آنها این حس ترکیبی میتواند تفاوت بزرگی ایجاد کند؛ از خودروی آینده شما گرفته تا باجههای سفارش غذا و خطوط تولید کارخانهها.
کیوان مهاجر، مدیرعامل ساندهاوند، در اینباره گفت: ما در ساندهاوند معتقدیم که آینده هوش مصنوعی فقط چندوجهی نیست، بلکه عمیقاً یکپارچه، پاسخگو و برای تأثیرگذاری در دنیای واقعی ساخته شده است. او افزود: با ویژن ایآی، ما پیشتازی خود در هوش مصنوعی صوتی و محاورهای را گسترش میدهیم تا نحوه تعامل انسان با محصولات و خدمات کسبوکارها را بازتعریف کنیم.
این فناوری چگونه کار میکند؟
ویژن ایآی تصاویر زنده را از یک دوربین دریافت کرده و آن را با فناوری صوتی این شرکت که در درک گفتار طبیعی تبحر دارد، ترکیب میکند. این سیستم با پردازش همزمان آنچه میبیند و میشنود، میتواند هدف واقعی کاربر را به شیوهای درک کند که یک دستیار صوتی ساده هرگز قادر به آن نیست.
برای مثال، مکانیکی را تصور کنید که با استفاده از عینک هوشمند، تنها با نگاه کردن به یک قطعه موتور، دستورالعملهای لازم را درخواست میکند و راهنماییهای صوتی و تصویری را بدون زمین گذاشتن ابزارش دریافت میکند. یا در یک فروشگاه، کارمندی میتواند فقط با نگاه کردن به قفسهها، موجودی انبار را بهصورت لحظهای بررسی کند. برای ما کاربران عادی نیز این فناوری میتواند به معنای کیوسکی باشد که در لحظه سفارش، آن را بهصورت تصویری روی صفحه تأیید میکند.
یکی از بزرگترین چالشهای فنی در ساخت چنین سیستمی، اطمینان از هماهنگی کامل (همگامسازی) عناصر صوتی و تصویری است. هرگونه تأخیر میتواند حس یک گفتوگوی طبیعی را از بین ببرد.
پراناو سینگ، معاون مهندسی ساندهاوند، در این مورد توضیح داد: ما با ویژن ایآی، تشخیص بصری و هوش محاورهای را در یک جریان واحد و هماهنگ ادغام کردهایم. هر فریم، هر کلام و هر هدف در یک اکوسیستم واحد تفسیر میشود تا تجربههای کاربری سریعتر و طبیعیتری را در پلتفرمهای مختلف، از کیوسکها گرفته تا دستگاههای توکار، تضمین کند.
برای کسبوکارهایی که این فناوری را به کار میگیرند، این سیستم نویدبخش خدماتی سریعتر، اشتباهات کمتر و مشتریانی راضیتر است. هدف اصلی، حذف موانع و تبدیل فناوری از ابزاری که باید با آن کار کرد، به شریکی است که به انجام کارها کمک میکند.
این قابلیت بصری جدید، تنها بهروزرسانی ساندهاوند نیست. این شرکت همچنین اخیراً مغز سیستم خود را با آپدیت جدیدی به نام املیا ۷.۱ (Amelia 7.1) ارتقا داده است. این بهبود، دستیارهای هوش مصنوعی را سریعتر و دقیقتر کرده و به کسبوکارها کنترل و شفافیت بیشتری بر نحوه عملکرد آنها میدهد.
ساندهاوند با ترکیب بینایی و صدا، قصد دارد ما را به جهانی نزدیکتر کند که در آن، تعامل با هوش مصنوعی به سادگی و روانی صحبت کردن با یک انسان دیگر باشد.