IOTT Iran - اینترنت اشیا / اخبار و مقالات اینترنت اشیا / اینترنت اشیا / دستیار هوشمند الکسا ، مرا درک میکند

دستیار هوشمند الکسا ، مرا درک میکند

04 اکتبر 2017 / اینترنت اشیا / آی‌اوتی

دستیار هوشمند الکسا ، مرا درک میکند

دستیار هوشمند الکسا ، وسیله ای مبتنی بر هوش مصنوعی است که با فرمان صوتی ما کار میکند. اشتباه است اگر این دستیارهای هوشمند را وسایلی غیرعادی و بی مصرف بدانیم، چرا که اینها در اصل رابط ما با دستگاه های هوشمند آینده هستند.

پنج سال پیش چهار مهندس شرکت آمازون، محصولی را به ثبت رساندند که در نهایت دستیار هوشمند الکسا نام گرفت. قرار بر این بود که این دستیار هوشمند با یکی عجیب ترین و پیچیده ترین شیوه های تعاملی انسان، یعنی از طریق گفتار ارتباط برقرار کند.

تست اولیه دستیار هوشمند الکسا به این شکل بود که مردی در یک اتاق از الکسا میخواهد که آهنگ مدنظرش را پخش کند و الکسا این کار را میکند. از آن شروع معمولی تا کنون، هوش مصنوعی مبتنی بر صوت به تجارتی بزرگ برای آمازون و به طور روزافزونی، به میدان نبرد استراتژیک این شرکت با رقبایش در حوزۀ فناوری تبدیل شده است. هریک از شرکت‌های گوگل، اَپِل، سامسونگ و مایکروسافت هزاران محقق و متخصص تجارت را به کار گماشته‌اند تا دستگاه‌های وسوسه‌انگیز با کاربردی آسان را تولید کنند که می‌توانیم با آن‌ها حرف بزنیم.

همه ما تا به امروز با شیوه‌های گوناگونی از جمله تایپ، لمس صفحه و … با دستگاه های مختلف کار کرده ایم و حالا وقت آن رسیده تا به همان شیوه ای که با یکدیگر ارتباط برقرار میکنیم با دستگاه ها هم ارتباط برقرار کنیم: یعنی به شیوه کلام!

دو مورد از محصولات آمازون که به دستیار هوشمند الکسا مجهز هستند استوانه ای به نام “اکو” و گجت کوچکی به نام “دات” است که میتوانند چراغ های خانه را روشن و خاموش کنند، لطیفه بگویند و اخبار را به اطلاعتان برسانند.

این دستگاه‌ها داده‌های زیادی را هم در مورد کاربران‌شان جمع‌آوری می‌کنند؛ داده‌هایی که از آن‌ها برای بهبود اَلِکسا و افزایش کارکردهایش استفاده می‌شود.

از زمان معرفی رسمی دستگاه‌های مجهز به اَلِکسا به بازار در سال 2014، تا کنون ده‌ها میلیون از این دستگاه‌ها فروخته شده است. رقابت در بازار هوش مصنوعی مبتنی بر کلام در ایالات متحده روز به روز داغتر میشود، عقیده بر این است که آمازون حدود 70 درصد کل دستگاه‌های فروخته‌شده در این بازار را به خود اختصاص می‌دهد. میلیون‌ها دستگاه Google Home نیز فروخته شده است و شرکت‌های اَپِل و مایکروسافت نیز به زودی نسخه‌های مخصوص خود را روانۀ بازار می‌کنند.

دستاورد نهایی تسلط بر حوزه دستیارهای هوشمند، فرصت کنترل (یا لااقل تأثیرگذاری بر) سه بازار است: اتوماسیون خانگی، سرگرمی خانگی و خرید. شاید در حال حاضر نتوان پیش بینی کرد چه تعداد از افراد دوست دارند با یخچال خود صحبت کنند اما آنچه مشخص است این است که الگوهای زندگی روزمره به سرعت در حال تغییرند. درست به همان شکلی که تلفن‌های همراه هوشمند همه چیز، از آداب قرار ملاقات گرفته تا سرعت راه رفتن عابران پیاده، را دستخوش تغییر قرار دادند، هوش مصنوعی مبتنی بر کلام نیز دارد بسیاری از جنبه‌های زندگی خانگی را دگرگون می‌کند. وقتی دستیار هوشمند الکسا و خویشاوندانش می‌توانند به سرعت همه چیز را برایتان مرتب کنند، دیگر چه لزومی دارد از جای‌تان برخیزید تا درب ورودی خانه را قفل یا در روزی بسیار سرد، بخاری ماشین‌تان را روشن کنید؟

دستیار هوشمند الکسا

فعلاً آمازون تلاش نمی‌کند از شرکت‌های سازندۀ ترموستات‌ها، لامپ‌ها و دیگر دستگاه‌های هوشمند متصل به اَلِکسا درآمدی به دست بیاورد. در آینده اما، تصور چگونگی رواج یافتن مقررات تقسیم درآمد یا دیگر انواع پرداخت‌ها کار سختی نیست. کوچک‌ترینِ این سه بازار، یعنی اتوماسیون خانگی، همین الآن هم هر سال بیش از 5 میلیارد دلار از مخارج مردم را به خود اختصاص می‌دهد؛ این در حالی است که مجموع خرده‌فروشی در ایالات متحده در سال قبل به 4.9 تریلیون دلار رسید. امروزه آمازون از فروش خود دستگاه‌ها، با قیمت‌هایی بین 50 دلار برای دستگاه‌های Dot تا 230 دلار برای باکیفیت‌ترین نمونه‌های Echo با نمایشگر ویدئویی، درآمد کسب می‌کند.

برای اینکه دستگاه‌های Echo نیز مانند تلفن های هوشمند رواج یابند آمازون باید کارهای زیادی انجام دهد. به همین منظور، آمازون توسعه‌دهندگان مستقل را تشویق می‌کند خدمات جدیدشان را در این بستر تولید کنند؛ دقیقاً مثل کاری که شرکت اَپِل مدت‌ها با سازندگان اپلیکیشن انجام داده است.

جاه‌طلب‌ترین توسعه‌دهندگان شرکت‌هایی هستند که دست به تولید سخت‌افزارها یا فروش خدماتی می‌زنند که با دستیار هوشمند الکسا کار می‌کنند. برای مثال، شرکت Capital One خدمات پرداخت قبوض مبتنی بر دستیار هوشمند الکسا را به مشتریان بانکی خود ارائه می‌دهد؛ شرکت Ecobee واقع در تورنتو یکی از سازندگان ترموستات‌های هوشمند است که ترموستات‌هایی مجهز به الکسا تولید می‌کند که افراد را قادر می‌سازند تنها با به زبان آوردن چند کلمه دمای اتاق‌شان را افزایش یا کاهش دهند. استووارت لامبارد، مدیر عامل شرکت Ecobee، که اکنون حدود 40 درصد از کل فروشش را مدیون دستگاه‌های الکسا است میگوید: «مشتریان ما زندگی‌های پرمشغله‌ای دارند. آن‌ها مجبورند با ترافیک بجنگند تا به خانه برسند؛ سپس باید به بچه‌ها غذا بدهند، پوشک نوزاد را عوض کنند و خدا می‌داند چه کارهای دیگری باید انجام دهند. ما وسیله‌ای دراختیار آن‌ها قرار می‌دهیم تا بتوانند بدون استفاده از دست، و در حالی که مشغول رسیدگی به وظایف دیگرشان هستند، کاری را به انجام برسانند.

دستیار هوشمند الکسا : تلاقی گفتار و هوش مصنوعی

آنچه هوش مصنوعی مبتنی بر گفتار را این‌قدر برای مصرف‌کنندگان جذاب می‌کند توانایی این فناوری در تبعیت از ماست؛ توانایی پاسخ دادن به طرز سخن گفتن (و فکر کردن) ما بدون اینکه لازم باشد روی صفحه‌کلید یا نمایشگری تایپ کنیم. و این همان چیزی است که باعث می‌شود ساخت چنین دستگاه‌هایی به لحاظ فنی بسیار دشوار باشد. ما وقتی حرف می‌زنیم به هیچ وجه مرتب و منظم نیستیم. بلکه حرف خودمان را قطع می‌کنیم. اجازه می‌دهیم افکارمان غوطه‌ور شوند. از کلمات، سر تکان دادن‌ها و صداهای نامفهوم به شکلی عجیب و غریب استفاده می‌کنیم .

هزاران کارمندان آمازون، از جمله افرادی در مراکز تحقیقاتی شهرهای سیاتل، سانی‌وِیل ، کالیفرنیا و کمبریج، در ایالت ماساچوست، در تلاشند تا این مشکلات رفع شوند. با این حال، صفحۀ مشاغل وب‌سایت آمازون اخیراً حدود 1100 فرصت شغلی دیگر مرتبط با اَلِکسا در دپارتمان‌های مختلف این شرکت، شامل 215 ردیف استخدامی برای متخصصان یادگیری ماشینی، را ارائه کرده است.

بیش از 20 سال است که آمازون روی فناوری تشخیص گفتار کار میکند و در اکثر موارد نتایج به طرز مایوس کننده ای کند بوده. با این حال، در پنج سال گذشته، فرصت‌های عظیمی پدیدار شده است. هرچه اَلِکسا زمان بیشتری را با کاربر خود سپری کند، داده‌های بیشتری برای یادگیری به دست می‌آورد و هوشمندتر می‌شود. پیشرفت، با خود فرصت‌های بیشتر و نیاز به نیروی انسانی بیشتر را می‌آورد.

دستیار هوشمند الکسا

برای شرح پیچیدگی هایی که دستیار هوشمند الکسا با آن روبرو است این مثال را در نظر بگیرید. اگر از لکسا بپرسید: «اولین آلبوم آدِل چه بود؟»، احتمالاً این پاسخ را میدهد: «19». اگر بعد از آن بگویید: «پخشش کن»، دستیار هوشمند الکسا به خوبی میداند که باید همان آلبوم را پخش کند». اما اگر در این بین مکالمات دیگری رد و بدل شود، چه اتفاقی می‌افتد؟ اگر از دستیار هوشمند الکسا بپرسی آلبوم مذکور چه سالی منتشر شد و چند نسخه فروخت، چه می‌شود؟ اگر حالا در پایان چنین مکالمه‌ای «پخشش کن» را به نسخه‌های اولیۀ الکسا می‌گفتیم، ممکن بود هنگ کنند. اکنون اما این فناوری می‌تواند، دست‌کم گاهی، زنجیرۀ افکارتان را دنبال کند و بفهمد «ضمیر ش» همچنان بر «آلبوم 19» دلالت دارد.

این ارتقا کارکرد حاصل پیشرفت تکنیک های یادگیری ماشینی است که در آن با بررسی هزاران مکالمه قبلی دستیار هوشمند الکسا ، سیستم یاد میگیرد که کاربر دقیقاً چه ترانه‌ای را می‌خواسته بشنود و کدام‌یک از بخش‌های قبلی مکالمه به آن قطعۀ موسیقی اشاره می‌کردند.
این پیشرفت تکنولوژی در حوزه یادگیری ماشینی را همه تحسین میکنند اما عملی کردن آن به داده‌هایی، بسیار بیشتر از آنچه محققان دانشگاهی می‌توانند به راحتی جمع‌آوری کنند نیاز دارد. با رواج گستردۀ استفاده از الکسا، هم‌اکنون شرکت آمازون به گنجینۀ عظیمی از تعاملات گفتاری انسان و رایانه دسترسی دارد (گنجینه‌ای که باعث می‌شود این شرکت قدرت لازم برای آماده‌سازی فناوری تشخیص کلام خود که گوگل مدت‌هاست از آن در جستجوهای متن‌محور بهره می‌برد را به دست بیاورد). داده‌های بیرونی نیز کمک‌کننده‌اند: به عنوان مثال، پایگاه دادۀ عظیمی از متن ترانه‌های مختلف که در سال 2016 در الکسا بارگذاری شد کمک کرده است کاربران به آهنگ های مورد نظر خود هدایت شوند.

یکی از پروژه های اخیر آمازون به رمزگشایی مواردی میپردازد که در آن کاربران درخواست های اولیه خود را پس میگیرند. یک نفر ممکن است بگوید : “نه” ، دیگری ممکن است بگوید : “کنسلش کن” و یا شاید یک نفر به جای عبارات نفی از این عبارت استفاده کند که : ” به جایش این کار را انجام بده!”

آنچه آمازون میخواهد فقط این نیست که الکسا شنونده خوبی باشد، بلکه به موازات ارتقا این بخش، قابلیت های کلامی دستیار هوشمند الکسا نیز رو به بهبود است. آمازون در تلاش است تا صدای بی روح الکسا با تقلید فراز و فرودهای گفتار آدمی هرچه بیشتر به صدای یک انسان شبیه شود.
روش سابق ساخت صدای مصنوعی بر ترکیب قطعات مختلف گفتار ضبط‌شدۀ انسان متکی است. اگرچه این تکنیک می‌تواند به ساخت صدایی نسبتاً طبیعی منجر شود، اما به درد تولید پچ‌پچ، کنایه یا دیگر تغییرات زیر و بمی صدا که انسان ممکن است در سخنانش به کار ببرد نمی‌خورد. به منظور افزایش توانایی دستیار هوشمند الکسا در تولید سخنان مختلف، از مکالمه‌ای پرخاشگرانه گرفته تا بازگفتاری آرام، الگوریتم‌های یادگیری آمازون می‌توانند رویکردی متفاوت اتخاذ کنند و صداهای مشتاق ونگران (و خردمندانۀ) گویندگان حرفه‌ای را هدف بگیرند. اینکه شرکت آمازون مالکیت Audible، ناشر کتاب‌های صوتی، را در اختیار دارد در این زمینه به آن‌ها کمک می‌کند.

دستیار هوشمند الکسا

در مورد خیلی چیزها می‌توان حرف زد

یکی از پر‌و‌پا‌قرص‌ترین کاربران هوش مصنوعی مبتنی بر کلام افرادی هستند که نمی‌توانند به راحتی در تلفن‌های همراه یا تبلت‌های خود تایپ کنند. اوین کِر، مدیر ارشد شرکت Philadelphia’s Inglis که به ارائۀ مسکن و خدمات به افراد دارای معلولیت می‌پردازد، دستگاه‌های Echo و Dot شرکت آمازون را در 8 منزل مسکونی نصب کرده است. وی امیدوار است سرانجام بتواند چنین دستگاه‌هایی را بعد از اتمام آزمون‌های مقدماتی در تمامی 300 منزل مسکونی فراهم‌شده توسط این شرکت نصب کند. کِر می‌گوید: «این مزیتی باورنکردنی برای ساکنان منازل است. آن‌ها می‌توانند آسایش بیشتری داشته باشند. چنین وسایلی استقلال را به آن‌ها هدیه می‌دهند».

کِر با صدها نفر از کسانی همکاری می‌کند که دچار بیماری اِم اِس یا شرایط ضعیف‌کنندۀ دیگر هستند. برای کسانی که بستری هستند یا از ویلچر استفاده می‌کنند، یک ترموستات دیواری دور از دسترس می‌تواند شکنجه‌گری دائمی باشد. کِر توضیح می‌دهد: «بدن این افراد برای تنظیم دما شرایط سختی را تجربه می‌کند. اتاقی با دمای 72 درجۀ فارنهایت ممکن است یک ساعت بسیار گرم به نظر برسد و ساعتی دیگر سرد». با وجود محدودیت در حرکت، به سادگی نمی‌توان به آسایش دست یافت؛ به ویژه اگر دستیاری 24 ساعته در اختیار فرد نباشد.

با اندکی اصلاح، نرم‌افزار دستیار هوشمند الکسا می‌تواند حتی به افرادی هم که گفتار شدیداً محدودی دارند خدمت کند. به طور مثال این دستیار برای یک مرد 40 ساله که مشکلات گفتاری داشته به این ترتیب شخصی سازی شد که با گفتن “مامان” چراغ های آشپزخانه روشن شود و با گفتن “جان” چراغ های حمام.

هر هفته مدیر عامل الکسا، داده‌های جمع‌آوری‌شده در مورد پرتکرارترین عبارات به‌کاررفته توسط کاربران را به دقت بررسی می‌کند. معمولاً در صدر این فهرست درخواست‌های پخش موسیقی، اخبار، آب‌و‌هوا، وضع ترافیک و بازی‌ها قرار می‌گیرند.
اما اخیرا یک عبارت میان کاربران بسیار محبوبیت پیدا کرده است : ” الکسا! کاری کن آرام شوم! “

با مطرح شدن این درخواست از سوی کاربران، دستیار هوشمند الکسا کلکسیونی از صداهای آرامش بخش را در اختیار فرد میگذارد. پرندگان می‌خوانند؛ امواج به صخره می‌خورند؛ قطارهای باری سروصداکنان در دل شب پیش می‌روند. اگر کاربر بخواهد، این مجموعه صداهای محیطی می‌توانند چهار ساعت بی‌وقفه پخش شوند. زمانی که در سال 2015، این‌گونه اپلیکیشن ها برای نخستین بار در بستر الکسا عرضه شد، خیلی به چشم نمی آمدند. اما رفته رفته طرفداران بسیاری پیدا کردند. افرادی که تحت استرس شدید هستند به این صداها گوش می‌دهند تا خواب‌شان ببرد. والدین از آن‌ها به جای لالایی برای نوزادان بدخُلق‌شان استفاده می‌کنند و …

یک مکالمه طولانی با دستیار هوشمند الکسا

بررسی‌ها نشان داده‌اند بسترهای هوش مصنوعی گوگل، اَپِل، مایکروسافت و آمازون از نقاط قوت متفاوتی نسبت به یکدیگر برخوردارند. دستیار گوگل (Google Assistant) بهترین عملکرد را در فرمان‌های جستجوی متنوع دارد. دستیارهای Siri از شرکت اَپِل و Cortana از مایکروسافت دارای توانایی‌های دیگری هستند. اَلِکسا در مورد فرمان‌های خرید فوق‌العاده خوب عمل می‌کند.

دستاورد نهایی هوش مصنوعی مبتنی بر کلام انجام مکالمه‌ای واقعی و چند دقیقه‌ای با کاربران خواهد بود. چنین کار بزرگی مستلزم پیشرفت‌های عظیم در توانایی دستگاه در فهمیدن منظور انسان‌ها، حتی زمانی که درخواست واضحی در کار نیست، خواهد بود. انسان‌ها قادرند درک کنند دوستی که می‌گوید «هفته‌هاست به باشگاه نرفته‌ام» شاید بخواهد در مورد اضطراب یا عزت نفس صحبت کند. برای نرم‌افزار هوش مصنوعی اما تشخیص این مسأله کار بسیار دشواری است . تغییرات ناگهانی موضوع (یا اشارات مبهم) نیز کار را سخت می‌کنند.

سال گذشته آمازون به منظور ایجاد ارتباط با نسل بعدی محققان حوزه هوش مصنوعی و گفتار، از دانشجویان مهندسی دانشگاه های سراسر دنیا دعوت کرد تا روباتهایی بسازند که میتوانند 20 دقیقه مکالمه داشته باشند. دانشگاهی که بهترین نتیجه را ارائه میکرد برنده 500.000 دلار میشد. اما متاسفانه کمتر روباتی قادر بود یک مکالمه را دنبال کند و اغلب گیج میشدند و رشته کلام از دستشان خارج شده و عباراتی نامربوط تحویل میدادند.
با این حال این نتایج مدیران الکسا را نا امید نکرد، چرا که آن ها به خوبی میدانند این حوزه از هوش مصنوعی تا چه اندازه پیچیده است. اینکه هوش مصنوعی را در یک بازی مانند شطرنج مقابل انسان قرار دهیم بسیار متفاوت است از اینکه بخواهیم هوش مصنوعی با انسان تعامل کند.
در یک بازی مانند شطرنج، اگرچه حرکت بعدی قابل پیش بینی نیست، اما مجموعه حرکات احتمالی و هدف نهایی مشخص است. اما این قاعده در گفتار و تعاملات انسانی وجود ندارد. مکالمات افراد میتواند بدون هیچ قاعده و هدفی ادامه یابد.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *