هوش مصنوعی تا سال 2026 تمام دانش مکتوب اینترنت را می‌بلعد!

تحقیقات جدید هشدار می‌دهند که سیستم‌های هوش مصنوعی (AI) ممکن است تا سال 2026 تمام دانش رایگان اینترنت را ببلعند! مدل‌های هوش مصنوعی مانند GPT-4 یا Claude 3 Opus برای باهوش‌تر شدن به حجم عظیمی از کلمات که به صورت آنلاین به اشتراک گذاشته می‌شوند، وابسته هستند. اما پیش‌بینی‌های جدید حاکی از آن است که این مدل‌ها جمع‌آوری منابع داده‌های در دسترس عموم را در بازه زمانی بین 2026 تا 2032 تمام خواهند کرد.

این بدان معناست که شرکت‌های فناوری برای ساخت مدل‌های بهتر، باید به دنبال منابع دیگری برای داده باشند. این منابع می‌تواند شامل تولید داده‌های مصنوعی، روی آوردن به منابع با کیفیت پایین‌تر، یا نگران‌کننده‌تر از همه، دسترسی به داده‌های خصوصی در سرورهایی باشد که حاوی پیام‌ها و ایمیل‌های شخصی کاربران هستند! یافته‌های این تحقیق در تاریخ 4 ژوئن (15 خرداد) در سرور پیش‌چاپ arXiv منتشر شده است.

پابلو ویلالوبوس (Pablo Villalobos)، سرپرست این مطالعه و یکی از محققان موسسه تحقیقاتی Epoch AI به لایو ساینس گفت:

اگر چت‌بات‌ها تمام داده‌های موجود را مصرف کنند و هیچ پیشرفت دیگری در زمینه بهره‌وری داده وجود نداشته باشد، انتظار رکود نسبی در این حوزه (هوش مصنوعی) را دارم. مدل‌ها تنها به واسطه کشف شدن بینش‌های الگوریتمی جدید و تولید طبیعی داده‌های جدید، به آرامی در طول زمان بهبود می‌یابند.

داده‌های آموزشی، سوخت اصلی سیستم‌های هوش مصنوعی هستند و به آن‌ها امکان می‌دهند تا الگوهای پیچیده‌تری را برای ریشه کردن در شبکه‌های عصبی خود بیابند. به عنوان مثال، ChatGPT با استفاده از تقریباً 570 گیگابایت داده متنی، یعنی معادل حدود 300 میلیارد کلمه برگفته از کتاب، مقالات آنلاین، ویکی‌پدیا و سایر منابع آنلاین آموزش دیده است.

هوش مصنوعی

الگوریتم‌هایی که با داده‌های ناکافی یا کم‌کیفیت آموزش داده می‌شوند، خروجی‌های نامناسبی تولید می‌کنند. هوش مصنوعی جِمینی (Gemini AI) گوگل که به خاطر توصیه‌های عجیب و غریبش مانند اضافه کردن چسب به پیتزا یا خوردن سنگ بدنام است، برخی از پاسخ‌های خود را از پست‌های ردیت و مقالات وب‌سایت طنز The Onion به دست آورده است! از همین رو بعضی اوقات چنین نتایج عجیبی را ارائه می‌دهد.

برای تخمین میزان متن موجود در فضای آنلاین، محققان از فهرست وب گوگل استفاده کردند و محاسبه کردند که در حال حاضر حدود 250 میلیارد صفحه وب وجود دارد که هر صفحه حاوی 7000 بایت متن است. سپس، آن‌ها با استفاده از تحلیل‌های بعدی ترافیک پروتکل اینترنت (IP) – جریان داده در سراسر وب – و فعالیت کاربران آنلاین، به پیش‌بینی رشد این ذخیره داده‌های در دسترس پرداختند.

نتایج نشان داد که اطلاعات باکیفیت، که از منابع قابل اعتماد به دست آمده است، حداکثر تا قبل از سال 2032 تمام خواهد شد و داده‌های با کیفیت پایین نیز بین سال‌های 2030 تا 2050 به اتمام خواهند رسید. در همین حال، داده‌های تصویری نیز بین سال‌های 2030 تا 2060 به طور کامل توسط چت‌بات‌ها مصرف خواهند شد.

شبکه‌های عصبی به طور قابل پیش‌بینی با افزایش مجموعه داده‌هایشان بهبود می‌یابند و این پدیده‌ای است که از آن با عنوان قانون مقیاس عصبی یاد می‌شود. بنابراین، این یک سوال باز است که آیا شرکت‌ها می‌توانند کارایی مدل‌های خود را برای جبران کمبود داده‌های جدید بهبود بخشند، یا اینکه خاموش شدن شیر اطلاعات باعث توقف پیشرفت مدل‌های هوش مصنوعی خواهد شد؟

با این حال، ویلالوبوس معتقد است که به نظر نمی‌رسد کمبود داده‌ها به طور چشمگیری مانع رشد مدل‌های هوش مصنوعی آینده شود. زیرا چندین رویکرد بالقوه وجود دارد که شرکت‌ها می‌توانند برای حل این مشکل از آن‌ها استفاده کنند.

وی افزود:

شرکت‌ها به طور فزاینده‌ای در تلاش هستند تا از داده‌های خصوصی برای آموزش مدل‌ها استفاده کنند. برای مثال می‌توان به تغییر سیاست آتی متا اشاره کرد که بر اساس آن، این شرکت اعلام کرده است از تاریخ 26 ژوئن (۶ تیر) از تعاملات انجام شده با چت‌بات‌ها در سراسر پلتفرم‌هایش برای آموزش هوش مصنوعی مولد خود استفاده خواهد کرد.

هوش مصنوعی

گزینه دیگر استفاده از داده‌های مصنوعی و تولید شده به وسیله هوش مصنوعی برای تغذیه مدل‌های تشنه اطلاعات است! البته، این روش تاکنون فقط در سیستم آموزش در بازی‌ها، کدگذاری و ریاضیات با موفقیت به کار گرفته شده است.

از طرف دیگر، اگر شرکت‌ها بدون اجازه اقدام به استفاده از محصولات تحت مالکیت افراد یا اطلاعات خصوصی کنند با چالش‌های حقوقی مواجه خواهند شد. در حال حاضر نیز نویسندگان و هنرمندان نسبت به استفاده بدون اجازه از آثارشان برای آموزش مدل‌های هوش مصنوعی اعتراض کرده‌اند و برخی از آن‌ها علیه شرکت‌هایی مانند مایکروسافت، OpenAI و Stability AI شکایت قضایی نیز مطرح نموده‌اند. یک استاد حقوق مالکیت فکری معتقد است که جبران مالی برای این آثار می‌تواند تا حدودی عدم توازن قدرت بین هنرمندان و شرکت‌های هوش مصنوعی را جبران کند.

مسئله مهم دیگری که باید به آن توجه داشت این است که بر اساس گزارش آژانس بین‌المللی انرژی، جستجوهای گوگل که از ChatGPT نیرو می‌گیرند، تقریباً ده برابر بیشتر از جستجوی سنتی انرژی مصرف می‌کنند. این موضوع باعث شده تا مدیران شرکت‌های فناوری به دنبال راه‌حل‌هایی مانند راه‌اندازی شرکت‌های نوپای انرژی هسته‌ای همجوشی باشند، اما این روش تولید انرژی هنوز در مراحل اولیه است و به مرحله عملیاتی نرسیده است.

در مجموع، به نظر می‌رسد کمبود داده‌های در دسترس عموم، چالش قابل توجهی برای توسعه هوش مصنوعی است. شرکت‌ها باید برای غلبه بر این چالش، راهکارهای خلاقانه‌ای مانند دریافت رضایت، ناشناس‌سازی داده‌ها و استفاده از داده‌های مصنوعی پیدا کنند. علاوه بر این، آن‌ها باید برای کاهش خطرات تعصب و عدم تعمیم‌پذیری در مدل‌های هوش مصنوعی نیز اقداماتی انجام دهند. منظور از تعصب این است که اگر مدل‌های هوش مصنوعی با داده‌های ناکافی یا مغرضانه آموزش ببینند، ممکن است نتایج مغرضانه یا نادرست تولید کنند. همچنین، عدم تعمیم‌پذیری به این موضوع اشاره دارد که مدل‌هایی که با داده‌های خاص آموزش دیده‌اند، ممکن است در هنگام مواجهه با داده‌های جدید که با داده‌های آموزشی آن‌ها متفاوت است، به خوبی عمل نکنند.

نوشته های مشابه

دکمه بازگشت به بالا