ميتا.. روبوتات تتحايل على حظر جمع البيانات لتدريب نماذجها الذكية
أطلقت شركة Meta روبوتات برمجية تقوم بجمع البيانات من الإنترنت لدعم نماذج الذكاء الاصطناعي والمنتجات ذات الصلة، ولكنها تأتي مجهزة بقدرات تجعل من الصعب على مالكي مواقع الويب منع جمع المحتوى الخاص بهم.
وقالت ميتا إن الروبوت الجديد، Meta-ExternalAgent، مصمم “لتطبيقات مثل تدريب نماذج الذكاء الاصطناعي أو تحسين المنتجات عن طريق فهرسة المحتوى مباشرة”. ويرتبط روبوت آخر، Meta-ExternalFetcher، بعرض المساعد الذكي للشركة ويجمع الروابط لدعم ميزات منتج معينة.
ظهرت هذه الروبوتات لأول مرة في يوليو الماضي، وفقًا للصفحات التعريفية المؤرشفة التي تم تحليلها بواسطة Originality.ai، وهي شركة ناشئة متخصصة في اكتشاف المحتوى الذي تم إنشاؤه باستخدام الذكاء الاصطناعي، وفقًا لموقع Business Insider.
في السباق لبناء أقوى نماذج الذكاء الاصطناعي، تتنافس الشركات الناشئة وعمالقة التكنولوجيا للحصول على بيانات تدريبية عالية الجودة، وإحدى الطرق الأساسية لتحقيق ذلك هي إرسال روبوتات برمجية إلى مواقع الويب لجمع المحتوى عبر تقنية “استخلاص البيانات” . والتي تستخدمها العديد من الشركات، بما في ذلك Google وOpenAI وAnthropic، لتدريب نماذجها الذكية.
الذكاء الاصطناعي يقوض النظام
وعندما يريد أصحاب المحتوى منع هذه الروبوتات من جمع المحتوى المنشور على صفحات مواقعهم الإلكترونية، فإنهم يعتمدون على قاعدة قديمة تعرف بملف “robots.txt”، حيث تكتب المواقع سلسلة من الأوامر والتعليمات التي توضح ما هو مسموح به لهذه الروبوتات للقيام به. وممنوع فعله. يعد هذا الملف جزءًا أساسيًا من القواعد غير الرسمية التي عززت بنية الإنترنت منذ أواخر التسعينيات.
ومع ذلك، فإن الحاجة الماسة إلى بيانات تدريب الذكاء الاصطناعي قد قوضت هذا النظام، وفي يونيو الماضي تم الكشف عن أن OpenAI وAnthropic كانا يتجاهلان القواعد المدرجة في ملف “robots.txt” على مواقع الويب.
ويبدو أن Meta تتخذ نهجا مماثلا، حيث حذرت الشركة من أن الروبوت الجديد Meta-ExternalFetcher “يمكنه تجاوز قواعد ملف robots.txt”، بالإضافة إلى الإشارة إلى أن الروبوت الخاص بها Meta-ExternalAgent لديه اثنين أحدهما هو جمع بيانات التدريب للذكاء الاصطناعي، والآخر هو فهرسة المحتوى على مواقع الويب، مما يعقد عملية حجبها.
قد يرغب أصحاب مواقع الويب في منع Meta من استخدام بياناتهم لتدريب نماذج الذكاء الاصطناعي، لكنهم في الوقت نفسه قد يكونون سعداء بفهرسة مواقعهم لزيادة حركة المرور، لذلك تلجأ Meta إلى الجمع بين الوظيفتين في روبوت واحد، مما يجعل من الصعب حاجز.
وفقًا لتقرير “Originality.ai”، فإن 1.5% فقط من المواقع الرئيسية تحظر روبوت Meta-ExternalAgent الجديد.
تدريب نماذج الذكاء الاصطناعي
في المقابل، تم حظر برنامج FacebookBot الأقدم لشركة Meta، والذي كان يجمع البيانات لسنوات لتدريب نماذج لغوية كبيرة وتقنيات التعرف على الصوت، من قبل حوالي 10٪ من المواقع الرئيسية، بما في ذلك X وYahoo، حسبما ذكرت Originality.
أما الروبوت الجديد الآخر، Meta-ExternalFetcher، فقد تم حظره بواسطة أقل من 1% من المواقع الرئيسية.
قال جون يلهام، الرئيس التنفيذي لشركة Originality.ai: “يجب على الشركات منح المواقع القدرة على منع استخدام بياناتها في التدريب دون تقليل ظهور محتواها في منتجاتها”.
وأشار غيلهام إلى أن ميتا لا تحترم القرارات السابقة التي اتخذها أصحاب المواقع الذين قاموا بحظر الروبوتات القديمة. على سبيل المثال، إذا قام أحد المواقع بحظر “FacebookBot” لمنع استخدام بياناته لتدريب “نماذج اللغة لتقنية التعرف على الكلام”، فمن المحتمل أن يحدث هذا. يريد أيضًا حظر Meta-ExternalAgent لمنع استخدام بياناته لتدريب “نماذج الذكاء الاصطناعي”، لذلك كان من الواضح أن الحظر سيتم تطبيقه تلقائيًا.
وعلق متحدث باسم شركة Meta على هذه الانتقادات، موضحًا أن الشركة “تحاول تسهيل الأمر على الناشرين لتحديد تفضيلاتهم”.
وأضاف في رسالة بالبريد الإلكتروني إلى Business Insider: “نحن، مثل الشركات الأخرى، نقوم بتدريب نماذج الذكاء الاصطناعي التوليدية الخاصة بنا على المحتوى المتاح للجمهور عبر الإنترنت، وندرك أن بعض الناشرين وأصحاب المواقع يريدون خيارات عندما يتعلق الأمر بمواقعهم والذكاء الاصطناعي التوليدي”. . .
وأضاف المتحدث أن ميتا لديها عدة روبوتات لجمع البيانات من الإنترنت، لتجنب “جمع كل التطبيقات تحت وكيل واحد، مما يوفر مرونة أكبر للناشرين على الإنترنت”.