الذكاء الاصطناعي: هل تنجح برامج رائدة في الكشف عن التزييف العميق؟
- Author, جيمس كلايتون
- Role, مراسل شؤون التكنولوجيا في أمريكا الشمالية
في مارس / آذار من العام الماضي، انتشر مقطع فيديو يظهر الرئيس الأوكراني فولوديمير زيلينسكي، وهو يطلب من شعب أوكرانيا إلقاء أسلحتهم والاستسلام لروسيا.
لقد كان التزييف العميق واضحا جدا في مقطع الفيديو ذاك، والتزييف العميق هو التقنية التي تستخدم الذكاء الاصطناعي لتبديل الوجوه أو إنتاج نسخة رقمية لشخص ما.
ولكن نظرا لأن تطورات الذكاء الاصطناعي تجعل من إنتاج فيديوهات التزييف العميق أمرا سهلا، فقد بات اكتشافها بشكل سريع أمرا أكثر أهمية وإلحاحا.
تعتقد شركة إنتل للتكنولوجيا Intel أن لديها الحل، وترى أن الأمر برمته يتعلق بالدماء التي تسري في وجهك، فما الذي يعنيه ذلك؟
أطلقت الشركة على النظام الذي يكشف التزييف العميق اسم فيك كاتشر “FakeCatcher”.
في مكاتب إنتل الفخمة، والخاوية تقريبا، في وادي السيليكون في الولايات المتحدة، نلتقي عالمة الأبحاث في مختبرات إنتل، إيلك ديمير، التي تشرح لنا آلية عمل نظام الكشف عن التزييف.
وتقول لنا: “نتساءل ما الحقيقي في مقاطع الفيديو الأصلية؟ وما الحقيقي بالنسبة لنا كأشخاص؟ ما هي العلامة التي تشير إلى أن شخصا ما هو بشر حقيقي؟”.
تعد التقنية المسماة، فوتوبليثيسموغرافي Photoplethysmography (PPG)، والتي تكتشف التغيُّرات في تدفق الدم في الجسم، مركزية في هذا النظام.
تقول ديمير إن الوجوه التي تنتَج عبر استخدام تقنية التزييف العميق لا تعطي هذه الإشارات.
كما يقوم النظام أيضا بتحليل حركة العين للتأكد من أنها حقيقية.
” عادة عندما ينظر البشر إلى نقطة ما، عندما أنظر إليك على سبيل المثال، يبدو الأمر كما لو أنني أطلق أشعة من عيني نحوك… لكن بالنسبة إلى تقنية التزييف العميق تبدو العيون محدقة بطريقة فارغة وسخيفة، أي تكون نظرتها زائغة ويعوزها التركيز”.
من خلال النظر في هاتين السمتين، تعتقد إنتل Intel أنها تستطيع إيجاد الفرق بين الفيديو الحقيقي والمزيف في غضون ثوان قليلة.
وتزعم الشركة أن نظام كشف التزييف FakeCatcher دقيق بنسبة 96 في المئة. لذلك طلبنا تجربة النظام، وقد وافقت الشركة على التجربة.
استخدمنا عشرات مقاطع الفيديو للرئيس الأمريكي السابق دونالد ترامب والرئيس جو بايدن.
كان بعض تلك المقاطع حقيقيا، وبعضها الآخر كان منتجَا باستخدام تقنية التزييف العميق، من قبل معهد ماساشوستس للتكنولوجيا (MIT)، في الولايات المتحدة.
فيما يتعلق بالتعرف على مقاطع الفيديو المنطوية على التزييف العميق، بدا أن النظام يعمل بشكل فعال جدا.
اخترنا في الغالب مقاطع فيديو حقيقية عُدل فيها تناغم الصوت مع الصورة، أي تم فيها تغيير الفم والصوت.
وقد نجح نظام FakeCatcher في الكشف عنها كلها، باستثناء مقطع واحد.
ولكن على الرغم من نجاح البرنامج لدرجة كبيرة في حالة الفيديوهات المزيفة، إلا أنه عندما بدأنا بتجربة فحص مقاطع فيديو حقيقية وأصلية، بدأ النظام بمواجهة المشاكل والصعوبات.
وفي عدة مرات خلص النظام إلى إن الفيديو كان مزيفا، في حين أنه كان حقيقيا.
مرد ذلك بصورة أو بأخرى، إلى أنه كلما كان مقطع الفيديو أقل وضوحا (أي يمكن رؤية الوحدات المتناهية في الصغر المكونة للصورة بوضوح)، يصعب الكشف عن تغيرات تدفق الدم.
كما أن نظام FakeCatcher غير قادر على تحليل الصوت، لذلك صُنفت بعض مقاطع الفيديو التي بدت حقيقية إلى حد ما من خلال الاستماع إلى الصوت، على أنها مزيفة.
والمثير للقلق هو أنه إذا ما صنف البرنامج مقطع فيديو ما على أنه مزيف، فقد يتسبب في مشاكل حقيقية عندما يكون المقطع في واقع الأمر أصليا.
عندما أوضحنا هذه النقطة للسيدة ديمير، قالت إن “التحقق من شيء ما على أنه مزيف ، مقابل التحذير من أن مقطعا ما قد يكون مزيفا، هما أمران يقيّمان بشكل مختلف”.
إنها تقول إن النظام شديد الحذر، وإن تحديد جميع المنتجات المزيفة، وتصنيف بعض مقاطع الفيديو الحقيقية أيضا على أنها ربما تكون مزيفة، هو أفضل بطبيعة الحال من عدم تحديد الفيديوهات المزيفة بالمطلق”.
يمكن أن يكون التزييف العميق دقيقا بشكل لا يصدق: على سبيل المثال مقطع مدته ثانيتان في إعلان حملة سياسية. كما أنه عندما يكون مقطع فيديو ما ذي جودة منخفضة، يمكن استخدام التزييف العميق من خلال تغيير الصوت فقط.
في هذا الصدد، تم التشكيك في قدرة نظام FaceCatcher على العمل “على نطاق واسع” – في سياقات واقعية.
مات غرو هو أستاذ مساعد في جامعة نورث وسترن في إلينوي، وخبير في تقنية التزييف العميق.
يقول: “لا أشك في الإحصائيات التي أدرجوها في تقييمهم الأولي… ولكن ما أشك فيه هو ما إذا كانت تلك الإحصائيات ذات صلة بسياقات العالم الحقيقي”.
وبالطبع في سياق الواقع يصعب تقييم تقنية FakeCatcher.
غالبا ما تقدم برامج، مثل أنظمة التعرف على الوجه، إحصائيات سخية للغاية حول دقتها.
لكن على الرغم من ذلك، عند اختبارها فعليا وعمليا في العالم الحقيقي، يمكن أن تبدو أقل دقة.
في وقت سابق من هذا العام، اختبرت بي بي سي نظام التعرف على الوجه لبرنامج Clearview AI، باستخدام صور خاصة بها. وعلى الرغم من أن فعالية التقنية كانت مثيرة للإعجاب، إلا أنه كان من الواضح أيضا أنه كلما كان بالإمكان رؤية الوحدات المتناهية في الصغر المكونة للصورة بوضوح، وكلما كانت صورة الوجه جانبية، أصبحت قدرة البرنامج على التعرف على شخص ما أقل فعالية.
وبطبيعة الحال تعتمد الدقة، من حيث الجوهر، بشكل كلي على صعوبة الاختبار.
تزعم شركة Intel أن برنامج FakeCatcher قد خضع لاختبارات صارمة، من ضمنها اختبار “موسع” – حيث جمعت الشركة 140 مقطع فيديو مزيفا – إلى جانب نفس العدد من مقاطع الفيديو الأصلية.
وتقول الشركة إنه في هذا الاختبار، حقق النظام نسبة نجاح بلغت 91 في المئة.
لكن على الرغم من ذلك ينشد مات غرو وباحثون آخرون تحليل واختبار النظام من قبل جهة مستقلة، إذ إنهم يعتقدون أن إجراء شركة Intel اختبارا لمنتَجها بنفسها، ليس كافيا.
يقول غرو: “أرغب بتقييم هذه الأنظمة”.
ويضيف: “أعتقد أن إجراء تلك الاختبارات المستقلة مهم حقا عندما نكون بصدد تصميم عمليات تدقيق ومحاولة فهم مدى دقة شيء ما في سياق العالم الحقيقي”.
من المثير للدهشة مدى صعوبة التمييز بين مقطع فيديو مزيف وآخر حقيقي – وهذه التكنولوجيا لديها بالتأكيد إمكانيات واعدة في هذا المجال.
ولكن من خلال اختباراتنا المحدودة، يبدو حتى الآن على الأقل، أن الطريق أمامها ما زال طويلا.