Τα μεγάλα γλωσσικά μοντέλα (LLM) εκπαιδεύονται σε ένα τεράστιο εύρος συνόλων δεδομένων, αντλώντας πληροφορίες από το Διαδίκτυο. Τι θα γινόταν όμως αν ένα τέτοιο μοντέλο εκπαιδευόταν με πληροφορίες από το σκοτεινό Διαδίκτυο (Dark Web) το οποίο χρησιμοποιείται κυρίως για παράνομες και κακόβουλες δραστηριότητες; Μια ομάδα ερευνητών από τη Νότια Κορέα έκανε ακριβώς αυτό με το μοντέλο τεχνητής νοημοσύνης που ανέπτυξε και το οποίο ονόμασε DarkBERT, σύμφωνα με την ερτ.
Μπορεί να ακούγεται τρομακτικό, αλλά οι ερευνητές λένε ότι το DarkBERT έχει καλές προθέσεις: προσπαθεί να βρει νέους τρόπους καταπολέμησης του εγκλήματος στον κυβερνοχώρο, έναν τομέα που χρησιμοποιεί όλο και περισσότερο την επεξεργασία φυσικής γλώσσας.
Η ερευνητική ομάδα συνέδεσε το μοντέλο της με το δίκτυο Tor, ένα σύστημα πρόσβασης σε τμήματα του σκοτεινού ιστού. Στη συνέχεια δημιούργησε μια βάση δεδομένων με τα ακατέργαστα δεδομένα που βρήκε. Η ομάδα διαπίστωσε πως το νέο μοντέλο ήταν πολύ πιο αποτελεσματικό από άλλα που εκπαιδεύτηκαν για να πραγματοποιήσουν παρόμοιες εργασίες.
Όπως για παράδειγμα το RoBERTa που σχεδιάστηκε από ερευνητές του Facebook το 2019 για να προβλέπει σκόπιμα κρυμμένα τμήματα κειμένου μέσα σε διαφορετικά μη σχολιασμένα γλωσσικά παραδείγματα.
Η ομάδα προτείνει ότι το DarkBERT θα μπορούσε να χρησιμοποιηθεί για διάφορες εργασίες που σχετίζονται με την κυβερνοασφάλεια, όπως ο εντοπισμός ιστότοπων που πωλούν ransomware ή διαρρέουν εμπιστευτικά δεδομένα. Θα μπορούσε επίσης να χρησιμοποιηθεί για να παρακολουθεί διάφορα φόρουμ του σκοτεινού ιστού για τον εντοπισμό οποιασδήποτε ανταλλαγής παράνομων πληροφοριών.