Το Corpus Προφορικού Λόγου αποτελεί ένα σύνολο ψηφιακών αρχείων, το οποίο ενημερώνεται και εμπλουτίζεται ανάλογα με τις δυνατότητες και τις ανάγκες του ερευνητικού προγράμματος (Παυλίδου 2016) και απαρτίζεται από τέσσερις συνιστώσες (βλ. Παυλίδου 2024):
1. Οπτικοακουστικό υλικό: Πρόκειται για ηχογραφήσεις ή βιντεοσκοπήσεις γλωσσικής επικοινωνίας σε φυσικές περιστάσεις με τα μεταδεδομένα τους.
2. Απομαγνητοφωνημένο υλικό: Αποτελεί υποσύνολο του 1. που έχει απομαγνητοφωνηθεί σύμφωνα με τις συμβάσεις της Ανάλυσης Συνομιλίας (βλ. Σύμβολα απομαγνητοφώνησης). Περιλαμβάνει ποικίλα είδη λόγου με διαφορετικό βαθμό θεσμικότητας:
- καθημερινές συνομιλίες μεταξύ φίλων και συγγενών (δείγμα)
- τηλεφωνικές συνδιαλέξεις (δείγμα)
- γλωσσική διεπίδραση στη σχολική τάξη (διδακτικές ώρες) (δείγμα)
- τηλεοπτικά δελτία ειδήσεων (δείγμα)
- τηλεοπτικές συνεντεύξεις με πολιτικά πρόσωπα (δείγμα)
- συνεντεύξεις/συζητήσεις με Ελληνίδες και Έλληνες της διασποράς (δείγμα)
- άλλα
Το απομαγνητοφωνημένο υλικό υπερβαίνει αυτή τη στιγμή τα 2,3 εκατομμύρια λέξεις. Επισημαίνεται ότι τα απομαγνητοφωνημένα κείμενα διαφοροποιούνται μεταξύ τους ως προς τον βαθμό επεξεργασίας και την ποιότητα της απομαγνητοφώνησής τους.
3. Αναρτημένο υλικό: Αποτελεί υποσύνολο του 2. και μπορεί να χρησιμοποιηθεί διαδικτυακά με απλή εγγραφή για την αναζήτηση λέξεων, συχνοτήτων κτλ. Αυτή τη στιγμή περιλαμβάνει:
- 40 καθημερινές συνομιλίες μεταξύ φίλων και συγγενών
- 145 τηλεφωνικές συνδιαλέξεις
- 17 τηλεοπτικές συζητήσεις με πολιτικά πρόσωπα
- 26 διασπορικές συνεντεύξεις/συζητήσεις
4. Επισημειωμένο υλικό: Μέρος του αναρτημένου υλικού (βλ. 3.), και συγκεκριμένα οι 145 τηλεφωνικές συνδιαλέξεις, έχει υποβληθεί σε χειρωνακτική επισημείωση ως προς τα μέρη του λόγου και τις ανεξάρτητες ερωτηματικές προτάσεις. Τα αποτελέσματα συνοψίζονται σε δύο αρχεία Excel.