23 Δεκεμβριου 2010
Posted in
Επικαιρότητα
5,2 εκατ. βιβλία στο µικροσκόπιο της Google!
Ενα ψηφιακό παράθυρο στην ιστορία των δύο τελευταίων αιώνων για ερευνητές αλλά και απλούς χρήστες του Διαδικτύου άνοιξε από χθες η Google, καθώς ολοκληρώθηκε το τιτάνιο έργο της ψηφιοποίησης 500 δισεκατοµµυρίων λέξεων που περιέχονται σε 5,2 εκατοµµύρια τίτλους βιβλίων.
«Ο “Θεός” δεν πέθανε, αλλά είναι βέβαιο ότι χρειάζεται έναν καλό επικοινωνιολόγο». Αυτή είναι µία από τις πολλές διαπιστώσεις στις οποίες κατέληξαν οι ερευνητές του Πανεπιστηµίου του Χάρβαρντ µετρώντας τη συχνότητα εµφάνισης της λέξης «Θεός» στα βιβλία που έχουν εκδοθεί από το1800 έως το 2000. Γράφοντας τη λέξη στην ιστοσελίδα Ngrams.GoogleLabs.com και µε ένα κλικ στο ποντίκι τους, οι αµερικανοί ερευνητές διαπίστωσαν ότι η χρήση της λέξης «Θεός» παρουσιάζει µια σταθερή συχνότητα, χωρίς όµως να «απογειωθεί» ποτέ. Εντελώς αντίθετη είναι η πορεία της λέξης «σεξ». Η σεξουαλική επανάσταση της δεκαετίας του 1960 αλλά και η γυναικεία χειραφέτηση αποτυπώνονται εµφανώς στη συχνότητα της λέξης στα βιβλία.
Οταν το 2003 η Google ανακοίνωσε την απόφασή της να προχωρήσει στην ψηφιοποίηση αυτού του τεράστιου όγκου τίτλων και λέξεων, πολλοί έσπευσαν να προδικάσουν την αποτυχία του εγχειρήµατος. Επτά χρόνια αργότερα, το τιτάνιο έργο ολοκληρώθηκε και οι Κασσάνδρες διαψεύστηκαν. Όπως και το Google Earth, ένα από τα πλέον δηµοφιλή «παιδιά» της µεγαλύτερης µηχανής αναζήτησης στον κόσµο, έτσι και η υπηρεσία Ngrams Viewer παρέχεται δωρεάν στους χρήστες του διαδικτύου. Μέχρι στιγµής στη βάση δεδοµένων του περιέχονται 5,2 εκατοµµύρια τίτλοι. Τα βιβλία που ψηφιοποιήθηκαν είναι γραµµένα στα αγγλικά, τα γαλλικά, τα γερµανικά, τα ρωσικά, τα κινεζικά, τα ισπανικά και τα εβραϊκά.
Στις λέξεις, η µερίδα του λέοντος ανήκει στα αγγλικά µε 361 δισεκατοµµύρια και ακολουθούν τα γαλλικά και τα ισπανικά (45 δισ.), τα γερµανικά (37 δισ.), τα ρωσικά (35 δισ.), τα κινεζικά (13 δισ.) και τα εβραϊκά (2 δισ.).
«Είναι πρωτοφανές», δηλώνει στην εφηµερίδα «Λε Φιγκαρό» ο καθηγητής Γλωσσολογίας Ζαν Βερονί. «Όταν οι Βρετανοί ψηφιοποίησαν περίπου χίλιες λέξεις το 1980, θεωρήθηκε επανάσταση. Με την Google µιλάµε για µια εντελώς διαφορετική τάξη µεγέθους. Εάν γράφαµε όλες αυτές τις λέξεις τη µία πίσω από την άλλη, θα καλύπταµε την απόσταση από τη Γη στη Σελήνη είκοσι φορές», προσθέτει.
Στο Χάρβαρντ
Επικεφαλής της επιστηµονικής οµάδας του Χάρβαρντ που ανέλαβε να φέρει εις πέρας το εγχείρηµα πριν από επτά χρόνια είναι ο 28χρονος Γάλλος Ζαν Μπατίστ Μισέλ και ο Ερέζ Λίµπερµαν Αϊντεν, αµερικανός µαθηµατικός, φυσικός και φιλόσοφος. Η οµάδα εργάστηκε µε απόλυτη µυστικότητα, καθόρισε τους αλγόριθµους και τους πίνακες συχνότητας που επιτρέπουν την καταγραφή όλων των λέξεων που περιέχονται στα ψηφιοποιηµένα βιβλία, αποκρυπτογραφώντας στην ουσία δύο αιώνες εξέλιξης στην κοινωνία και τον πολιτισµό. Για να αποφύγουν ενδεχόµενες επιπλοκές µε τα πνευµατικά δικαιώµατα, οι ερευνητές έπρεπε να στερήσουν τις λέξεις από το περιεχόµενό τους, να τις συρρικνώσουν στο πιο απλό τους νόηµα.
Οι λέξεις αυξάνονται συνεχώς
Ενα από τα συµπεράσµατα στα οποία κατέληξαν είναι ότι οι λέξεις δεν έπαψαν να αυξάνονται από το 1900. Εκείνη τη χρονιά καταγράφηκαν 544.000 λέξεις, το 1950 έφτασαν τις 597.000, για να ξεπεράσουν το 2000 το ένα εκατοµµύριο.
Οπως είναι φυσικό, τα λεξικά δεν µπόρεσαν να παρακολουθήσουν αυτή την εξέλιξη. Είναι χαρακτηριστικό ότι το 52% των λέξεων που χρησιµοποιούνται στα βιβλία το 2000 δεν υπάρχουν ως λήµµατα στα δυο βασικά λεξικά της αγγλικής γλώσσας που κυκλοφορούν στις Ηνωµένες Πολιτείες. Το ίδιο ισχύεικαι για τη βρετανική εγκυκλοπαίδεια Britannica.
Στο µέλλον θα δικαιούµαστε... 7½ λεπτά δηµοσιότητας
Αρκεί πλέον ένα κλικ για να δει κανείς πως οι «γυναίκες» µνηµονεύονται ελάχιστα σε σχέση µε τους «άνδρες» έως τη δεκαετία του 1960 και ότι αυτή η τάση άλλαξε όσο δυνάµωνε το κίνηµα του φεµινισµού. Τα δύο φύλα διασταυρώθηκαν για πρώτη φορά το 1986, χρονιά που η συχνότητα εµφάνισης της λέξης «γυναίκες» ισοφάρισε τη συχνότητα εµφάνισης της λέξης «άνδρες». Από τότε το «ασθενές φύλο» προηγείται σταθερά. Ενδιαφέρον έχει επίσης το γεγονός ότι µερικά από τα µεγαλύτερα είδωλα της ποπ κουλτούρας, όπως ο Μίκι Μάους και η Μέριλιν Μονρόε, απασχολούν πολύ λιγότερο τους συγγραφείς απ’ ό,τι αµερικανοί πρόεδροι που διακρίθηκαν ιδιαίτερα για την προεδρία τους, όπως ο Τζίµι Κάρτερ.
Ορισµένα χρήσιµα συµπεράσµατα εξάγονται και από το γεγονός ότι η «πλατεία Τιενανµέν» έχει συντριπτικά περισσότερες αναφορές στα αγγλικά σε σχέση µε τα κινέζικα ή πως οι κλασικοί της αρχαιότητας χάνουν συνεχώς έδαφος µε τον Πλάτωνα πάντως να εµφανίζεται ως ο πλέον δηµοφιλής. Ενα από τα πιο αξιοσηµείωτα συµπεράσµατα είναι πόσο έχει µειωθεί η διάρκεια της φήµης. Η οµάδα του Χάρβαρντ διαπίστωσε ότι στα µέσα του 20ού αιώνα η δόξα που απολάµβανε ένα πρόσωπο έσβηνε 2,5 φορές πιο γρήγορα σε σχέση µε τις αρχές του 19ου αιώνα. «Στο µέλλον ο καθένας θα είναι διάσηµος για 7½ λεπτά», δήλωσε ο Ερέζ Λίµπερµαν Αϊντεν στους «Νιου Γιορκ Τάιµς». Ούτε καν τα δεκαπέντε λεπτά του Αντι Γουόρχολ...
21/12/2010 - Περικλής Δημητρολόπουλος / tanea.gr
τελευταία άρθρα
- Ασφάλεια των δεδομένων μας: Μια εξαρχής χαμένη υπόθεση...
- Πώς η Tesla επαναστατικοποίησε την ηλεκτροκίνηση
- Terramaster F4-423: Το NAS που θέλει να τα κάνει όλα (και να συμφέρει)
- Synology DS923+
- Συγκριτικό δωρεάν NAS προγραμμάτων 2023
- Windows 11
- Apple M1: Επανάσταση στους επεξεργαστές ή κόλπο του (Apple) marketing;
- USB 4.0 - Το next big thing της πληροφορικής
- Εξηγώντας το SMR σκάνδαλο των κατασκευαστών σκληρών δίσκων
- Συγκριτικό προγραμμάτων NAS, έτος 2020
δημοφιλή άρθρα / νέα
- Οι ελληνικές εφημερίδες στο διαδίκτυο
- Ducky 1008 Black ALPS: Ένα φθηνό gaming keyboard
- Σπάζοντας το WPA/WPA2 ασύρματο δίκτυο σε λίγες ώρες
- Chat Roulette: Νέα μόδα online chat
- Συγκριτικό WinZip vs. WinRar vs. 7-Zip: Ποιο είναι το καλύτερο συμπιεστικό σήμερα;
- Πώς να κάνετε τον υπολογιστή σας γρηγορότερο σε 5'
- ΟΣΕ: Κράτηση εισιτηρίων μέσω διαδικτύου
- Digea: Γιατί η ψηφιακή τηλεόραση δεν έχει την ποιότητα εικόνας που θα θέλαμε;
- Ποια κάρτα γραφικών να αγοράσω;
- Φτηνά laptop: Compaq Presario CQ61 - 410SV