Παρασκευή 16 Μαρτίου 2018

Η Τεχνητή Νοημοσύνη της Baidu μιμείται με ακρίβεια τη φωνή σου, αρκεί να σε ακούσει για 1 λεπτό!


Η Baidu αποκαλείται πολλές φορές ως “η Google της Κίνας”, καθώς εκτός από τη μηχανή αναζήτησης καταπιάνεται και αυτή με πολλούς διαφορετικούς τομείς της τεχνολογίας. Ένας από αυτούς είναι και η Τεχνητή Νοημοσύνη, με την εταιρεία να έχει αναπτύξει ένα σύστημα που μπορεί να μιμηθεί τη φωνή του χρήστη με ακρίβεια, αρκεί να την έχει ακούσει για περίπου 1 λεπτό!
Όπως δήλωσε στην ιστοσελίδα Digital Trends ο Leo Zou, εκπρόσωπος της Baidu,

“Από τεχνικής σκοπιάς είναι ένα πολύ σημαντικό επίτευγμα που αποδεικνύει ότι ένα πολύπλοκο
πρόβλημα όπως είναι η σύνθεση ομιλίας, μπορεί να επιλυθεί με τη χρήση ενός πολύ μικρού δείγματος. Παλαιότερα, η εκμάθηση απαιτούσε πολύωρη εκπαίδευση της Τεχνητής Νοημοσύνης και όχι με τόσο ακριβή αποτελέσματα”
Να σημειωθεί, βέβαια, ότι η τεχνολογία φωνητικής σύνθεσης της Baidu δεν είναι απόλυτα πειστική στο τελικό αποτέλεσμα, αλλά βρίσκεται πολλά βήματα μπροστά από οτιδήποτε έχουμε ακούσει μέχρι σήμερα από άλλες παρόμοιες τεχνολογίες. Το project βασίστηκε στο σύστημα Deep Voice της Baidu, το οποίο έχει εκπαιδευτεί για περίπου 800 ώρες. Κανονικά χρειάζεται να ακούσει 100 ηχητικά διάρκειας 5 δευτερολέπτων για να ακούγεται στην καλύτερη δυνατή κατάσταση, αλλά μια έκδοση της τεχνολογίας εκπαιδεύτηκε με μόλις 10 τέτοια δείγματα (διάρκειας 5 δευτερολέπτων το καθένα) και κατάφερε να ξεγελάσει ένα σύστημα αναγνώρισης φωνής 95 στις 100 φορές!
Ο Leo Zou συνέχισε αναφέροντας:
“Οι πιθανές εφαρμογές της τεχνολογίας είναι πολλές και εντυπωσιακές. Για παράδειγμα, θα μπορούσαμε να κλωνοποιήσουμε τη φωνή ασθενών που έχουν χάσει τη φωνή τους ή να φτιάξουμε custom audiobooks που θα διαβάζουν βιβλία στα παιδιά με τη φωνή της μητέρας τους. Ακόμη, είναι εφικτή η δημιουργία original περιεχομένου, αφού εκατοντάδες χαρακτήρες σε ένα video game θα μπορούσαν να έχουν μοναδικές φωνές. Μια άλλη ενδιαφέρουσα εφαρμογή θα μπορούσε να είναι η μεταγλώττιση σε πραγματικό χρόνο της ομιλίας (βλ. Skype Translator) με τη φωνή του ομιλητή”
Μπορείτε να ακούσετε δείγματα της τεχνολογίας της Baidu από εδώ.
[via]

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου

Υποβάλλοντας το σχόλιο σου επιβεβαιώνεις ότι έχεις διαβάσει και αποδεχθεί τους όρους χρήσης και σχολιασμού του μπλογκ. Η ευθύνη των σχολίων (αστική και ποινική) βαρύνει τους σχολιαστές.
http://eleusisdiagoridon.blogspot.gr/2013/08/blog-post_49.html