fbpx

Google-ის ხელოვნურ ინტელექტს ახლა უკვე შეუძლია თქვენი საუბარი თქვენივე ხმით გადათარგმნოს


გააზიარე სტატია


მკვლევრებმა შეისწავლეს ნეირონული ქსელი ერთი ენიდან მეორეში  “ხმოვანი ანაბეჭდების” “გადასათარგმნად”.

მოუსმინეთ ესპანურ, ასევე ტრადიციული ავტომატური და ახალი ავტომატური სისტემებით თარგმნილ აუდიოკლიპებს.

 

შედეგები არ არის იდეალური,  მაგრამ თქვენ შეგიძლიათ გაიგოთ, როგორ დაიმახსოვრა გუგლის მთარგმნელმა პირველწყაროს  ხმა და ტონი. სისტემა აუდიოვერსიას  ყოველგვარი შუამავლების გარეშე, პირდაპირ აუდიოვერსიად გარდასახავს.  

ამის საპირისპიროდ, ტრადიციული სათარგმნი სისტემა აუდიოვერსიას გარდაქმნის ჯერ ტექსტად, თარგმნის ტექსტს, ხოლო შემდეგ ასინთეზირებს ისევ აუდიოვერსიას, რა დროსაც იკარგება ორიგინალური ხმის მახასიათებლები.


ახალი სისტემა – Translatotron –  სამი კომპონენტისგან შედგება, რომელთაგანაც თითოეული უყურებს სპიკერის ხმოვან სპექტოგრამას – ვიზუალურ კადრს, რომელიც წარმოიქმნება ხმის გაჟღერების დროს.  ხშირად მას “ხმოვან ანაბეჭდსაც” უწოდებენ.


პირველი კომპონენტი ნეირონული ქსელის გამოყენებით ქმნის აუდიოსპექტოგრამას  გადასათარგმნი ენიდან თარგმნილ ენაზე.  მეორე გარდაქმნის სპექტოგრამას ხმოვან ტალღად, რომელიც შემდეგ უნდა გაჟღერდეს. მესამე კომპონენტს კი შეუძლია სპიკერის ორიგინალური ვოკალური  მახასიათებლები შეუთავსოს საბოლოო ხმოვან პროდუქტს

ამ მიდგომით შეიქმნება არა მხოლოდ ზუსტი თარგმანები, რომლებიც მნიშვნელოვან არავერბალურ სიგნალებს ინახავენ, არამედ, თეორიულად, მას შეუძლია თარგმნის დროს შეამციროს შეცდომების რაოდენობა, თუნდაც იმის გამო, რომ ამოცანის შესრულებას ბევრად ნაკლები ნაბიჯი სჭირდება.

Translatotron ჩვენს დროში უკვე კონცეფციის მტკიცებულებაა. შემოწმებისას მკვლევრებმა  სისტემა მხოლოდ ესპანურიდან ინგლისურად თარგმნაში გამოსცადეს, რის საფუძველზეც უკვე არსებობს ყურადღებით შერჩეული სწავლების მონაცემები.

ზემოთ მოტანილი ხმოვანი კლიპების მსგავსი აუდიოპროდუქტი წარმოადგენს კომერციული სისტემის პოტენციალს მომავალში. მოისმინეთ ახალი სისტემით თარგმნის სხვა მაგალითებიც.

 

 

 

 

 

 

 

 

ორიგინალი:https://www.technologyreview.com/


მიიღე ყოველდღიური განახლებები!
სიახლეების მისაღებად მოგვწერეთ თქვენი ელ.ფოსტა.