Voice to Text

אורתודוכס
הודעות: 322
הצטרף: 12:19 25/09/2018
מיקום: בני ברק

Voice to Text

שליחהעל ידי אורתודוכס » 22:49 12/01/2019

שירותים מסורתיים של תמלול קולי לטקסט-Voice to Text עומדים בפני הכחדה
מאת: מיכאל פנחס, 5.1.19, 17:37מיכאל פנחס

מי מספק שירותי תמלול קולי לטקסט (Voice to Text) בישראל? מהן מערכות תוכנות לתמלול הקלטות? מהן המערכות החכמות מבוססות AI המבצעות גם תמלול? דוגמאות לפתרונות החדשים בתחום "התמלול החכם" משולב AI, וחידושים בתחום זיהוי דיבור לעסקים ותמלול שיחות. האם המעבר לענן ומעבר לשימוש בבינה מלאכותית וצ'אטבוטים יחסלו את המקצוע המסורתי?

המרת קובץ קול לטקסט - Voice to Text הוא שירות מקצועי מאוד ותיק, שישראל התקדם מעט מאוד, בעיקר בגלל חוסר מודעות של מנהלים והצרכנים של השירות הזה לאן התחום הזה התפתח בשנים האחרונות, ובמיוחד במעבר ל"שירותי ענן".

לא מעט בעלי עסקים, לצד ארגונים ממשלתיים וציבוריים, נעזרים בשירותי תמלול הקלטות וזאת עבור מגוון סיטואציות סביב שירותי הקלטה ותמלול. מי שטרם נתקל בצורך של תמלול שיחה שהוקלטה, יש להניח, שלא יבין עד כמה שירות כמו תמלול אודיו לטקסט ובכלל זה: תמלול הקלטות, תמלול פרוטוקולים מחדרי ישיבות, תמלול שיחות ומפגשים עסקיים, תמלול עדויות ותצהירים בע"פ, תמלול ישיבות, דיונים, בוררויות, ועוד, הוא כה חשוב.

שירותי תמלול שמע לטקסט בעברית מספקים מענה לציבור מכל קשת המגזרים. תמלול משפטי עשוי להוות מרכיב מהותי כחלק מהצלחת תיק בבית המשפט או חקירה, תמלול הקלטות טוב עשוי להיות קריטי בדיון משפטי, שיכול להטות את תוצאות המשפט. תמלול ראיונות יכול לסייע בתהליך של פרסומם בכלי התקשורת ולצרכים של פרסום ועריכת מחקרים, תמלול כנסים והרצאות יכול להציג תיעוד מלא של הדוברים, למי שלא היה באותן הרצאות ומעוניין לקרוא מה היה בהן.

ספקי שירותי תמלול יוצרים נוסח כתוב ומתועד מכל הקלטה, שהם מקבלים (בד"כ קובץ קול מוקלט). זאת, מראיונות עבודה מוקלטים, דרך עבודות מחקר, פגישות עסקיות, סמינריונים והרצאות ועד סיפורי חיים שלמים, שמועברים לספר, או לכתבה במגזין, או לעיתון מודפס או מקוון.

העוסקים בתמלול מבינים את המשמעות של תיעוד מדויק ונאמן למקור ושואפים להעבירו באופן מושלם דרך עבודתם, כולל הגהה מקצועית ע"י מומחי לשון עברית (אם נדרש). המתמללים מקפידים (ככל הניתן) על הבנת החומר, שבקובץ השמע, שהם מקלידים, ובהתאם לכך מתאימים את אופי העבודה ללקוח. לדוגמה: סיפור חיים ניתן לתמלל בצורת סיפור, בעוד שבעבודת שירותי תמלול של עבודת מחקר מדעית, תמלול האזנות סתר לצרכים שונים, תמלול תצהירים, או תמלול עדות לבית משפט, יש צורך לתמלל מילה במילה - ללא עריכה לשונית לעברית תקנית, בדיוק כנשמע בהקלטה, גם אם בדיבור היו שגיאות בעברית.

כאמור לעיל, תמלול היא פעולה המעבירה הקלטות של קול לכתב. על מנת לעשות זאת כראוי (באופן ידני, כמו שנעשה עדיין בישראל), יש צורך בניסיון רב ובמיומנות רבה בתחום הזה. כדי לעשות זאת, על המתמלל לדעת להבחין בין גווני קול שונים, סוגי אינטונציה, מבטאים שונים וכד'. אנשים, שעובדים בתחום זה, עוברים הכשרה מקיפה עוד לפני שמפקידים בידיהם עבודת המרה מורכבת כמו זו.

יש כמה סוגים של שירותי תמלול הניתנים כיום בשוק, לרבות:
תמלול משפטי. כאן הצורך בדיוק בעבודת התמלול היא מרבית. לעיתים יש צורך ללוות את התמלול בתצהיר של עורך התמלול, תצהיר שהתמלול הוא מלא ומדויק ונאמן באופן מלא למקור התמלול.
תמלול ראיונות. מדובר על המרת ראיונות מוקלטים לצורכי עבודות מחקר, ראיונות עיתונאיים, ראיונות לצורכי כתיבת ספר וכיו"ב.
תמלול שיחות (שיחות טלפוניות מכל סוג ולכל צורך).
תמלול הקלטות (בעיקר הכוונה להקלטות ישנות, בעיקר לצרכים פרטיים ועסקיים).
מי מספק שירותי תמלול קולי לטקסט (Voice to Text) בישראל?
בגלל שהצורך בישראל הוא לתמלול לטקסט בעברית, הכניסה של מערכות אוטומטיות, כמו שקיים במדינות המעבר ובמיוחד באנגלית, די התעכב.

לכן, נוצר בישראל שוק מאוד תחרותי של שירותי תמלול, שכולל בתוכו ספקים קטנים גדולים, במחירים שבין 8 ₪ לעמוד ל-10 ₪ לדקה. הצרכים של תמלול לבית משפט שונים מתמלול לצרכים עסקיים, שאינם משפטיים, ולתמלול ראיונות (למשל לצרכי כלי התקשורת) והרצאות.

בין הספקים בתחום זה ניתן למנות את: "חבר תרגומים" (הגדולים בתחום זה בישראל), "ראיות חותכות", eType )מפתחים גם תוכנות לתמלול אוטומטי, לפי צרכי הלקוחות של החברה), "אלון שירותי תמלול", "זאב ביכלר - תמלול שיחות והקלטות", "אלרן שירותי משרד", "תמליל טק", "תמלול", "פרוטוקול - שירותי תמלול", "TTT", "WeText", "אלון שירותי תמלול", "Sound & Clear", "עמיר אביקסיס תמלול משפטי", "סינטקסט", "אילן שירותי תמלול", "ניר סלע שירותי הקלטה ותמלול", "Text דוט.קום" ועוד.

בגלל ריבוי המתחרים בתחום זה (כי אין בו "חסמי כניסה"), יש אתר להשוואת מחירים בתחום התמלול - כאן.

לאן הולך שוק שירותי תמלול קולי לטקסט – Voice to Text?
התחום של תמלול ידני אנושי עומד לסיים את חייו. זה שוק בתהליכי הכחדה. הסיבות לכך:
יש כבר בשוק מערכות תוכנה לתמלול, שמבצעות את המשימה הזו לא פחות טוב מבני אדם, אפילו טוב יותר ממתמללים ותיקים ומיומנים.
מערכות חכמות מבוססת AI (ר"ת: Artificial Intelligence - בינה מלאכותית") המבצעות גם תמלול. אלו מערכות, שכבר קיימות בשוק והן טובות פי כמה מהיכולת האנושית הקיימת.
מערכות תוכנות לתמלול הקלטות:
כדי לבצע תמלול לא תמיד צריך לשלם לגורם מקצועי חיצוני הרבה כסף. יש מקרים בהם תמלול הקלטות עצמאי עם תוכנת תמלול אוטומטית יכול לספק פתרון לצורך הנדרש. לדוגמא: תמלול שיעורים, הרצאות, ראיונות, עבודות לסטודנטים, תמלול שיחות טלפון אישיות, תמלול שיחות סקייפ או שיחות ועידה שכל הנדרש הוא תמלול לצורך תיעוד פרטי - אפשר לגמרי להתמודד עם משימת התמלול לבד.

אולם, כשיש צורך להמיר קול לטקסט, ויש חשיבות לדיוק והאיכות - מבחינה עסקית או משפטית - מומלץ לפנות לחברת תמלול הקלטות מובילה אמנם לביצוע העבודה בתשלום, אך כאן אין מקום לקחת את הסיכון. חלק מחברות התמלול משתמשות בעצמן בתוכנות תמלול והן פשוט רק בודקות את איכות התמלול והמתמללים רק מתקנים שגיאות בתמלול האוטומטי.

ביצוע משימה כמו תמלול הקלטות אוטומטי יכולה להיות קלה לאחד ומורכבת לאחר. ישנן סיטואציות בהן זה אפשרי להתפשר על איכות התמליל ולתמלל לבד שיחות מוקלטות עם תוכנה חינמית, ומנגד, ישנם מקרים בהם מומלץ להעביר שיחות שהוקלטו לחברת תמלול הקלטות מקצועית.

כדי לתמלל הקלטה עצמאית יש צורך להצטייד במספר פריטים בסיסיים. כדי לבצע את התמלול יש צורך להשיג תוכנת תמלול טובה, שתסייע במלאכה כדי לקצר את התהליך. זו יכולה להיות תכונה הפועלת מקומית במחשב המשתמש או בענן. התצורה המומלצת כיום היא בענן.

בין התוכנות הבולטות אפשר לציין את:
א. Express Scribe. זו אחת מתוכנות התמלול המומלצות בעולם בכלל ובישראל בפרט. חברות תמלול מובילות עושות שימוש גם הן בתוכנה זו, בשל הנוחות, שהיא מציעה, ומאפשרת למתמללים לעבוד ביעילות. מדובר בתוכנת תמלול מקצועית לכל דבר והיא מציעה מגוון פתרונות למי שנדרש להמיר קובץ קול \ שמע \ אודיו - למסמך כתוב. התוכנה מוצעת במסלול בתשלום ובמסלול חינמי. לרבים, המסלול החינמי יספק את צרכיהם.

ב. InqScribe. תוכנת תמלול הקלטות המוצעת חינם למשתמשים. גם במקרה זה ישנם מספר סוגי רישיונות שימוש, שניתן לבחור מה מתאים.

מדובר בתוכנת תמלול אינטואיטיבית לשימוש, מאפשרת שימוש בשני יישומים שונים במקביל (ועל כן חוסכת זמן ועלויות), ניתן להוסיף הערות היכן שנדרש, ויש את האפשרות להתאים אישית את היכולות של הכלי למגוון צרכי תמלול שונים.

ג. Speechlogger. תוכנה ושירות בחינם עם הטכנולוגיות המתקדמות ביותר בעולם להבנת דיבור. כולל תמלול אוטומטי ותרגום סימולטני מכל שפה לכל שפה, באמצעות שימוש במנועים המפותחים בגוגל וכלים נוספים ייחודיים. זאת, ללא הרשמה או התחייבות. תמלול הקלטות וקבצי אודיו כולל ייצוא לכתוביות ושמירת זמנים.

מערכות חכמות מבוססות AI המבצעות גם תמלול:
רופאים, עורכי דין, קצרני בית המשפט ועיתונאים מעבירים שעות מחייהם בפרקטיקה המייגעת אך ההכרחית לצרכיהם, של תמלול שיחות. כדי להאיץ את התהליך המייגע הזה, פותחו בשנים האחרונות כלים טכנולוגיים שונים המבוססים על מודלים של הבנת שפה טבעית, שמסוגלים להמיר קובץ שמע למלל באופן אוטומטי.

בין המתחרות בתחום הזה נמצאים חברות ענק הכי גדולות בעולם דוגמת: גוגל (שירות Cloud Speech-to-Text), אמזון (עם השירות המאוד מצליח Alexa), IMB (עם השירות המצליח Watson Assistance), מיקרוסופט (עם שירות Cortana), סיילספורס (בפתרונות מתקדמים דוגמת: איינשטיין, Lightning ו- ,(Salesforce Essentials ועוד. אלו חברות המספקות שירותים בענן במודל ה-SaaS (ר"ת: Software as a Service).

כמה מהפתרונות החדשים בתחום "התמלול החכם" משולב AI:
א. Verbit.AI סטארטאפ ישראלי, שנכנס לתחום זה, שבו פועלות גם ענקיות הטכנולוגיה ובראשן גוגל ואפל. החברה, שהוקמה בסוף 2016, משלבת בין שימוש באלגוריתמים לתמלול אוטומטי בתוספת להעסקת מתמללים אנושיים (פרילינסרים העובדים מהבית כחלק מהמערכת הזו), במקרים רבים במדינות מתפתחות, והמודל שלה מאפשר לגבות מחירים נמוכים מהמקובל בשוק עבור תמלול מקצועי. בחברה מסבירים, שכל תיקון, שנעשה ע"י המתמללים, מביא לשיפור האלגוריתם בעזרת שימוש בלמידת מכונה.

אחרי שהמשתמשים מעלים את קבצי השמע או הסרטונים לזירה, שהקימה ורביט, המתמללים בוחרים את הקובץ, שעליו יעבדו. המערכת "מאזינה" לקובץ ומתמללת אותו, ומסמנת מילים, שהוודאות לגביהן אינה גבוהה. אחר כך הפרילנסרים מבצעים בדיקה נוספת ומשפצים \ מתקנים את הטקסט. על אף הצפיפות בתחום,

בוורביט מציינים, שבתוך שנה הצליחו להגיע להכנסות של מיליוני דולרים, כשבין לקוחות החברה נמצאת יוטיוב, שבבעלות גוגל. במערכת מתעניינים גם גורמים מתחום המשפט וספריות וידאו ענקיות המבקשים לבנות ארכיונים. לדברי החברה, הדיוק בתרגום האוטומטי הוא 99% ומי שמעוניין ב-100% משלם טיפה יותר עבור התיקונים, שנעשים ע"י הפרילנסרים, שעובדים עם המערכת הזו.

ב. Over.AI, פתרון המחבר מערכת טלמרקטינג ל"בינה מלאכותית" (AI) ובעצם הופך אותה ממערכת 'לואו טק' מיושנת למערכת מתוחכמת מתחום ההייטק.

לב המערכת פותח ע"י הסטארטאפ Sensiya הישראלי, שנרכש במאי 2016 ע"י חברת m will.i.aהאמריקאית (שפיתחה, בין היתר, את קו פתרונות i.am+). הסטארטאפ Sensiya פיתח ומפתח פתרונות מבוססי "אינטליגנציה מלאכותית" \ "בינה מלאכותית".

לטענת המיזם הזה, ניתן לשלב בינה מלאכותית - Artificial Intelligence לתוך כל מערכת טלפוניה, בדגש על מוקדי השירות והטלמרקטינג, וחלק מזה הוא ההוספה של מערכת צ'אטבוטים (רובוטי תוכנה. הרובוט לומד את הצרכים של האדם מולו הוא פועל ומתאים את עצמו לפונה) המזהים את קולו של המתקשר ועונים לו מתוך מערכת ממוחשבת, בלי שהמתקשר מרגיש, שהוא מדבר למעשה עם מחשב ולא עם אדם אנושי.

יודגש, שכל הצ'אטבוטים החכמים הופכים דיבור לטקסט, שזה, למעשה, תמלול השיחה. הם ממנפים "למידה עצמית" (Machine Learning) של טכנולוגיות "בינה מלאכותית" (AI): מנתחים אינטראקציות שונות עם הלקוח, מספקים אוטומציה ושירות עצמי ויעילים כמו סוכן בטיפול בלקוחות בזמן אמת.

אפשר לכנות את הפתרון בשם הטכנולוגי: VoAI (על משקל VoIP המוכר מזה שנים בתחום טכנולוגיות הקול) שמשמעו: Voice over Artificial Intelligence. זה השלב הבא באבולוציה של טכנולוגיות הקול, שלב שכבר החל, שלב שבו השיחות הופכות להיות חכמות, מופעלות ע"י צ'אטבוטים ורובוטים, מהענן וכמובן מתומללות.

ג. ServiceNow. הסוכן הווירטואלי החדש של חברת ServiceNow, שעוסקת בתהליכי אוטומציה חכמים בענן, מבין ניאונסים של שפה אנושית וז'רגונים מקצועיים, כך, שבין 15% ל-20% מן האינטראקציות השגרתיות, יכולות להיות מנוהלות ע"י הסוכן הווירטואלי ללא כל מעורבות אנושית. החברה השיקה פיתוח טכנולוגיית הבנת דיבור חדשה, שמשולב בסוכן הווירטואלי שלה, בגרסה החדשה של Now Platform.

עם הרכישה של חברת Parlo, עליה הכריזה ServiceNow לאחרונה, תשקיע החברה במהלך השנה הקרובה בשיפור היכולות של הסוכן הווירטואלי להבין שפה טבעית (NLU), לרבות ניואנסים של השפה האנושית, הבנה של ז'רגונים מקצועיים, תוכן טכני ועוד.

Telecom Experts

חידושים נוספים בתחום זיהוי דיבור לעסקים ותמלול שיחות:
אחד החידושים המעניינים הוא שירות הפיכת קולו של המדבר למסמך כתוב. הפתרון הנפוץ ביותר בשוק כיום הוא של חברת Speechmatics, מיזם בריטי של שירות המופעל בענן ומבוסס AI וניתן להשתמש בו בגישת ה-SaaS. השיטה: מעלים את קובץ הקלטת הקול אותו רוצים להפוך למסמך, והמערכת תוך מספר שניות הופכת את הדיבור למסמך ומחזירה את המסמך לשולח. המערכת תומכת ב-75 שפות (אבל עדיין לא בעברית).

החוזק של המערכת הזו הוא באנגלית, עם התאמה ל-40 ניבים וגרסאות של אנגלית, שיש במדינות העולם השונות.

כיום, כמה מערכות עיתונים בישראל משתמשות בשירות הזה, כדי להקליט ולתמלל אוטומטית את הדברים של מרואיינים, מרצים ודוברים המדברים בשפה זרה. כמו כן המערכת משמשת בעלי תפקידים רבים (החל מעורכי דין וכלה ברופאים), שמעוניינים להפוך את הדיבור שלהם למסמך כתוב, מבלי להקליד את המסמך במקלדת מחשב.

בנוסף, המערכת משמשת ככלי עבודה לשיחות ועידה ולחברות רב לאומיות, או לחברות עם שולחות וסניפים, כשמעוניינים להפוך את השיחות בין המשתתפים בשיחה למסמך כתוב, במהירות, מבלי צורך להפעיל שירותי תמלול ורישום \ תיעוד שיחה. זה הופך את תהליכי ה"עבודה הקבוצתית" ליעילים, כשניתן לתעד בקלות מה דובר ומה סוכם בכל מפגש, בכתב, בקלות ובמהירות, ממש בסיום המפגש.

המערכת של Speechmatics עובדת בהצפנה קצה לקצה והמידע, שקיים בקבצים הנעים ברשת, מוגן ברמה המתאימה לתקנים המחמירים ביותר של אבטחת מידע.

ניתן להוסיף "חותמת זמן" על המסמך הכתוב, כדי שהמסמך יהיה תקף מבחינה משפטית (חשוב, למשל, בהסכמים, מסמכים בעלי חשיבות משפטית, במסמכים המכילים החלטות חשובות ובמקרים של קבלת החלטות התלויות בציר הזמן).

התשלום על השירות נעשה לפי שימוש, ותלוי בכמות דקות השיחה, שיש להפוך למסמך כתוב. מינימום עלות הוא 10 ליש"ט ל-166 דקות שיחה. כלומר: העלות של דקת שיחה מתחילה ב-6 פני והעלות הזו יורדת עד 4 פני לדקה, בכמויות גדולות של דקות שיחה, שיש להמיר אותם למסמך כתוב. אין מגבלה בגודל הקבצים הנשלחים להמרה למסמך כתוב, אולם, מומלץ למשתמשים לא לשלוח קבצים, שזמן העלאה שלהם לענן השירות יכול לקחת יותר משעתיים (בגלל חשש לניתוק התקשורת או שיבוש בהעברה של הקובץ).

בנוסף לשירות בענן, המערכת יכולה להיות מותקנת בענן מקומי, או אפילו בשרת מקומי, עם API למערכות תוכנה פנימיות הנמצאות בעסק. כך, שניתן להפעיל את המערכת ישירות ממערכת קיימת, למשל מערכת CRM או מערכת דוא"ל, מערכת מרכזיה, מערכת שירות לקוחות וכיו"ב.

המערכת הזו יכולה לקבל גם קובצי וידיאו, והיא מחלצת את הקול מתוך קובץ הווידיאו. ניתן לשלוח כל קובץ, שיש בו קול, למשל, הקלטות מהרדיו, הקלטות של פודקאסטים ועוד.

המערכת יודעת לזהות שפה באופן אוטומטי ויכולה לזהות גם מילים בשפות שונות (המערכת תומכת כבר ב-20 שפות שונות), כשהדובר מערבב שפות בזמן הדיבור, או כשיש ערבוב שפות בין דוברים, תופעה הקיימת במפגשים בין אנשים הדוברים שפות שונות ומעדיפים לדבר בשפת האם שלהם או בשפה אחרת הנוחה להם או שמערבבים ביטויים או משפטים בשפה אחרת בתוך השפה בה הם משוחחים.

המערכת הזו יכולה לשמש גם לצרכי לימוד, למשל: הפיכת קולו של המרצה באוניברסיטה לחומר כתוב, שסטודנטים, שלא השתתפו בשיעור, יכולים לקרוא. כ"כ, המערכת יכולה לשמש ככלי עזר לחרשים, שלא יכולים לראות את פניו של הדובר. שימושים נוספים למערכת: עריכת סקרים בקול והפיכתם למסמך כתוב במהירות, חיפוש קולי במאגרי מידע עסקיים, תמיכה למשתמשים ועובדים חדשים בניווט באתרים ובאפליקציות ועוד.

שורה תחתונה בתחום בחירת פתרונות שירותי תמלול קולי לטקסט:
רכישת פתרונות שירותי תמלול ידניים ושירותי תמלול מתקדמים בענן (לרבות שירותים מבוססי AI), כמו כל רכישה בעסק, צריכה להיעשות רק לאחר בחינת צרכי המשתמשים בעסק. יש לשקול גם את רמת האמינות של הספק והאם אפשר לקבל ממנו אחריות ושירות ברמה נאותה (SLA), והאם המערכת הנרכשת פועלת בעברית (ובשפות נוספות הנדרשות בישראל דוגמת: ערבית, רוסית, אמהרית, אנגלית, צרפתית וכיו"ב).

מאת: מיכאל פנחס, מהנדס תקשורת, ינואר 2019.
מחבר המדריך לפתרונות תקשורת ומחשוב ענן ולרכישת מרכזיות טלפון IP לעסקים

חזור אל “עזרה הדדית ונושאים כללים”

מי מחובר

משתמש הגולש בפורום זה: Google [Bot] | 1 אורח