Дізнайтеся Сумісність За Знаком Зодіаку
Найкращі інструменти автоматичної транскрипції для журналістів
Техніка Та Інструменти

Сірі щойно виповнилося шість років. Алексі щойно виповнилося три. Якщо ми можемо запитати у наших телефонів погоду в Альбукерке і змусити пластиковий циліндр у наших вітальнях читати вголос газету Washington Post, чому ми все ще переписуємо інтерв’ю вручну?
Ну, виявляється, нам цього не потрібно. Інструменти автоматичної транскрипції були на ринку вже деякий час, і вони нарешті стають хорошими. Тепер потрібно всього кілька хвилин і кілька доларів, щоб завантажити аудіо або відео на сайт і отримати досить вичерпну розшифровку.
Але, як і всі інструменти, одні кращі за інші. Ми перевірили (або спробували перевірити — про це пізніше) вісім найпопулярніших інструментів транскрипції, орієнтованих на журналістів, у т.ч. Диктант Дракона , Щасливий писар , o Транскрибувати , рекордно , Рев , Сонікс , Трінт і YouTube. Ми перевірили кожен інструмент за різними реальними сценаріями, експериментуючи з тим, як кожен з них працює проти типового використання журналіста.
Хоча жоден з інструментів не був ідеальним, один випередив інші як найкращі в категорії.
Наш вибір
Поєднання точності, функцій і простоти використання робить Trint найкращим вибором для автоматичної транскрипції для журналістів. Хоча це був не найточніший, найбагатший чи найдешевший інструмент, який ми пробували, його інструменти для редагування стенограм і здатність трохи легше вписуватися в робочий процес журналіста допомагають йому випередити своїх конкурентів. Читайте далі, щоб дізнатися чому.
Експеримент
Як ви побачите, показники точності цих інструментів низькі. Це тому, що ми з усіх сил намагалися їх заплутати.
По-перше, щоб відобразити широкий діапазон людей, голосів та акцентів, ми записали наш зразок аудіо з чотирма учасниками. Вони включали:
- Алексіос Манцарліс , викладач Пойнтера та директор Міжнародної мережі перевірки фактів, який родом з Риму і описав себе як шепелявого та «кілька кумедних слів, які змішують британський, італійський та дивний американський акценти»
- солодкі букети , менеджер програми Міжнародної мережі перевірки фактів, який приїхав до Пойнтера з Мехіко у вересні
- Крістен Харе , репортер Poynter, яка думає, що звучить «трохи як дівчина з долини», коли слухає себе на записах
- Я, і хоча Крістен сказала, що в мене «акцент буйвола», я думаю, що моя схильність бурмотіти, говорити занадто швидко і пропускати частини слів, ймовірно, виявляється більш складною для транскрипції (Запис себе в очікуванні транскрибування явно призводить до невеликого самопочуття відображення.)
Крістен приєдналася до нас через Google Hangouts/YouTube Live ( розкриття інформації: грант від Google News Lab частково фінансує мою позицію ), від чого більшість засобів автоматичної транскрипції відкрито застерігають. Здається, що аудіо з телефону чи відеочату їм важко впоратися.
Щоб ще більше мучити алгоритми, ми також читаємо уривки набагато швидше, ніж зазвичай, Дульсе та Алексіос розмовляли різними іноземними мовами (італійською, іспанською, французькою та грецькою), ми вимовляли якомога більше власних іменників (Апалачікола , Майкл Орескес та різні грецькі острови, щоб назвати деякі з них), підійшли до творчого підходу до Urban Dictionary (a портманто Пола Манафорта і грубе слово, що описує стан його правового становища) і часто перемовлялися один з одним.
Ми записали наш 14-хвилинний тест у студії вебінару Пойнтера, і нас перервав звук принаймні одного гучного літака над головою (за кілька кварталів від нас є аеропорт), автомобіля швидкої допомоги та гудіння телефону Крістен.
Ми записували аудіо трьома способами:
- З Зум H4nPro портативний мікрофон, розміщений між нами
- З моїм iPhone 6S Plus, використовуючи програму Recordly для запису, розміщену поруч із Zoom
- Завдяки приватному прямому ефіру YouTube, саме так Крістен приєдналася до нас
Потім ми завантажили аудіо в кожен інструмент і відстежували, скільки часу потрібно для транскрибування кожного з них. Ми нормалізували отримані стенограми за допомогою Microsoft Word, видаливши часові позначки та переконавшись, що імена доповідачів збігаються. Для контролю я сам переписав аудіо (за допомогою oTranscribe), а потім прослухав кілька разів, щоб перевірити повну точність. Ми також спробували Rev, платну послугу, яка використовує людські транскрибатори, а не алгоритми, щоб побачити, як він складається.
Ми перевірили різноманітні інструменти порівняння документів, щоб визначити, які з них працюють найкраще Copyscape як найбільш обґрунтований варіант. Ми порівняли стенограми, створені за допомогою інструментів і служб, зі 100-відсотково правильною, яку я створив за допомогою oTranscribe.
Кілька додаткових приміток:
- Звук із Zoom виявився найкращої якості, тому ми використовували його для більшості наших тестів. Здається, додаток Recordly не приймає аудіо, записане з інших джерел, тому це один виняток з цього процесу. Ми також не завантажували аудіо Zoom на YouTube, а покладалися на аудіо із запису YouTube Live. Порівняння яблук і апельсинів робить цей експеримент менш науковим, але більше відповідає тому, як журналісти насправді використовують ці інструменти в реальному світі.
- Хоча це популярний інструмент, ми не змогли протестувати Dragon Dictation, оскільки він не працює на iOS 11. Ми оновимо цей огляд, коли і якщо його розробник виправить цю проблему.
- Ми не зверталися до жодної з цих компаній перед тестуванням, тому не було спеціальної обробки чи внутрішньої обробки стенограм. Trint, Sonix і Recordly пропонують обмежені безкоштовні хвилини для нових користувачів, тому ми скористалися ними для експерименту. Ми використовували кредитну картку колеги, яка не є репортером, для Happy Scribe і не згадували Poynter, оскільки я листувався з його засновниками в минулому. І ми заплатили повну ціну за людську транскрипцію Рева. Служба субтитрів YouTube і oTranscribe завжди безкоштовні.
- Існує ще багато інструментів автоматичної транскрипції, які ми не включили в цей огляд. Ми намагалися зосередитися на тих, про які нас запитували журналісти. Якщо ви вважаєте, що ми несправедливо пропустили один із них, повідомте нам про це, і ми оновимо огляд.
Якість стенограми (переможець: Happy Scribe)
Схоже, що люди, стурбовані повстанням штучного інтелекту, мають принаймні ще кілька років на підготовку, оскільки єдина служба транскрипції, яку ми тестували, перевершила автоматичну транскрипцію з великим відривом.
Rev отримав 82-відсоткову оцінку точності, при цьому перекладач здебільшого не вловив іноземні мови (що, чесно кажучи, є окремою послугою), кілька власних іменників, деякі перехресні перешкоди, кілька сленгових слів і шматки бурмотіння. Хоча інші інструменти здебільшого упускали ці речі, люди-переписувачі в Rev принаймні відзначали такі речі, як «[нерозбірливо]», «[перехресні перешкоди]» та «[іноземна мова]», які були корисними заповнювачами для подальших виправлень.
Навіть з відсутніми бітами, розшифровка Rev цілком читабельна та цілісна. Якби вас не було для першої розмови, ви могли б зрозуміти суть того, про що ми говорили, просто прочитавши це.
Наступною найточнішою транскрипцією став YouTube. Сайт відеохостингу автоматично створив субтитри для нашого прямого відео на YouTube, які були точними на 72%. Але навіть із зниженням загальної якості лише на 10 відсотків, стенограма значно менш читабельна, ніж Rev’s, оскільки YouTube не надає пунктуації чи сегментації мовців. Підписи існують як масивний блок тексту. Якщо не поєднати його з аудіо, було б майже неможливо, щоб хтось, хто не був учасником розмови, зрозумів нашу розмову.
Є й інші недоліки пропозицій YouTube, але ми поговоримо про них, коли перейдемо до функцій.
У нашому експерименті Happy Scribe виявився найточнішим спеціальним інструментом транскрипції, що не є людиною, з точністю 62%. Інструмент попереджає на своїй сторінці завантаження, щоб «уникати сильного фонового шуму, «уникати сильних акцентів», «уникати інтерв’ю по Skype і телефону» та «тримайте мікрофон поруч із динаміком», — усе це ми сумлінно ігнорували.
Стенограма майже точна в тих місцях, де я говорив, особливо коли не було перехресних перешкод, і я не використовував власні іменники, але мав чимало труднощів із транскрибуванням Дульсе, Крістен та Алексіоса. У деяких місцях це розбило різні динаміки на нові параграфи, але в інших не вдалося. Загальна розшифровка варіюється від цілком узгодженої в деяких місцях до дивно непослідовної в інших, наприклад, коли він транскрибував Алексіоса, який сказав: «Дозвольте мені відкрити Urban Dictionary, і ми зможемо переглянути деякі з них», як «Я маю на увазі, навіть у міському словнику дівчата близькі ».
Trint запропонував аналогічні результати з точністю 61 відсоток. Він заплутався в багатьох із тих самих місць, насилуючись з акцентами, аудіо з YouTube і розділами з перехресними перешкодами або тихою розмовою. Однак це не так, як Happy Scribe. Речення Urban Dictionary зверху з’явилося як «Я маю на увазі, що навіть у міському словнику ми можемо їх переглянути».
Загалом, стенограму Trint трохи легше читати, ніж Happy Scribe, оскільки вона краще розрізняє мовців і розбиває їх на нові абзаци. Це не ідеально, але додає багато ясності, коли працює.
Sonix виявився наступним за точністю на 50 відсотків. Sonix працював трохи краще, ніж Happy Scribe і Trint, коли голосно говорив один динамік. Але будь-яка кількість перехресних перешкод, фонового шуму або навіть сміху — все, що, ймовірно, з’явиться під час будь-якого реального використання інструменту — здавалося, збивало його з пантелику більше, ніж інші. Речення Urban Dictionary було передано як «Відкрити в міському словнику, і ми можемо переглянути деякі з них».
Як і інші інструменти, Sonix намагався розбити динаміки на різні параграфи, але здавалося, що це трохи гірше.
Рекордно було найменш точним із засобів автоматичної транскрипції з точністю 48 відсотків. Речення міського словника було передано як «дозвольте мені відкрити цей міський словник, і ми зможемо. Перегляньте деякі», що непогано, але цей фрагмент тексту не є репрезентативним для решти стенограми. Як і YouTube, стенограма Recordly — це один гігантський блок тексту. На відміну від YouTube, він додає пунктуацію, хоча рідше і з меншою точністю, ніж інші інструменти.
Стенограма Recordly є найменш корисною поза контекстом.
Загалом, найкраща розшифровка була зроблена мною власноруч за допомогою oTranscribe. Rev вийшов найкращою розшифровкою, яку мені не довелося переписувати самому. Але це огляд інструментів автоматичної транскрипції, і в цій категорії Happy Scribe ледве обійшов Trint, щоб вийти на перше місце.
Особливості (Переможець: Sonix)
Деякі речі, здається, є галузевими стандартами інструментів автоматичної транскрипції. Можливість відтворення завантаженого аудіо є очевидною. Усі інструменти дозволяють користувачам експортувати стенограми в різних форматах.
Інструменти на основі браузера (що означає всі, крім Recordly) також пропонують загальний набір. Усі вони дозволяють користувачам натискати різні точки тексту та переходити безпосередньо до цієї частини запису. Усі вони мають можливість відтворювати аудіо з меншою швидкістю (за допомогою клавіш швидкого доступу або за допомогою налаштувань), вручну редагувати стенограми, завантажувати відео на додаток до аудіо та зберігати стенограми для подальшого використання.
Trint виходить за межі та пропонує візуалізовану форму сигналу аудіо в нижній частині стенограми, яку користувачі можуть пропускати за бажанням. Він також має вбудовані інструменти для пошуку та заміни, виділення або закреслення тексту. Користувачі можуть додати список доповідачів до інструменту та прикріпити свою назву до кожного абзацу. У ньому також є зручна функція для відправки розшифровки електронною поштою одним клацанням миші.
Sonix має всі ці інструменти (крім інтерактивної форми сигналу) та ще кілька. Найкориснішими є «кольори впевненості», які призначають різні кольори словам, у яких Sonix менш впевнена; оцінювач якості аудіо, який говорить вам, наскільки Sonix впевнений у своїй транскрипції; і автоматична ідентифікація динаміка, бета-функція, яка намагається ідентифікувати різних мовців та призначити їм ідентифікатори.
У нашому тесті Sonix визначив лише два різних динаміка, тому цей інструмент потребує певної роботи, але він все одно надзвичайно корисний.
Щоправда, єдина програма (тільки для iOS) із групи пропонує найменшу кількість функцій. Це майже незабутній досвід. Стенограма надається у форматі, схожому на вбудований додаток Apple для нотаток, з обмеженою функціональністю редагування. Це також дозволяє користувачам експортувати аудіо або текст в іншу програму.
Хоча функції Trint пошуку та заміни та форми сигналу корисні під час виправлення транскриптів, функції Sonix додають життєво важливу прозорість процесу транскрипції. І хоча бета-версія ідентифікації динаміка не зовсім надійна, це амбітний інструмент, який з цього моменту має ставати тільки краще.
Час (Переможець: Happy Scribe, Трінт і рекордно)
Ось де сяє автоматична транскрипція. Усі інструменти надали розшифровку за менше хвилин, ніж довжина поданого нами аудіофайлу. Різниця між Happy Scribe (п’ять хвилин), Trint (шість хвилин) і Recordly (шість хвилин) була незначною, але Sonix зайняло трохи більше часу (11 хвилин). (Оновлення: представник Sonix повідомив, що його швидкість відповідає іншим інструментам, коли функцію ідентифікації динаміка вимкнено.) У реальному світі це може бути суттєвою відмінністю, особливо з довшими транскрипціями.
YouTube тут трохи загадка. Для цієї розшифровки знадобилося всього кілька хвилин, перш ніж з’явилися автоматичні субтитри. У минулому досвіді ми виявили, що тривалість часу, необхідного для їх появи, може значно відрізнятися. Оскільки YouTube насправді не призначений для використання таким чином, ми не знаємо, скільки часу це зазвичай займає.
Людям-записувачам Rev знадобилося близько чотирьох годин і 15 хвилин, щоб закінчити свою розшифровку. Мені знадобилося приблизно половину цього, щоб зробити це самому за допомогою oTranscribe, але не без кількох перерв, Spotify’s Глибокий фокус плейлист і два галони кави.
Ціни (переможець: рекордно)
Ви не можете перемогти безкоштовно (YouTube, oTranscribe), але коли справа доходить до спеціальних інструментів автоматичної транскрипції, вартість сильно варіюється. Щоб визначити найкращу ціну, ви повинні врахувати, як часто ви будете використовувати інструмент.
Sonix є найдорожчим, з базовим планом від 15 доларів на місяць плюс 8 доларів за кожну годину транскрибованого аудіо. Але інструмент пропонує значну знижку в 33% при оплаті щорічно, а не щомісячно.
Trint також пропонує плани, починаючи з 15 доларів США на годину за платні транскрипції або 40 доларів на місяць за транскрибування аудіо на три години. Додаткові транскрипції коштують на північ від 13 доларів на годину.
Happy Scribe коштує 10 центів за хвилину завантаженого аудіо. Для тих, хто не схильний до математики, це 6 доларів на годину.
За мізерні 2 долари США за годину, перша година безкоштовної, Recordly є найдешевшим варіантом автоматичної транскрипції.
Не дивно, що людські транскриптори в Rev коштують дорожче, ніж інші інструменти. Транскрибування нашого 13-хвилинного кліпу коштувало 14 доларів США, а ми заплатили на 3,50 доларів більше за позначки часу. Тим не менш, дешева відносна вартість відпрацьованих годин змушує нас задуматися, де в світі перебувають переписувачі Rev і наскільки добре вони отримують компенсацію.
Простота використання (переможець: Трінт)
Жоден з цих інструментів не є складним у використанні. Ви завантажуєте файл до кожного з них (або записуєте з ним аудіо, у випадку Recordly), і через деякий час він надсилає вам посилання на стенограму, яку можна редагувати.
Trint робить великий крок за межі завантаження файлів і приймає аудіо або відео з різних джерел, включаючи Dropbox, Google Drive і FTP, і навіть дозволяє користувачам просто вводити посилання. Це унікальний інструмент серед перевірених нами інструментів. Перед початком завантаження Trint також задає кілька корисних запитань про фоновий шум, перехресні перешкоди тощо. Це не виправить запис, але є корисним кивок UX, який навчає користувачів, як записувати більше аудіо, яке можна транскрибувати в майбутньому.
Happy Scribe, Rev, Sonix і Trint надсилають електронні листи, коли транскрипція готова, тому вам не потрібно сидіти і дивитися на екран.
Суть
Це не найдешевший і не найточніший загальний варіант транскрипції, але Trint здобув перемогу як найкращий універсальний інструмент з тих, які ми тестували.
Компанії, якій трохи більше року, і вона отримала фінансування від Knight Foundation (відмова від відповідальності: Пойнтер також отримує фінансування від Knight) і Digital News Initiative від Google, пропонує найкраще загальне поєднання функціональності, точності та простоти використання.
Лише функція автоматичного створення субтитрів YouTube, яка досягла 72-відсоткової точності, показала значно кращі результати, ніж Trint, у транскрипції за допомогою алгоритму. Але YouTube не призначений для того типу транскрибування, який потрібен журналістам щодня, і не пропонує жодних функцій редагування.
Хоча молодий стартап Happy Scribe показав трохи краще в наших тестах на точність з показником 62 відсотки і коштує приблизно на третину дорожче Trint, йому бракує багатьох додаткових функцій, які роблять Trint корисним. Можливість завантажувати з багатьох джерел, знаходити та замінювати текст і ідентифікацію спікера – це невеликі, але важливі інструменти робочого процесу. Якщо ви просто шукаєте швидку й брудну розшифровку, Happy Scribe — це шлях.
І хоча це правда, що його 61 відсоток далекий від досконалості, наші тести були трохи складнішими, ніж більшість реальних випадків.
Ми також протестували Rev, службу людського перекладу, і oTranscribe, яка пропонує зручні інструменти для журналістів, щоб самостійно транскрибувати аудіо. За 1 долар США за хвилину транскрибованого аудіо ми виявили, що Rev занадто дорогий для звичайного журналіста для регулярного використання. І хоча oTranscribe був зручним, він не вирішує втому та час транскрибування.
З огляду на типове використання на увазі, Trint є найкращим універсальним інструментом автоматичної транскрипції для журналістів.
Виправлення: ми раніше повідомляли, що Sonix цього не робить пропозиція знайти та замінити інструмент, але насправді це так. Просимо вибачення за пропуск.
Дізнайтеся більше про інструменти журналістики за допомогою Try This! — Інструменти для журналістики. Спробуйте це! працює від Лабораторія Новин Google . Це також підтримується Американський інститут преси і Фонд Джона С. та Джеймса Л. Найта