Spracherkennung zum Nachbereiten von Coachings und Workshops – Ein Selbstversuch
Inspiriert durch diesen Blogpost vom Herrn Kaliban starte ich ein Experiment im Rahmen meiner kleinen Reihe „Coaching und Moderation: Ankunft im digitalen Zeitalter„. Ich frage mich, kann ich meine persönliche Effizienz verbessern, indem ich Texte diktiere, statt sie zu tippen? Für meine eigene Nachbereitung und Dokumentation von Coachings oder Workshops wäre mein Anspruch gar nicht so hoch, wenn ich dafür meine Gedankengänge unmittelbar im Anschluss schnell „ausspeichern“ und elektronisch ablegen könnte.
Ich schaue mir Dragon Dictation (kostenlos, für iPhone & iPad) sowie Siri (kostenlos, nur für iPhone 4S) genauer an. Um die Ergebnisse miteinander vergleichen zu können, spreche ich den folgenden fingierten Text möglichst natürlich ins Mikrofon.
Coaching von Herrn Forsch, Termin 3, Donnerstag 26.01.2012 [NEUER ABSATZ] Heute haben wir über Herrn Forschs Auftreten gegenüber seiner Kollegin, Frau Zweifel gesprochen. Herr Forsch berichtet eine Auseinandersetzung der letzten Woche, die im Streit endete. Seitdem herrsche 'Funkstille'. Derlei Konflikte mit Frau Zweifel habe es schon häufiger gegeben, sie werden ihm zudem von seinem Vorgesetzten in Personalgesprächen regelmäßig vorgehalten. Herr Forsch formuliert folgende Ziele: [NEUER ABSATZ] 1. seinen Beitrag am 'destruktiven Gesprächsmuster' mit 'dieser Frau' besser verstehen [NEUE ZEILE] 2. Strategien für den zukünftigen Kontakt entwickeln [NEUE ZEILE] 3. diese im Rahmen eines Rollenspiels ausprobieren [NEUE ZEILE] eingesetzte Methode: 2 Rollenspiele mit anschl. Reflexion [NEUER ABSATZ] Zentrale Erkenntnisse: [NEUER ABSATZ] - nicht mit der Tür ins Haus fallen [NEUE ZEILE] - mit positivem Gefühl starten, lächeln, Eisbrecher etc. [NEUE ZEILE] - ihre Zweifel anhören und ernst nehmen [NEUE ZEILE] - Kompromissbereitschaft signalisieren [NEUER ABSATZ] Folgetermin am 29.02.2012 um 14 Uhr in Köln
Experiment 1: Dragon Dictation
Insgesamt ist der Text (siehe Abbildung 1) aus meiner Sicht ausreichend verständlich, wenngleich insgesamt einige gröbere Fehler den Nutzen der Spracherkennung einschränken. Ich persönlich finde im erkannten Text 9 Stellen, deren Übersetzung mir nicht ausreicht. Dragon Dictation scheint (zumindest in meinem Fall) Probleme mit dem Eigennamen (Herr Forsch) zu haben, was ich nachvollziehen kann. Ärgerlicher sind mehrere Stellen, bei denen ganze Wörter ‚verschluckt‘ werden, was der Verständlichkeit nicht gerade zuträglich ist.
Experiment 2: Siri
Macht Apple es besser? Ich denke schon. Siri leistet sich etwas weniger Schnitzer. Hier ist die Erkennungsleistung für mich fast schon zufriedenstellend. Weil ich das Diktat nur dann verwenden möchte, wenn händische Korrekturen nicht mehr notwendig sind ist Siri in meinem kleinen Test die Siegerin. Abgesehen vom Eigennamen finde ich nur einen gröberen Erkennungsfehler (siehe Abbildung 2).
Ob die Erkennensleistung für den produktiven Einsatz ausreicht, muss natürlich jeder für sich selbst beantworten. Mit Sicherheit variieren die Ergebnisse von Sprecher zu Sprecher und mit unterschiedlichen Umgebungsgeräuschen. Für meine Versuche hatte ich einen ruhigen Raum, den ich aufgrund der Vertraulichkeit der Gespräche sowieso nutze. Evtl. wäre ein Diktat während der Autofahrt noch nützlich. Für mich kommt das aber nicht in Frage. Während ich persönlich mit dem Ergebnis zu leben bereit wäre, vermisse ich am stärksten die Grundfunktionalität eines richtigen Diktiergerätes, denn ich benötige definitiv mehrere Anläufe, um meine Gedanken in Worte zu fassen.
Ich habe daher die App Dictamus getestet, die insgesamt viel Applaus erhält. Um es kurz zu machen: Eine richtig gute Software mit allem was man zum Diktieren benötigt und mit beeindruckender Sprachqualität. Leider existiert bislang keine Schnittstelle, um die finalen Audioaufnahmen (.wav) an Dragon Dictation oder Siri zu übergeben. Was bleibt, ist ein Import in die PC/Mac-Version von Dragon Dictation, wie er z.B. von Ernie Svenson beschrieben wird. An dieser Stelle steige ich jedoch aus diesem Experiment aus, denn damit wird mir persönlich der Aufwand zu groß.
Fazit: Mein Selbstversuch zeigt mir das Potenzial von Spracherkennung für unseren Berufsstand. Wenn man einschlägigen Forenbeiträgen glauben darf, sind Ärzte und Juristen auf diesem Gebiet sogar schon deutlich weiter. Für eine komplett mobile Lösung wäre ich gerne bereit zu zahlen. Noch zu klären bleibt für mich allerdings, wie mit der Frage des Datenschutzes umzugehen ist, denn die Texte werden nicht lokal, sondern auf den (amerikanischen) Servern der Hersteller verarbeitet. Zu dieser Frage ist ein juristisch geprägter Gastbeitrag in Planung. Besuchen Sie dieses Blog also bald wieder, abonnieren Sie den RSS-Feed und hinterlassen Sie einen Kommentar mit Ihrer Meinung oder Erfahrung!
___
Bildquelle: OpenAI. (2024). Spracherkennung [Digital image created with DALL-E]. Retrieved from https://openai.com/