VDR Spracherkennung beibringen

  • Hallo zusammen,
    habe mich schon länger für spracherkennung interessiert, und das wäre dochmal ein interessantes Ziel.
    Hat sich schonmal jemand näher damit beschäftigt? Es sollte doch mittlerweile etwas für Linux geben was das grob kann.


    Ich habe bisher dieses wiki: http://de.wikipedia.org/wiki/Spracherkennung gelesen und bin besonders auf dieses http://htk.eng.cam.ac.uk/ Projekt aufmerksam geworden.
    Das HTK Projekt ist allerdings bestimmt nix für zwischendurch ;)
    Hat jemand Erfahrung mit viavoice von IBM? Muß man das erst kaufen?


    mfg

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • gut also es gibt ja auch schon 1-2 threads dazu habe ich jetzt gesehen. Also mit sphinx wird es wohl gehen. Die Demo hat schon ein paar kompliziertere Sachen erkannt!
    Werd mir das mal weiter anschauen.

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • Hallo uzer,


    ich hätt dass auch mal ausprobiert, ebenfalls mit Sphinx. Man muss schon sehr deutlich ins Mikro sprechen und keine Hintergrundgeräüsche haben, damit was erkannt wird (erinnert mich immer wieder an die T-Com Hotline: "Ich habe sie leider nicht verstanden")


    Es ist also nichts um mal eben von der Couch "vorspulen" zu rufen und der VDR macht das dann.


    Falls du aber auf dem Gebiet mehr Erfolg hast, wär ich noch immer daran interessiert. Meine Versuche sind auch schon ca. 3 Jahre her, vielleicht hat sich da noch einiges getan.


    Wie gesagt, ich möchte meinem VDR keine Diktate diktieren sondern nur ein paar Befehle "zurufen"


    Gruß
    Roland

    Software: VDR 1.4.3, mp3, osdpip, streamdev-server, femon, wapd, X11, Wireless Keyboard Kernel: 2.6.18
    Hardware: 1x DVB-S v 1.3, 1x Skystar 2, Celeron@2GHz, 256 MB RAM, 4 HDs Raid1/5, Total: 600 GB, Asus P4S533 cmi8738 & LAN on board 6 PCI
    40" Sammelbestellungs-LCD an ATI Radeon 9550 DVI-Out + tvtime, 70 cm TV an J2-RGB-Out
    Organisator der ersten und zweiten VDR-Sanitizer Sammelbestellung.
    In progress: POV-ION 330 - MediaPointer MP-S2 - vdr 1.7.9 - vdr-xine(vdpau)

  • Hallo Leute,


    habe die Spracherkennungs-Software (unter MSWin98) mal getestet. - Funktionierte prima! Nur ca. 3-5 Fehler pro DIN-A-4 Seite nach einer Trainingszeit von ca. 15 Minuten!!!


    Ein Kollege von mir benutzt die Software beruflich und seine Sekretärin muss jetzt nur noch ab und zu ein paar Fehler ausbessern (Namen, Fachausdrücke etc.).


    Wer er also beruflich brauchen kann, dem kann ich es nur empfehlen!


    CU


    Brummi01

  • Hallo zusammen,


    ...interessante Idee das Ganze.


    Mit einem "Scotty" auf der Couch sitzen und den VDR bedienen. :rolleyes:


    Ich hab mal kurz gegoogelt und mir kurz Gedanken gemacht, wie sich das eventuell umsetzen lässt.


    Spracherkennungssoftware:
    Die einzige Software, die


    a) redistributable und
    b) unter Linux läuft


    scheint Sphinx zu sein.
    Sphinx ist java basiert


    Steuerung des VDRs durch Sphinx
    Als Schnittstelle könnte man vermutlich lirc verwenden, da sich lirc doch auch über tcp/ip bedienen lässt. Oder ??


    Was wäre dann zu tun?
    - Sphinx auf Tauglichkeit testen
    - Falls Sphinx prinzipiell geeignet ist, Skripte/Code basteln, die Sphinx mit lirc verheiraten.
    - ggf Howto für Sphinx + VDR schreiben


    Das scheint mir nicht unmöglich zu sein. Wesentlich dürfte dabei sein, wie gut die Spracherkennung von Sphinx mitterweile ist.


    Gruß
    Wicky

  • ja seh ich auch so.
    Die Steuerung durch Sphinx geht ganz einfach über svdrp. Hat jemand ein Funkmikro!? :) Dann bitte mal mit der sphinx2-demo testen!
    Zurufen wird glaube ich schwierig .. aber das werde ich auch mal mit der demo testen :D
    Ich dachte so daran in der Nähe der Couch ein Funkmikro zu installieren.

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • Zitat

    Original von uzer
    ja seh ich auch so.
    Die Steuerung durch Sphinx geht ganz einfach über svdrp.


    ...reagiert der VDR über svdrp nicht ein wenig träge?


    Da ich dies vermute, hatte ich lirc vorgeschlagen. Die Komunikation über svdrp dürfte allerdings leichter zu implementieren sein..


    Gruß
    Wicky

  • Die Spracherkennung alleine reagiert vermutlich schon träge genug.
    Wenn dann mal Sphinx oder was auch immer läuft, dann schreib ich vielleicht ein speechrecognition-remote plugin ;)


    Gruß
    Roland

    Software: VDR 1.4.3, mp3, osdpip, streamdev-server, femon, wapd, X11, Wireless Keyboard Kernel: 2.6.18
    Hardware: 1x DVB-S v 1.3, 1x Skystar 2, Celeron@2GHz, 256 MB RAM, 4 HDs Raid1/5, Total: 600 GB, Asus P4S533 cmi8738 & LAN on board 6 PCI
    40" Sammelbestellungs-LCD an ATI Radeon 9550 DVI-Out + tvtime, 70 cm TV an J2-RGB-Out
    Organisator der ersten und zweiten VDR-Sanitizer Sammelbestellung.
    In progress: POV-ION 330 - MediaPointer MP-S2 - vdr 1.7.9 - vdr-xine(vdpau)

  • :bounce1 :bounce2 :bounce3
    mein vdr läuft jetzt komplett sprachgesteuert! Das ist total geil !!!
    Über 90% genau wenn ich mich konzentriere (ich spreche hochdeutsch :-P)
    Ich muss meine tests nochmal wiederholen und ein video für youtube machen ;)
    Ich werd wohl auch mal ein howto vorbereiten!
    Als nächstes kommt text2speech fürs surfer plugin :)

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

    Einmal editiert, zuletzt von uzer ()

  • uzer:


    Hoert sich interessant an...


    Ein paar Details zum Anwendungskomfort waeren mal gut:


    - Wo steht dein Micro (zurufen?)
    - Welcher Art sind die Befehle?
    - Was passiert, wenn man sich neben dem Micro unterhaelt und in der Unterhaltung einer der Befehle vorkommt? :)



    Finde die Idee auf jeden Fall sensationell :)


    Robsta


    Hardware: Antec Fusion Remote Black, Asus P5N7A-VM, E5200, Mystique SaTiX-S2 Dual V2, Stereo-Atmo
    TV: Samsung UE32B6000, BenQ W1070
    Software: yaVDR


  • Zitat

    Original von uzer
    :bounce1 :bounce2 :bounce3
    mein vdr läuft jetzt komplett sprachgesteuert! Das ist total geil !!!


    ....respekt !!!


    Zitat

    Über 90% genau wenn ich mich konzentriere (ich spreche hochdeutsch :-P)


    ....wow !!


    Ich finde das Thema ebenfalls sehr interresant und es wäre ein Alleinstellungsmerkmal für den VDR, falls eine praxistaugliche Umsetzung möglich ist.


    Mich würden ebenfalls wie Robsta ein paar weitere Informationen, insbesondere bzgl. der Verwendung interessieren.


    Details der der Impelmentation finde ich vorerst noch nicht sooo interessant, da man/du hier vermutlich eh noch weitere Erfahrungen sammeln muss.


    Falls du allerdings hierzu auch schon ein wenig schreiben magst, dann würde mich das natürlich auch sehr freuen.


    Vielen Dank, dass du dich hinter die Sache geklemmt hast !!


    Gruß
    Wicky

  • wie man das am elegantesten mit dem mikro macht ist eine andere Geschichte.
    Ich kann alle Befehle die auf der FB sind mit Sprache kontrollieren :)
    und man kann ein "magic word" definieren womit NUR der folgende Befehl angenommen wird.


    PS. mit dem hochdeutsch ist natürlich quatsch, weil squinx2 nur englische Kommandos unterstützt!

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

    Einmal editiert, zuletzt von uzer ()

  • so ich hab mir gestern mal ein billiges funk mikro in der bucht gekauft. Mal schaun wie es damit läuft. Also zurufen kann man leider total vergessen! Mein mikro hier ist allerdings auch das billigste was ihr euch vorstellen könnt ; )


    Die Hardware muss natürlich auch mitspielen damit sowas bequem funktioniert.
    Mein Rechner ist ein P3-866, verzögert sind die Aufrufe natürlich schon um ca 2 sek. Ich werde mal schaun ob es an svdrp hängt. Dann würde ich es mal über lirc versuchen.
    Positiv ist noch das die Spracherkennung nach der initialisierung fast keine cpu braucht, d.h. sogar auf meinem ollen Rechner kann es dauerhaft laufen :)


    Aber selbst jetzt ohne optimierungen, mit dem billigsten mikro, ist es einfach super geil! :)


    PS. Reden tut mein vdr jetzt auch mit mir und liest mir tagesschau und ähnliches aus dem surfer plugin vor :)

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • Das ganze klingt nicht uninteressant.
    Was ich nicht verstehe ist die Bemerkung das nur englisch unterstützt wird. Ist das ganze Sprecherunabhänig? Kann man keine "neuen" Worte beibringen? Meine Idee wäre z.B. "Fernseher ARD" würde auf ARD umschalten. Fernseher währe das Zauberwort. Geht das so?


    LG

    Georgius (Ehemals Mag 128 )


    System:
    Gerade im Aufbau mit VDPAU

  • also ja das meinte ich damit, es wird nur Englisch Unterstützt ;) und JA - natürlich sprecher unabhängig!
    ... zumindest die primäre Datenbank! "Pronouncing Dictionary is a machine-readable pronunciation dictionary for North American English that contains over 125,000 words"


    Denkbar ist wohl auch Deutsche Wörter einzutrainieren. Das muss ich mir aber nochmal genauer anschauen - bin auch erstmal mit english sehr zufrieden.


    also anstatt "fernseher A R D" könntest du "tv A R D" - ausgesprochen: "T IY V IY . AH . AA R . D IY ." - benutzen :)

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

    Einmal editiert, zuletzt von uzer ()

  • hat jemand Erfahrung mit Richt-Mikrofonen?
    Ich glaube das ist genau das was wir hier bräuchten.

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • Zitat

    Original von uzer
    also anstatt "fernseher A R D" könntest du "tv A R D" - ausgesprochen: "T IY V IY . AH . AA R . D IY ." - benutzen :)


    ...wobei ich das gar nicht so schlecht finde, denn so verhindert man z.B. dass Uli Wickert auf ZDF umschaltet, falls er auf die Idee kommt, die Wörter "Fernseher ZDF" auszusprechen.


    ...was erst wenn er auf die Idee kommt.... nee, lieber nicht.


    Gruß
    Wicky

  • Hallo,


    also jetzt muss ich wirklich mal nachfragen ob das hier ernst gemeint ist ..


    Hat das wirklich schon jemand am Laufen ...


    Das wäre ja der absolute Oberhammer ..


    Melde jetzt schon interesse an ...


    Mein System ist ein LINVDR total verpanscht aber halt immer noch das alte Woody ...


    Geht das auch hier mit ...


    Gruss
    Micha

  • ich denke auch die meisten glauben es nocht nicht ;)
    ja es läuft sehr geil bei mir! hab hier bestimmt jetzt ca 30 Sprachbefehle für den vdr am laufen :)

    Server: Seagate Dockstar - Debian Squeeze

    Client: Apple TV 2 / Samsung LExxC650

    OldOne: Debian Etch - Matrox G450 & SkyStar2

  • Hallo


    kannst Du das mal etwas mehr im Detail erklären


    Step - by Step Guide wäre suppi ...


    Dann würde ich das für LINVDR gerne übernehmen ...


    Was braucht mann denn alles dafür ..



    ist das hier o.k. oder fehlt noch was ..
    Package: sphinx2-bin
    Source: sphinx2
    Version: 0.4-0.1
    Depends: sphinx2-hmm-6k, libsphinx2g0, libc6 (>= 2.2.4-4), libsphinx2g0 (>= 0.4-0.1)


    Sphinx 2 is a real-time, speaker-independent speech recognition system.


    This package contains examples and utilities that use Sphinx. It also
    includes a sample language model that is capable of recognizing simple
    commands like "go forward ten meters" and other commands one might use to
    tell a robot where to move.


    Package: sphinx2-hmm-6k
    Description: speech recognition library - default acoustic model

    Sphinx 2 is a real-time, speaker-independent speech recognition system.


    This package contains an acoustic model for Sphinx-II trained for
    close-talking microphones. It is the default acoustic model used by
    the demos, and should provide adequate performance for most desktop
    applications.


    Package: libsphinx2g0
    Description: speech recognition library


    Sphinx 2 is a real-time, speaker-independent speech recognition system.


    Micha

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!