<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Well I also want to have someone take pocketsphinx and flite and build an opensource speech server and maybe gain some momentum to improve it. &nbsp;btw pocketsphinx supports jsgf, I need to update mod_pocketsphinx to do that but I want to work with DHD to figure out how to load the dictionary once... and just load grammar files moving forward.<div><br></div><div>/b</div><div><br><div><div>On Jan 13, 2009, at 12:31 PM, <a href="mailto:mszlazak@aol.com">mszlazak@aol.com</a> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">Hi Paul,<br> <br> If you mean fixing up pocketsphinx (ps) for telephony instead of or in addition to working on unimrcp then this is the site of the person who created ps and he may have some advice.<br> <br> <a href="http://www.cs.cmu.edu/~dhuggins/">http://www.cs.cmu.edu/~dhuggins/</a><br> <br> Also, this was a post from the sphinx forums for adapting pocketsphinx for telephony.<br> <br> <a href="http://sourceforge.net/forum/message.php?msg_id=5621913">http://sourceforge.net/forum/message.php?msg_id=5621913</a><br> <br> I don't know how accurate it is but if accurate then here is that post to give you some of the issues involved:<br> <br> -----------------<br> Well, there are issues in both the decoder and the interface with the <br> telephony application. <br> &nbsp;<br> First about the decoder, pocketsphinx right now is the most supported <br> and most feature-reach decoder of the family, but in general it's still <br> oriented on the embedded devices. For telephony applications you <br> probably need to extend it a lot. The features that are currently <br> missing are probably: <br> &nbsp;<br> * Out-of-box support for multiple recognizers (probably more a freeswitch <br> issue and a model training issue, for example we have no free <br> male/female model). &nbsp;<br> &nbsp;<br> * Speaker clustering. &nbsp;<br> &nbsp;<br> * Automatic VTLN estimation from pitch (This looks simple). &nbsp;<br> &nbsp;<br> * Good endpointer. &nbsp;<br> &nbsp;<br> * Discriminative training support in SphinxTrain (Huge task). <br> &nbsp;<br> * Good and clean support for a garbage model to be able to filter out <br> out of grammar words. <br> &nbsp;<br> * Embedded RASTA extraction and RASTA model training. <br> &nbsp;<br> * Advanced features extraction <br> &nbsp;<br> Another issue is dialog tracking and understanding. CMU folks are doing <br> work on dialog systems, for example Raven is available <br> &nbsp;<br> <a href="http://www.ravenclaw-olympus.org/systems_overview.html">http://www.ravenclaw-olympus.org/systems_overview.html</a> <br> &nbsp;<br> It would be worth to look on it and try to integrate it into <br> freepbx. Decoder will need to support combined language model. As well <br> as you'll need a component for postprocessing. The postprocessing includes <br> disfluency removal, text normalization, text boundary detection. Integration <br> with nltk probably useful for sense extraction. <br> &nbsp;<br> If you need more details on any of the above, feel free to ask. <br> -------------------<br> <br> <br> <br> <div> <br> </div> <div> <br> </div> -----Original Message-----<br> From: Paul Herring &lt;<a href="mailto:paulh@instruments.com">paulh@instruments.com</a>><br> To: <a href="mailto:freeswitch-users@lists.freeswitch.org">freeswitch-users@lists.freeswitch.org</a><br> Sent: Tue, 13 Jan 2009 8:18 am<br> Subject: [Freeswitch-users] FreeSWITCH, MRCP and Perl<br> <br> <div id="AOLMsgPart_1_f0469cae-eaba-4a7e-a890-0b7edf49fcfc" style="margin: 0px; font-family: Tahoma,Verdana,Arial,Sans-Serif; font-size: 12px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);"> <pre style="font-size: 9pt;"><tt>What would it take to put a budget together to for this project?  <br>
<br>
<br>
Date: Tue, 13 Jan 2009 01:55:36 -0500<br>
From: <a href="mailto:mszlazak@aol.com">mszlazak@aol.com</a><br>
Subject: Re: [Freeswitch-users] FreeSWITCH, MRCP and Perl<br>
To: <a href="mailto:freeswitch-users@lists.freeswitch.org">freeswitch-users@lists.freeswitch.org</a><br>
Message-ID: &lt;<a href="mailto:8CB436312A08329-80C-1B5D@MBLK-M24.sysops.aol.com">8CB436312A08329-80C-1B5D@MBLK-M24.sysops.aol.com</a>><br>
Content-Type: text/plain; charset="us-ascii"<br>
<br>
<br>
 "My god" I would LOVE it if this is really the case and would praise<br>
pocketsphinx (PS) and FS to no end. But my experience has been different.<br>
<br>
First, I tried the pizza demo with a soft phone and later by outside phone<br>
calls to my Linksys 3102 pstn-to-voip gateway. <br>
Second, I tried these two set-ups again but with Voxeo's Prophecy ASR.<br>
<br>
Both are as is and by this I mean there was no training of PocketSphinx just<br>
running the pizza demo and with Prophecy there is no training because it<br>
can't be trained.<br>
<br>
Prophecy is quite good but the FS/Pocketsphinx pizza demo isn't and I<br>
couldn't use it at a pizza join. Also, I get a much better experience when<br>
calling LumenVox and trying their pizza demo.<br>
<br>
Now, maybe Prophecy is the type of asr that doesn't require hours of<br>
training to make it speaker independent. I know that the Sphinx family are<br>
the types of ASR that do need this.<br>
<br>
So, if there is some settings for adaptation of Pocketsphinx for speaker<br>
independence then are they turned on?<br>
?<br>
How many hours of calls to a business should an owner expect before<br>
PocketSphinx gets good enough not to scare customers away?<br>
<br>
If there are many hours needed then I could see using another ASR in the<br>
mean time, recording their calls and feeding the audio to Pocketsphinx for<br>
training, then switching to Pocketspinx once it's "tuned up." At least this<br>
way a business doesn't have to deal with a "virgin" pocketsphinx. <br>
<br>
<br>
<br>
 Mark<br>
<br>
<br>
 <br>
<br>
<br>
-- <br>
This message has been scanned for viruses and<br>
dangerous content by MailScanner, and is<br>
believed to be clean.<br>
<br>
</tt></pre> </div> <!-- end of AOLMsgPart_1_f0469cae-eaba-4a7e-a890-0b7edf49fcfc --> <div id="AOLMsgPart_3_f0469cae-eaba-4a7e-a890-0b7edf49fcfc" style="margin: 0px; font-family: Tahoma,Verdana,Arial,Sans-Serif; font-size: 12px; color: rgb(0, 0, 0); background-color: rgb(255, 255, 255);"> <pre style="font-size: 9pt;"><tt>_______________________________________________<br>
Freeswitch-users mailing list<br>
<a href="mailto:Freeswitch-users@lists.freeswitch.org">Freeswitch-users@lists.freeswitch.org</a><br>
<a href="http://lists.freeswitch.org/mailman/listinfo/freeswitch-users" target="_blank">http://lists.freeswitch.org/mailman/listinfo/freeswitch-users</a><br>
UNSUBSCRIBE:<a href="http://lists.freeswitch.org/mailman/options/freeswitch-users" target="_blank">http://lists.freeswitch.org/mailman/options/freeswitch-users</a><br>
<a href="http://www.freeswitch.org" target="_blank">http://www.freeswitch.org</a><br>
</tt></pre> </div> <!-- end of AOLMsgPart_3_f0469cae-eaba-4a7e-a890-0b7edf49fcfc --> <div id="MAILCIADB036-5c3f496cde0b3f" class="aol_ad_footer"><br><font style="color: black; font: normal 10pt ARIAL, SAN-SERIF;"><hr style="MARGIN-TOP: 10px"><b>A Good Credit Score is 700 or Above. <a href="http://pr.atwola.com/promoclk/100000075x1216817552x1201106465/aol?redir=http://www.freecreditreport.com/pm/default.aspx?sc=668072%26hmpgID=82%26bcd=DecemailfooterNO82"> See yours in just 2 easy steps!</a></b> </font></div><font style="color: black; font: normal 10pt ARIAL, SAN-SERIF;"> _______________________________________________<br>Freeswitch-users mailing list<br><a href="mailto:Freeswitch-users@lists.freeswitch.org">Freeswitch-users@lists.freeswitch.org</a><br>http://lists.freeswitch.org/mailman/listinfo/freeswitch-users<br>UNSUBSCRIBE:http://lists.freeswitch.org/mailman/options/freeswitch-users<br>http://www.freeswitch.org<br></font></blockquote></div><br></div></body></html>