Sterowanie głosowe - przyszłość Web 3.0 czy zabawka?

eGospodarka.pl › Grupy › pl.comp.www › Sterowanie głosowe - przyszłość Web 3.0 czy zabawka? › Sterowanie głosowe - przyszłość Web 3.0 czy zabawka?

Data: 2010-03-04 17:49:18
Temat: Sterowanie głosowe - przyszłość Web 3.0 czy zabawka?
Od: WebCM <w...@g...com> szukaj wiadomości tego autora
[ pokaż wszystkie nagłówki ]
Po wejściu Web 2.0 i społecznościowej rewolucji powstają koncepcje Web
3.0. Główne założenia:

* Aplikacje będą opierać się o bazy danych, aby przeglądarki lub
inne czytniki mogły dopasować je do wzorca, czyli przekazać
internautom w odpowiedniej formie.
* Sztuczna inteligencja, naturalna interakcję z użytkownikiem.
* Wyświetlanie i przetwarzanie danych w 3D.
* Rozpoznawanie zamiarów internauty na podstawie kontekstu danych
(z tym obecnie nawet Google ma problemy)
* Semantyczny kod - mikroformaty, poprawne znaczniki,
wykorzystanie CSS

Przyjrzałem się bliżej funkcjom głosowym w Operze. Przeprowadzenie
prostej interakcji z użytkownikiem nie jest trudne, ale rozwiązanie
aktualnie nie nadaje się do zaawansowanych aplikacji lub gier.

Technologię opisują języki VoiceXML i SML oparte na XML. Twórcy
zewnętrznych aplikacji lub telefonicznych systemów zamówień mają
ułatwione zadanie, bo wystarczy wykorzystać libexpat, a syntezator sam
zadba o interpretację i podział na etapy (analogicznie do: wybierz 1,
aby... naciśnij 2, aby...) na podstawie kodu. Wszystko wg ściśle
ustalonych schematów, choć specyfikacja pozwala wtrącić kod JS,
wyrażenia regularne, opcje wyboru i znacznie więcej. Otrzymane
odpowiedzi są przechowywane w polach abstrakcyjnego formularza.

W przypadku zaawansowanych aplikacji internetowych XVML może nie zdać
egzaminu. Jest zbyt skomplikowany, przez co można łatwo zagmatwać kod
HTML i zgubić się. Coś się pewnie zmieni w Voice XML 3, ale mimo
wszystko chyba lepiej napisać całą logikę w JS. HTML 5 pozwala osadzić
SVG i MathML, ale nie wiem, czy VXML też.

Moja wizja: istnieje obiekt, na przykład VOICE, inicjowany podobnie
jak XMLHttpRequest. Kluczową rolę pełnią zdarzenia oraz metody
pozwalające wykryć określone słowa, znaki lub sekwencje. Obiekt ma
własności dotyczące opóźnień, szybkości... które można zmienić.

Na przykładzie gry logiczno-przygodowej:
1) polecenia "[go] left", "[go] right", "enter"... są interpretowane
zawsze
2) inne polecenia, np. "open drawer", "put CD", "turn on [the]
computer" - w razie potrzeby
3) inne przykłady: "[tell me] about ", "where I am", dyktowanie kodu

Tego nie da się zrobić etapami jak w VXML, a najlepszą metodą na 60%
jest przekazywanie sobie zdarzeń między obiektami lub funkcjami -
podobnie przechwytuję klawiaturę - onkeydown - niektóre pokoje lub
elementy w grze mają zdarzenie zdefiniowane przeze mnie :)

Zatem powinna powstać specyfikacja Javascript dla funkcji głosowych
W tym przypadku XML-owe rozwiązania za bardzo ograniczają
funkcjonalność, które chyba pierwotnie zostały przeznaczone do obsługi
klientów i aplikantów, a nie graczy / użytkowników zaawansowanych
aplikacji. Może jestem w błędzie i czegoś nie doczytałem ;)

Co myślicie o interakcji werbalnej w aplikacjach i grach?