-
1. Data: 2016-10-17 21:29:45
Temat: Algorytmy rozproszone
Od: "M.M." <m...@g...com>
Mamy proste zadanie, najprościej można je wyrazić zapytaniem sql:
select * from table offset N limit M order by kryteria;
Czyli trzeba wyświetlić rekordy począwszy od N+1 do N+M włącznie
licząc zgodnie z jakimś kierunkiem sortowania - łatwizna. Cała
trudność jednak polega na tym, że dane są rozproszone na K
maszynach. Jaki jest do tego najszybszy algorytm? M raczej będzie
małe, N może być bardzo duże, K też może być bardzo duże, np.
M < 200, N > 10^9, K > 50.
Pozdrawiam
-
2. Data: 2016-10-17 21:53:39
Temat: Re: Algorytmy rozproszone
Od: bartekltg <b...@g...com>
On 17.10.2016 21:29, M.M. wrote:
> Mamy proste zadanie, najprościej można je wyrazić zapytaniem sql:
>
> select * from table offset N limit M order by kryteria;
Mów mi jeszcze ;p
> Czyli trzeba wyświetlić rekordy począwszy od N+1 do N+M włącznie
> licząc zgodnie z jakimś kierunkiem sortowania - łatwizna. Cała
> trudność jednak polega na tym, że dane są rozproszone na K
> maszynach.
A jak są w tych maszynach te dane ułożone?
Na każdej posortowane, ale zawartość każdego komputera jest "losowa"?
Czy posortowane na komputerrach, do tego są posortowane pomiedzy
komputerami, tzn komputer $n$ ma rekordy mniojesze niż dowolny rekord
z $n+1$.
> Jaki jest do tego najszybszy algorytm? M raczej będzie
> małe, N może być bardzo duże, K też może być bardzo duże, np.
> M < 200, N > 10^9, K > 50.
10^9 ? Indeks zmieści się na jednym kompie;-)
pzdr
bartekltg
-
3. Data: 2016-10-18 00:03:22
Temat: Re: Algorytmy rozproszone
Od: bartekltg <b...@g...com>
On 17.10.2016 21:29, M.M. wrote:
> Mamy proste zadanie, najprościej można je wyrazić zapytaniem sql:
>
> select * from table offset N limit M order by kryteria;
>
> Czyli trzeba wyświetlić rekordy począwszy od N+1 do N+M włącznie
> licząc zgodnie z jakimś kierunkiem sortowania - łatwizna. Cała
> trudność jednak polega na tym, że dane są rozproszone na K
> maszynach. Jaki jest do tego najszybszy algorytm? M raczej będzie
> małe, N może być bardzo duże, K też może być bardzo duże, np.
> M < 200, N > 10^9, K > 50.
Zrzut myśli w stylu grupowym;-)
Można odpytywać komputer o liczbę elementów mniejszych od x.
Znajdujemy takie x, aby suma zwróconych liczb dawała N
(odpowiednio M+N dla y), wtedy pytamy o przesłanie elementów
większych od x a mniejszych od y.
Uwaga na < i <= (w poście się tym nie przejomwałem;>) oraz
na przypadek gdy elementy się powtarzają.
Takie zapytania można robić równolegle, na raz pytając o cały
zestaw różnych xów. Ciut mniej pytań.
Wymaga logatytmicznie wielu następujących po sobie
zapytań do kompów / odpowiedzi. Prawie na pewno wolne.
Wysyłając po 100 zapyrtań/liczb wystarczy 5 zapytań...
Wymaga pewnie jakiś założeń o statystycznym rozkładzie danych.
Jeśli wszytkie obeikty są skupione w neiwiellu wartośćiach,
leżymy.
Można poprosić kopmputery o rozkłąd danych, np wszystkie decyle,
percentyle (tak, wygoglalem, jak nazywają się kwantyle rzedzu 100)
Na ich podstawie centralny komputer wyznacza zakres, w którym
znajduje sie interesujacy przedział.
Jeśli z 50 komputerów dostaniemy percentyle, dostaję
50 ciągów liczb, z których możesz wyznaczyć licby x1 i x2,
takie ze conajmniej i co najwyżej N liczb jest na lewo.
pozycje x1 i x2 będą się różnić o co najwyżej
N/100*K
Hmm, znów mizernie,, chyba, że przesyłamy znacznie więcej danych
(np 1000 liczb).
Za to jedno ułatwienie się pokazuje. Nie trzeba znać przedziału
do wycięcia bardzo dokładnie, byleby wysłąne zapytanie
zawierało interesujący przedział i nie było zbyt duże,
nadmiar obetniesz na kompue pytającym.
pzdr
bartekltg
-
4. Data: 2016-10-18 05:16:32
Temat: Re: Algorytmy rozproszone
Od: "M.M." <m...@g...com>
On Monday, October 17, 2016 at 9:53:40 PM UTC+2, bartekltg wrote:
> A jak są w tych maszynach te dane ułożone?
Struktura danych może być dowolna, ale powinna
umożliwiać szybkie wykonywanie innych operacji, takich jak
wstawianie, wyszukiwanie, usuwanie, modyfikowanie.
> Na każdej posortowane, ale zawartość każdego komputera jest "losowa"?
> Czy posortowane na komputerrach, do tego są posortowane pomiedzy
> komputerami, tzn komputer $n$ ma rekordy mniojesze niż dowolny rekord
> z $n+1$.
Hmmm, myślę że z powodu zachowania uniwersalnej struktury dane
będą rozrzucone losowo pomiędzy komputerami.
> 10^9 ? Indeks zmieści się na jednym kompie;-)
Racja, trochę za mało danych wymyśliłem :) To powiedzmy że
> Można odpytywać komputer o liczbę elementów mniejszych od x.
> [...]
Tak, to jest jakaś metoda, ale wydaje się wolna i skomplikowana.
Gdy na każdym komputerze jest N danych, to trzeba wszystkie
komputery zmusić LogN razy do podania ilości większych
elementów. Gdy już mamy konkretny element, to łatwo, wystarczy
połączyć wyniki z każdego komputera.
> Takie zapytania można robić równolegle, na raz pytając o cały
> zestaw różnych xów. Ciut mniej pytań.
Dobry pomysł.
> [...]
> Za to jedno ułatwienie się pokazuje. Nie trzeba znać przedziału
> do wycięcia bardzo dokładnie, byleby wysłąne zapytanie
> zawierało interesujący przedział i nie było zbyt duże,
> nadmiar obetniesz na kompue pytającym.
Też jest to jakaś optymalizacja. Większy transfer, ale mniej
odpytań - powinno się opłacać. Wygląda na to, że jest to do
zrobienia w kilku odpytaniach wszystkich komputerów z klastra.
Pozdrawiam