Projekt „Nový hledač“
Business plán
Výchozí pozice - Můj vklad – Finance – Historie – Postup - Odhad prodejní ceny - Vlastnosti projektu
Myšlenka,
nový princip hledání – Algoritmus, stručný popis – Minihledač - Metoda hodnocení výsledků hledání
Microsoft a Bing - Stručné CV - Kontakty
1. Výchozí pozice
Google je největší firma na Internetu a jedna z nejbohatších firem na
světě vůbec. Ovšem cca 30 procent WWW odkazů je v Google špatně umístěných
(můj dřívější odhad, který nyní potvrdila studie City Group). Relevantní
(kvalitativně i kvantitativně skvělé WWW stránky) nejsou nahoře, zatímco méně
významné WWW stránky jsou nahoře. Tedy je možné vytvořit lepší hledač. Myslím,
že znám cestu, která k tomu vede.
2. Můj vklad
Do projektu vkládám:
Myšlenku – nový princip hledání (hotovo).
Algoritmus hledání (je hotov sytém kritérií a počáteční nastavení vah mezi
kriterii).
Algoritmus minihledače (hotovo).
Minihledač (až bude hotov, nutno vypracovat, hlavně k tomu směřuje
investice).
Metodu hodnocení výsledků hledání (hotovo).
Podrobnější informace k vkládaným věcem jsou uvedeny níže.
3. Finance
Poptávám investici 1 milion Kč. Za to nabízím polovinu účasti na projektu
(50:50), tedy polovinu práv a finančních příjmů z věcí, uvedených
v bodě 2 této informace (viz výše). Investování je možno rozdělit mezi
více investorů (za odpovídající podíly).
Viz též Rozpočet.
4. Historie
Současný stav tohoto projektu je moje práce po dobu cca 4 let. Před cca 4 lety
jsem si všiml (jako většina hledajících), že hledače (včetně nejlepšího Google)
nedávají takové výsledky hledání, jaké bych očekával. Udělal jsem si malý
průzkum, který jsem později zpřesnil na základě cca 100 klíčových slov, a
zjistil jsem, že cca 30 procent nalezených WWW stránek je umístěno špatně. Cca
3 roky jsem externě experimentoval s hledači, měnil vlastnosti mých WWW
stránek a sledoval, jak na tyto změny hledače reagují. Mimoto jsem samozřejmě
sledoval i jiná klíčová slova a WWW stránky. Stále jsem nemohl najít odpověď na
otázku, proč není pořadí hledání „optimální“, proč se nahoře vyskytují
„nevýznamné“ WWW stránky (z hlediska konkrétního hledání). Došlo mi to až po 3
letech, kdy jsem se dokázal podívat na hledání z jiného hlediska (úhlu),
než stávající hledače. Prostě jsem vymyslel princip, jak nahoru při hledání
vyzvednout právě relevantní WWW stránky, který současné hledače, podle mého
názoru, nepoužívají. Další rok jsem věnoval konstrukci algoritmu hledání, do
kterého jsem tento princip promítl (kriteria, subkriteria, váhy), návrhu
algoritmu „minihledače“ (aby se dal realizovat v relativně krátkém čase),
metodice porovnání výsledků hledání různých hledačů a přesné formulaci textu
projektu. Tento projekt Vám nyní tímto nabízím k laskavému posouzení,
pokud se Vám bude líbit, tak k investování.
Poznámka:
Existuje určitá analogie mezi historií „mého hledače“ a historií dalších
hledačů. Autoři Google vymysleli jejich algoritmus hledání cca v roce
1995. Tvrdili, že jejich algoritmus je lepší než tehdejší algoritmy, a chtěli
jej prodat. To se jim cca 3 roky nedařilo. Teprve poté se rozhodli, že vyvinou
celý hledač a získali první větší investici (100 tisíc dolarů od ředitele Sun
Microsystems).
Na autory hledání v reálném čase (hledání v sociálních sítích a novinek –
např. na Facebooku a Twitteru) se před dvěma roky dívali, cituji jejich výrok:
„jako na blázny“, nyní je to takřka světová internetová senzace číslo 1
(poznámka: jedná se o specielní, nikoli o obecné hledání).
Viz též Jak
jsem na to přišel.
5. Postup
- je hotov návrh algoritmu a jeho teoretické ověření na mém systému 21 WWW
serverů
- naprogramuje se minihledač (omezený na testovací klíčová slova) pro praktické
ověření algoritmu
- optimalizují se poměry mezi jednotlivými kriterii algoritmu
- na testovacích klíčových slovech se porovnají výsledky hledání minihledače
s výsledky hledání Google a Bing:
-- neúspěch (algoritmus je horší než Google a/nebo Bing):
--- projekt se ukončí
--- projekt se prodá jinému zájemci
--- bude se pokračovat v optimalizaci vah kritérií
-- vyvine se Nový český hledač (je velmi pravděpodobné, že můj algoritmus
hledání je lepší než hledání na Seznamu), viz níže
-- úspěch (algoritmus je srovnatelný nebo lepší než Google a/nebo Bing):
--- algoritmus se prodá Microsoftu, případně jiné počítačové či internetové
firmě
--- vyvine se kompletní software pro hledač (nutná další investice), ten se
prodá
--- zrealizuje se celý hledač – hardware a síť (nutná další investice), ten se
prodá nebo se bude provozovat
Viz též Alternativa „Nový český
hledač" - Alternativa
„Nový český hledač", rozpočet (finanční rozvaha).
6. Odhad prodejní ceny
Microsoft se snažil koupit Yahoo, nejprve vcelku (za cca 44 miliard USD), poté
jen „hledací část“ (za cca 19 miliard USD).
Odhad rozdělení ceny Yahoo:
10 miliard značka, 10 miliard portál, 5 miliard hledač – hardware, 5 miliard
hledač – síť, 5 miliard hledač – software, 5 miliardy hledač – algoritmus.
V případě úspěchu a prodeje mého algoritmu hledání může být tedy prodejní cena
tohoto algoritmu cca 2 miliardy USD (finančním účelem projektu je prodej
algoritmu hledání, proto by bylo vhodné jít při prodeji s cenou o něco
níže, než je skutečná).
Cena 2 miliardy USD by se dělila napůl, tedy já 1 miliardu USD a investor
(investoři) 1 miliardu USD.
To by znamenalo pro investora (investory) celkový příjem cca 17 tisíc násobek
investice:
příjem 1 miliarda USD = cca 17 miliard Kč / investice 1 milion Kč = 17 tisíc.
7. Vlastnosti projektu
Pravděpodobnost úspěchu je 70 procent, pravděpodobnost neúspěchu je 30 procent.
První výsledky budou k dispozici cca za 6 měsíců, celkový výsledek
(kvalita algoritmu v porovnání s Google a/nebo Bing, obchodní
jednání) bude znám cca za 1 rok. V případě plného úspěchu bere investor cca 17
tisící násobek původní investice (!), (případní jednotliví investoři by získali
odpovídající podíly dle velikosti jejich investice). V případě neúspěchu
jsou k dispozici náhradní varianty, které riziko snižují, viz bod 5 –
Postup.
8. Myšlenka - nový
princip hledání
Zde jsou některé charakteristiky principu hledání, který jsem vymyslel.
8.1.
Podstata mého principu hledání je ve dvou bodech:
- hodnotím všechny komponenty Netu: WWW stránky, skripty, obrázky (kresby, fotky, mapy), audio, video, dokumenty...
- z těchto komponent vytvářím jiné objekty = tematicky spjaté množiny.
Naprostý rozdíl mezi Googlem apod. a mnou je, že stávající hledače hodnotí WWW stránky, tedy v podstatě prvky, zatímco já hodnotím množiny tematicky spjatých komponent Netu.
Rozdíly
mezi množinami komponent Netu jsou mnohem větší, než mezi jednotlivými WWW
stránkami. Dá se odhadnout, že můj rozlišovací prostor je 10x větší než
rozlišovací prostor Google (stávajících hledačů). Z tohoto principu je můj
algoritmus mnohem robustnější, pořadí WWW stránek, stanovené mým algoritmem, je
kvalitnější.
8.2.
Základní vlastností mého principu je, že nahoru při hledání vynáší právě
relevantní, tedy kvalitativně i kvantitativně dobré WWW stránky pro hledaná
klíčová slova. Nahoře jsou WWW stránky, které jsou adekvátní dotazu (klíčovým
slovům hledání) - nikoli obecnější, jiné či méně obecné WWW stránky.
8.3.
Můžete si to představit tak, že do textového editoru (Word apod.) natáhnete
klasický algoritmus hledání (v textové podobě) a poté dáte příkaz nahraď „WWW
stránky“/“jiné objekty“. Tak je můj nový princip hledání vnořen do všech
kriterií (pravidel) klasického algoritmu hledání. Z původního algoritmu,
který hodnotil WWW stránky, vznikne nový algoritmu, který hodnotí jiné objekty,
přičemž všechna kriteria jsou zachována. Tak dosahuji hodnocení kvantity i
kvality těch jiných objektů. Pořadí WWW stránek odvozuji z pořadí jiných
objektů (množin), v nichž jsou tyto WWW stránky obsaženy.
8.4.
Grafický výstup mého hledače je stejný jako u stávajících hledačů, tedy vždy
náhled WWW stránky a blok s vybraným textem z této stránky. Rozdíl
mezi stávajícími hledači a mým hledačem je ovšem v pořadí WWW stránek.
8.5.
Myšlenka míří na základní (obecné, klasické hledání). Nikoli na specializované
obory hledání, jako jsou internetové obchody či hledání v reálném čase
(hledání osob - Facebook, hledání aktualit – miniblogy - Twitter).
8.6.
Můj princip není v algoritmu vyjádřen jediným kriteriem. Naopak, promítá
se prakticky do všech kriterií, přičemž hlavní kriteria ovlivňuje zásadním
způsobem. Vine se algoritmem jako „červená niť“. Dá se říci, že se do algoritmu
hledání dosadí místo pojmu „WWW stránky“ můj pojem „jiné objekty“ (některá
kriteria jsou ovšem doplněna nebo jinak změněna).
8.7.
Nejedná se o žádné fluidum (abstraktum), naopak je to známý počítačový termín
s pevným obsahem, použitý „jiným způsobem“ při hledání. Prostě se na
hledání dívám jiným způsobem, z jiného hlediska (úhlu pohledu)
8.8.
Nejedná se o „umělou (počítačovou) inteligenci“, jakou je např. hledač
WoframAlfa. Tato má naději až ve vzdálené budoucnosti, nikoli nyní.
8.9.
Moji myšlenku stávající algoritmy nepoužívají. Plyne to z mého studia
veřejně přístupných popisů algoritmů i z praktického ověřování. Pokud by
tuto myšlenku stávající hledače používaly, musely by se chovat jinak, jejich
pořadí WWW stránek při hledání by bylo jiné.
8.10.
Nemám v algoritmu žádné zvláštní kriterium pro anti "SEO
spamming", tedy proti umělému (formálnímu) vyzdvihování WWW stránek při
hledání nahoru, který je pro současné hledače velkým problémem. Ale kouzlo mé
myšlenky a algoritmu spočívá mimo jiné v tom, že tento SEO spamming dokáže
přirozeně eliminovat, prostě to z toho algoritmu plyne. Je to vedlejší účinek
mého algoritmu, ale je to tak. Black SEO se pro můj princip hledání bude dělat
asi 10x obtížněji, než je tomu ve stávajících hledačích. Jednak SEO spammeři
nebudou dlouhou dobu vědět, na co optimalizovat, co jsou to ty „jiné objekty“.
Ale i až to intuitivně vytuší, bude to pro ně mnohem časově i finančně
náročnější, než je tomu ve stávajících hledačích. A koneckonců, pokud vyrobí
kvalitní množinu komponent Netu na dané téma, pak už se bude jednat spíše o
kvalitní obsahové stránky, než o SEO spamming.
8.11.
Můj princip a/nebo algoritmus je (podle mého názoru) patentovatelný (zabývám se
i ochranou duševního vlastnictví, patenty, označením původu v EU apod.).
Ovšem nechci to patentovat z těchto důvodů:
- je to něco jako rodinné stříbro, jako recept na Becherovku, který se také neprozrazuje
ani nepatentuje
- udělat skutečně světový patent (hledače jsou světové) přijde na cca půl
milionu dolarů, zvláště v počátečním stadiu projektu jsou takové náklady
nepředstavitelné
- pokud se něco patentuje, je patentová přihláška (patent) zveřejněn, tedy
veřejně přístupný; pokud by myšlenku někdo použil, bylo by obtížné to dokázat
(náklady na soudní řízení; jak se vyznat ve stovkách tisících řádků zdrojového
kódu cizího hledače; zneuživatel může soudu předložit jiný zdrojový kód, než ve
skutečnosti používá – pro přímý důkaz tohoto by bylo třeba někde jinde
zrealizovat prakticky celý duplicitní hledač...).
Viz též Vysvětlení mého principu hledání, Grafické
vysvětlení mého principu hledání, Názorné vysvětlení
rozdílu mezi Google a mnou (Kuličky a míče).
9. Algoritmus - stručný popis
Princip hodnocení, který jsem vymyslel, se promítá do kriterií, která určují
pořadí WWW stránek při hledání. Můj algoritmus hledání se skládá z cca 30
kriterií. Do všech těchto kriterií se promítá můj nový princip hledání. Některá
kriteria jsou navíc nová nebo modifikovaná. Důležité je také nalezení správných
vah kriterií v algoritmu. Mám počáteční nastavení vah, váhy se budou
optimalizovat pomocí minihledače.
Viz též Vysvětlení mého algoritmu hledání.
10. Minihledač
Normálně by bylo třeba pro ověření algoritmu hledání zkonstruovat celý hledač
(práce pro několik – spíše desítek - lidí na několik let). Vymyslel jsem, jak
tento postup redukovat na práci cca 2 lidí cca 1 rok. Vybere se 10-100
klíčových slov (hesel). Od každého klíčového slova najde minihledač 100-1000
předních WWW stránek. Minihledačl stanoví pořadí těchto WWW stránek podle mého
algoritmu. Poté provedu optimalizaci vah jednotlivých kriterií, tedy budu měnit
váhy a sledovat, jak se to projeví na pořadí WWW stránek. Na závěr vyberu, dle
mého názoru, ten „nejlepší“ poměr vah.
Výsledky hledání tohoto optimalizovaného algoritmu se porovnají s výsledky
hledání Google a Bing.
Poznámka:
Minihledač bude napsán jakožto „univerzální prostředek pro vývoj a ověřování
algoritmů hledání“. Kriteria hledání i vlastnosti nalezených objektů budou
popsány parametricky. Bude snadné měnit jednotlivá kriteria i váhy, případně
tam vsadit jiný algoritmus. Takový minihledač by byl pravděpodobně prodejný i
„sám o sobě“.
11. Metoda hodnocení výsledků
hledání
Jak hodnotit výsledky hledání, tedy jak porovnat výsledky hledání dvou hledačů
podle daného klíčového slova (klíčových slov)?
Na levé polovině displeje jsou výsledky hledání jednoho hledače, na pravé
polovině displeje jsou výsledky hledání druhého hledače, nalezené při hledání
podle zvoleného klíčového slova (klíčových slov). Které výsledky jsou lepší?
Tady je metoda, kterou jsem vymyslel a kterou navrhuji:
Pro každý nalezený WWW odkaz (WWW stránku) je třeba odhadnout, jaké procento
hledajících uživatelů na daný WWW odkaz klikne a shledá příslušnou WWW stránku
relevantní (odpovídající tomu, co chtěl uživatel najít). Odhad lze provést
z hlediska zájmů a geografie uživatele. Takto lze vyhodnotit většinu
nalezených WWW odkazů (WWW stránek).
Příklady:
Hledání na google.com podle klíčového slova „cars“: na WWW stránky o
australských autech klikne pravděpodobně 2.6 procenta uživatelů (zjednodušeně
počet Australanů / počet anglicky mluvících lidí = 21 000 000 /
813 000 000 = 0.026).
Hledání na google.cz podle klíčového
slova „Morava“: na WWW stránky rockové kapely „Morava“ klikne pravděpodobně 1
procento uživatelů (cca 20 procent uživatelů se při hledání podle klíčového
slova „Morava“ zajímá o moravskou hudbu, cca polovina z nich se zajímá o
rock, cca deset procent z nich se zajímá právě o kapelu „Morava“ (0.2 x
0.5 x 0.1 = 0.01).
Existují
nejméně další dvě metody hodnocení výsledků hledání. Jednu má City Group,
druhou Microsoft (dle vyjádření Steve Ballmera).
Pokud si to bude kupec mého algoritmu (Microsoft pro Bing) přát, může si zvolit
vlastní testovací klíčová slova, já mu tato slova zpracuji a vygeneruji pořadí
nalezených linků. Následně si toto pořadí bude moci porovnat dle jeho vlastní
metodiky s výsledky hledání Google, Bing, případně jiného hledače.
12. Microsoft a Bing
Microsoft se snaží o proniknutí na Internet (hledání) již cca 10 let (Inktomi,
Netscape, MSN Search, Live Search, Yahoo, Bing). Microsoft uvedl nový hledač
Bing na Internet v květnu 2009, zatím bez výraznějšího úspěchu. Statistiky
návštěvnosti hledače Bing cca 2 měsíce rostly (díky reklamní kampani za cca 100
milionů dolarů), nyní spíše klesají. Poměr mezi užíváním Google a Bing ve světě
je cca 30:1, v USA cca 10:1 (dle www.statcounter.com).
Většina analytiků předpokládá, že se stávající poměr Google:Bing udrží, že
změny (nahoru či dolů) jsou málo pravděpodobné. Poté, co došlo k dohodě
mezi Microsoftem a Yahoo, prohlásil Chief Executive Officer Microsoftu Steven
A. Ballmer, že věří v „budoucnost hledání“. Tento krok, kdy bude Yahoo používat
pro hledání právě hledač Bing, se zdál pro většinu analytiků (i pro zaměstnance
Microsoftu) překvapivý, ale z hlediska Microsoftu má určitou logiku: nyní
má Microsoft vlastní hledač, tímto hledačem bude mít obsazen (mimo jiné) tři
velmi navštěvované WWW stránky (microsoft.com, bing.com a yahoo.com) a postupně
chce Bing vyvinout tak, aby se vyrovnal Google. Pan Steven A. Ballmer má ale
nyní snížen plat, pravděpodobně i v důsledku neúspěchu hledače Bing (dle
zprávy z Internetu). Dle analytiků je problém právě v kvalitě hledání,
tedy ve stávajícím algoritmu Bing (uživatele nelze dlouhodobě udržet reklamní
kampaní, ale jen kvalitou hledání). Podle posledních zpráv chce Microsoft
v dalších 5 letech investovat do hledání cca 8 miliard dolarů. Proto má
smysl nový algoritmus hledání vyvinout a Microsoftu jej nabídnout.
Viz též WWW
odkazy.
13. Stručné CV
Vystudoval jsem ČVUT Praha, obor počítače. Mám titul CSc. za práci o
strukturovaném programování. Cca 15 let programátor, Brno, velký laboratorní
informační systém pro řadu nemocnic, poliklinik a lékařů. Cca 16 let nezávislý
odborník a živnostník, obory programování a Internet. Vymyslel a realizoval
jsem programovací jazyk Visual Pascal (nadstavba Pascalu). O koupi se zajímal
Microsoft. Ale vlastník Pascalu firma Borland se tehdy odmítl prodat
Microsoftu, takže Microsoft dal docela logicky přednost jazyku Visual C++.
Seznamy a hledači se zabývám cca 10 let, cca 6 let teoreticky a cca 4 roky
prakticky. O koupi mých patentově chráněných algoritmů pro seznamy (konstrukce
kategorií, slučování seznamů) se vážně zajímal Netscape, proběhlo jednání
v sídlu Netscape, ale Netscape se odmítl prodat Microsoftu, tak ho
Microsoft vyřídil. 5 let práce pro kanadskou firmu, telekomunikace, spojení
mezi počítači a mobilními telefony. Nyní se provozuji 21 WWW serverů, zabývám
se hledáním na Internetu, zlepšováním pořadí na hledačích a prezentacemi.
V Brně dne 15. 5. 2010.
Ing. Petr Hejl, CSc.
Ondrouškova 15, 63500 Brno
tel.: 608 374 535
email: phejl@lednice.org