Tip:
Highlight text to annotate it
X
>> LUCAS FREITAS: Hey.
Vabljeni vsi.
Moje ime je Lucas Freitas.
Sem junior na [neslišno] študiju računalništva s poudarkom na
računalniškega jezikoslovja.
Torej moj sekundarni v jeziku in teorija jezika.
Res sem navdušena, da naučil fantje malo o tem področju.
To je zelo zanimivo področje za študij.
Tudi z veliko potenciala za prihodnost.
Torej, jaz sem res navdušena, da vidva razmišljajo projekte
računalniškega jezikoslovja.
In jaz bom z veseljem svetoval kdo od vas, če se boste odločili za
uresničujejo enega od teh.
>> Torej, najprej, kaj je računalniška lingvistika?
Torej, računalniška lingvistika, je presečišče med jezikoslovjem in
računalništva.
Torej, kaj je jezikoslovje?
Kaj je računalništvo?
No iz jezikoslovja, kaj vzamemo so jeziki.
Torej jezikoslovje je dejansko študija naravnega jezika na splošno.
Torej naravni jezik - govorimo o jezik, ki se dejansko uporabljajo za
komunicirajo med seboj.
Torej ne ravno govorimo o C ali Java.
Govorimo več o angleškem in Kitajski in drugi jeziki, ki jih
uporabljajo za komunikacijo med seboj.
>> Zahtevna stvar, da je to Zdaj imamo skoraj 7.000
jezikov v svetu.
Torej, obstaja precej visoka sorta jezikov, da lahko študirajo.
In potem misliš, da je to verjetno zelo težko narediti, npr
prevod iz enega jezika v drugo, če upoštevamo, da imate
skoraj 7.000 od njih.
Torej, če misliš, da delaš prevod iz enega jezika v drugi si
imajo skoraj več kot milijon različnih kombinacij, ki jih lahko
imajo od jezika do jezika.
Torej, to je res izziv, da naredite nekaj vrsta primer prevajalskega sistema
vsak jezik.
>> Torej, jezikoslovje obravnava s sintakso, Semantika in pragmatika.
Vi se natančno ne potrebujem vedeti, kaj so.
Ampak zelo zanimiva stvar je, da kot native speaker, ko ste izvedeli,
jezik kot otrok, ste dejansko učijo vse te stvari - skladnja semantika
in pragmatika -
sami.
In nihče ne bo naučil sintakso , da bi razumeli, kako so kazni
strukturirana.
Torej, to je res zanimivo, ker to je nekaj, kar pride zelo
intuitivno.
>> In kaj ob od računalništvo?
No, najbolj pomembna stvar, ki jo imajo v računalništvu je v prvi vrsti
Vse, umetna inteligenca in strojno učenje.
Torej, kaj smo poskušali delaš računalniška lingvistika je teach
računalnik, kako narediti nekaj z jezikom.
>> Tako, na primer, v stroju prevod.
Poskušam se naučiti moj računalnik how vedeti, kako prehod iz ene
jezik za drugo.
Torej, v bistvu všeč poučevanje Računalniške dva jezika.
Če naredim obdelavo naravnega jezika, ki je primer za
Facebook Graf Search, učiš računalnik, kako razumeti
poizvedbe dobro.
>> Torej, če rečeš "fotografije mojega prijatelji. "Facebook ne zdravi, da
kot cel niz, ki ima samo kup besed.
To dejansko razume odnos med "fotografije" in "prijatelji" in
razume, da se "fotografije", so lastnina "prijatelji".
>> Torej, to je del, na primer, obdelava naravnega jezika.
To se poskuša razumeti, kaj je razmerje med
besede v stavku.
In veliko vprašanje je, lahko naučiti računalnik, kako govoriti
jezik na splošno?
Kar je zelo zanimivo vprašanje mislim, kot če bi morda v prihodnosti,
boste mogli pogovorite s svojim mobilnim telefonom.
Nekako tako kot tisto, kar počnemo s Siri, vendar nekaj več kot, lahko dejansko
reči karkoli hočeš, in telefon se dogaja, da razumejo vse.
In ima lahko spremljala vprašanja in govorite.
To je nekaj res razburljivo, po mojem mnenju.
>> Torej, nekaj o naravnih jezikov.
Nekaj res zanimivo naravnih jezikov je, da je, in to je
kredit na moj profesor lingvistike, Maria Polinsky.
Ona daje zgled in mislim, to je res zanimivo.
Ker smo se naučili jezika, od kdaj rodimo in potem naš materni
jezik vrsta raste na nas.
>> In v bistvu se boste naučili jezika od minimalne vhod, mar ne?
Ste pravkar dobili vhod iz vašega Starši, kaj je tvoj jezik sliši
všeč in jo šele učijo.
Torej, to je zanimivo, ker če pogledaš V teh stavkih, npr.
Zgledaš, "Mary nadene plašč vsakem Čas zapusti hišo. "
>> V tem primeru je mogoče imeti Beseda "ona" nanaša na Marijo, kajne?
Lahko rečeš "Mary nadene plašč vsakič Mary zapusti
hiša. ", tako da je v redu.
Ampak potem, če pogledaš na stavka "Ona postavlja na plašč vsakič Mary
zapusti hišo. "veš, da je mogoče reči, da je "ona" je
ki se nanaša na Marijo.
>> Ni šans, da bi rekel, da je "Marija postavlja na plašču vsakič Mary zapusti
hiša. "Torej, to je zanimivo, ker to je nekako intuicijo
da ima vsak naravni govorec.
In nihče ni naučil, da je to Tako, da je sintaksa deluje.
In da lahko le to "ona" sklicevanjem na Marije v tem prvem primeru
in dejansko je to druga Tudi, vendar ne v tem.
Toda vsi nekako dobi na isti odgovor.
Vsakdo se strinja s tem.
Tako da je res zanimivo, kako, čeprav ne veš vsa pravila
v vašem jeziku, ki ga nekako razumem kako jezik deluje.
>> Tako zanimiva stvar, o naravnih je jezik, ki ga ne bi bilo treba
poznam nobenega sintakso, da vem, če stavek je slovnična ali Negramatički za
večini primerov.
, Ki misliš, da morda kaj se zgodi, da skozi svoje življenje, si
samo vztrajati vse bolj in bolj stavki povedal za vas.
In potem boste obdržali memoriranje vse kazni.
In potem, ko ti nekdo pove, nekaj, slišiš ta stavek in
pogledaš na svojega besednjaka stavkov in videli, če
ta stavek je tam.
In če je tam pravijo, da je slovnična.
Če je ne boste rekli, da je Negramatički.
>> Torej, v tem primeru, bi rekel, oh, tako da boste imeli ogromen seznam vseh
možne kazni.
In potem, ko slišiš stavek, veš, če je slovnična ali
ne temelji na tem.
Stvar je v tem, da če pogledaš na stavek, na primer, "
pet vodil CS50 TFS kuhano slepe hobotnica z uporabo DAPA vrč. "To je
definitivno ni stavek da si slišal.
Vendar pa hkrati veš, da je precej slovničnih, kajne?
Ni slovnične napake in lahko rečem, da
to je možno kazen.
>> Tako da nas mislijo, da dejansko Tako, da smo se naučili jezika ni samo
ki ga imajo ogromno bazo mogoče besede ali stavke, vendar več
razumevanje odnosa med besede v teh stavkih.
Ali to smiselno?
Je tako, potem je vprašanje, lahko računalniki učenje jezikov?
Moremo naučiti jezika na računalnikih?
>> Torej, kaj je razmišljati o razliki med rodni govorci jezika
in računalnik.
Torej, kaj se zgodi na zvočnik?
No, naravni govorec nauči jezik izpostavljenosti do njega.
Običajno svojih prvih letih otroštva.
Torej, v bistvu, imate samo otroka, in kar naprej govoril z njim, in to
Pravkar se nauči govoriti jezik, kajne?
Torej, ste v bistvu daje vhod za otroka.
Torej, potem lahko trdijo, da računalnik lahko storijo enako stvar, kajne?
Si lahko samo dati JEZIKA kot izhodišče za računalnikom.
>> Kot na primer kup datotek da so knjige v angleščini.
Morda je to eden od načinov, ki vam bi morda lahko naučil
Računalnik angleško, kajne?
In v resnici, če mislite o tem, vas popelje morda nekaj
dni, da berejo knjigo.
Za računalnik, ki je potreben za trenutek, da poglej vse besede v knjigi.
Torej si lahko mislite, da je lahko samo to Argument prispevkom okoli vas,
da ni dovolj, da rečemo, da je to nekaj, kar lahko samo ljudje.
Si lahko mislite računalnike Prav tako lahko dobite vhod.
>> Druga stvar je, da govorci Imajo tudi možganov, ki ima
učenje jezikov zmogljivosti.
Ampak, če mislite o tem, možgani trdna stvar.
Ko se rodiš, to je že določena -
to je vaši možgani.
In kot ste odraščali, ki ste jo pravkar dobili več vhod jezika in morda hranil
in druge stvari.
Ampak precej vaši možgani je trdna stvar.
>> Tako da lahko rečem, no, morda lahko zgraditi računalnik, ki ima kup
funkcije in metode, ki samo posnemajo učenje jezikov zmogljivosti.
Torej, v tem smislu, da bi lahko rekli, dobro, sem lahko računalnik, ki ima vse
Stvari se moram naučiti jezika.
In zadnja stvar je, da je materni Govornik se uči iz poskusov in napak.
Tako da v bistvu še ena pomembna stvar v Učenje jezikov je, da si nekako
od učijo stvari, ki jih tako posploševati, kar slišite.
>> Torej, kot ste odraščali ste izvedeli, da Nekatere besede so bolj kot samostalniki,
nekateri drugi pa so pridevniki.
In vam ni treba imeti vsaka znanje jezikoslovja
razumeti, da.
Vendar si vedel, da je nekaj besed je postavljenih v nekem delu
stavek, in nekateri drugi v drugo deli stavka.
>> In da ko narediš nekaj, kar je kot kazen, ki ni pravilna -
Morda zaradi pretirano posploševanje npr.
Mogoče, ko si odraščal, opazite da je množina običajno
oblikovana z zaustavitvijo S na Konec besede.
Nato pa poskusite narediti množina "jeleni" so jeleni "" ali "zob", kot je
"tooths." Torej tvoji starši ali ti nekdo popravi in reče, ne,
množina "jelena" je "jelena" in množina "zob" je "zob". In potem
boste naučili te stvari.
Torej, ste se naučili iz poskusov in napak.
>> Lahko pa tudi to, da z računalnikom.
Lahko imaš nekaj, kar ti okrepitev učenja.
Ki je v bistvu tako, kot bi Računalnik nagrado vsakič, ko se to zgodi
Nekaj pravilno.
In ji daje nasprotje nagrado in ko se to zgodi nekaj narobe.
Lahko dejansko videli, da če greš da Google Translate in poskusite
prevesti stavek, da vas prosi za povratne informacije.
Torej, če si rekel, oh, tam je bolje prevod tega stavka.
Lahko ga vnesite in potem, če veliko Ljudje kar naprej govorijo, da je bolje
prevod, samo izve, da je bi morali namesto uporabil ta prevod
ena je bila daje.
>> Torej, to je zelo filozofsko vprašanje da vidim, če računalnikov se bodo
mogli govoriti ali ne v prihodnosti.
Ampak imam veliko upanja, da jih lahko Samo na podlagi teh argumentov.
Ampak to je samo bolj filozofsko vprašanje.
>> Torej, medtem ko računalniki še vedno ne more govoriti, kaj so stvari, ki jih lahko storimo?
Nekaj res kul stvari Razvrstitev podatkov.
Tako, na primer, veste, da so e-poštne storitve storiti za
Na primer, filtriranje spam.
Torej, ko boste prejeli spam, je poskuša filtrirati na drugo polje.
Torej, kako to storiti?
To ni všeč računalnik samo ve kaj e-poštni naslovi so pošiljanje spam.
Tako da je bolj temeljila na vsebino sporočilo, ali morda naslov ali
Mogoče nek vzorec, ki ga imajo.
>> Torej, v bistvu, kaj lahko naredite, je dobil Veliko podatkov, elektronskih sporočil, ki so spam,
e-poštna sporočila, ki niso spam, in izvedeti, kaj vrsta vzorcev imate v
Tiste, ki so spam.
In to je del računskih jezikoslovje.
Imenuje se razvrstitev podatkov.
In smo dejansko videli Primer da bo v naslednjih diapozitivih.
>> Druga stvar, ki je naravni jezik predelave, ki je stvar, ki
Graf Iskanje počne od najemnin napišete kazen.
In upa, da razumete, kaj je pomen in daje
ste boljši rezultat.
Pravzaprav, če greš na Google ali Bing in iščete nekaj podobnega Lady
Višina Gaga je, da ste dejansko dogaja da bi dobili 5 '1 "namesto informacij
od nje, ker je dejansko razume kaj govoriš.
Torej, to je del naravnega jezik za obdelavo.
>> Ali pa tudi, ko ste s pomočjo Siri, prvi imate algoritem, ki poskuša
prevesti kaj govoriš v besede v besedilu.
In potem je poskušal prevesti da v smislu.
Tako, da je vse del naravnega jezik za obdelavo.
>> Potem imate strojnega prevajanja -
ki je pravzaprav ena od mojih favoritov -
ki je pravkar prevajanju iz jezika v drugega.
Torej si lahko mislite, da ko delaš strojno prevajanje, imate
neskončne možnosti stavkov.
Torej ni nobenega načina, da samo shranjevanje vsak prevod.
Torej ste prišli do zanimivih algoritmi bi lahko
prevesti vsak stavek na nek način.
>> Vi imate kakršnakoli vprašanja doslej?
Ne?
OK.
>> Torej, kaj smo videli danes?
Najprej bom govoril o problem uvrstitev.
Torej, tisti, ki me je govorijo o spam.
Kaj bom storiti, je, glede na to lyrics skladbo, lahko poskusite ugotoviti,
z veliko verjetnostjo kdo je pevec?
Recimo, da imam pesmi Lady Gaga in Katy Perry, če ti dam
Nova pesem, lahko ugotovimo, če to je Katy Perry ali Lady Gaga?
>> Drugi pa, grem govoriti o problem segmentacije.
Tako da ne vem, če veste, ampak Kitajski, japonski, drugi vzhodnoazijski
jeziku ter v drugih jezikih V splošnem nimajo
presledki med besedami.
In potem, če mislite o tem, kako to računalnik nekako poskuša
razumeti, obdelava naravnega jezika, je videti na besedami in
poskuša razumeti odnose med njimi, kajne?
Ampak potem, če imate kitajski, in ti imeti nič prostore, to je res težko
izvedeti, kakšno je razmerje med besede, ker nimajo kateremkoli
Besede na prvi.
Tako da boste morali narediti nekaj, kar ti Segmentacija, ki samo pomeni, da se
Razmiki med kaj bi klic besede v teh jezikih.
Smisla?
>> In potem bomo govorimo o skladnji.
Torej samo malo o naravnih jezik za obdelavo.
To se dogaja, da je samo pregled.
Torej, danes, v bistvu tisto, kar želim storiti se vam fantje malo
Notranjost kakšne so možnosti ki jih lahko naredite s računskih
jezikoslovje.
In potem lahko vidite, kaj si misliš je kul med temi stvarmi.
In morda si lahko zamislite projekta in se pogovarjati z mano.
In jaz lahko dam nasvet o tem, kako jo izvajati.
>> Torej sintaksa se bo nekoliko O Graph Search in strojem
prevod.
Jaz bom samo dal primer, kako Lahko bi, na primer, prevesti
nekaj iz portugalščine v angleščino.
Sliši se dobro?
>> Torej, najprej, problem uvrstitev.
Jaz bom rekel, da je to del seminarja se bo najbolj zahtevna
eno samo zato, ker se dogaja vsaj nekaj kodiranje.
Ampak to se dogaja, da je Python.
Vem, da vi ne veste, Python, tako Jaz sem samo, da pojasni, na visoki
raven, kar delam.
In ti ne bo treba res skrbi preveč toliko o skladnji, ker to je
kaj vi lahko naučite.
OK?
Sliši se dobro.
>> Torej, kaj je problem razvrstitev?
Torej boš dal nekaj lyrics pesem, in želite, da uganiti
ki jo poje.
In to je lahko za kakršnokoli drugih težav.
Torej je mogoče, na primer, da imate predsedniški kampanji in imate
govor, in želite, da bi našli , če je bilo, na primer,
Obama ali Mitt Romney.
Ali lahko imate kup e-pošte in hočeš, da ugotovimo, če so
spam ali ne.
Torej, to je samo nekaj razvrščanje podatki, ki temeljijo na besede
da ste tam.
>> Torej za to, moraš narediti nekaj predpostavk.
Torej, veliko približno računalniškega jezikoslovja je predpostavk,
ponavadi pametne predpostavke, da lahko dobili dobre rezultate.
Poskušajo ustvariti model za to.
In potem jo preizkusite in poglejte, če deluje, če vam dobro natančnost.
In če je temu tako, potem boste poskušali izboljšati.
Če se ne, ti si kot, OK, morda sem naj bi drugačno predpostavko.
>> Torej predpostavka, da bomo se je, da je umetnik ponavadi poje
o temi večkrat, in morda uporablja besede, večkrat samo
zato, ker so navajeni na to.
Lahko samo pomislite na svojega prijatelja.
Prepričan sem, da vama vse prijatelje ki pravijo, njihov podpis besedno zvezo,
dobesedno za vsak stavek -
kot neke določene besede ali nekaterih posebnih Stavek, ki pravijo, da za
vsak stavek.
>> In kaj lahko rečem je, da če vidite stavek, da je podpis
Stavek, ki jih lahko uganiti, da je verjetno tvoj prijatelj
eden je rekel, kajne?
Torej si tako predvideval, nato pa to je, kako si ustvariti model.
>> Primer, da bom dal, je na kako Lady Gaga, na primer, ljudje
pravijo, da ona uporablja "otroka" za vsi njeni številka ena pesmi.
In dejansko je ta video, ki prikazuje ji rekel besedo "otroka" za
različne pesmi.
>> [Predvajanje videa]
>> - (PETJE) Baby.
Baby.
Baby.
Baby.
Baby.
Babe.
Baby.
Baby.
Baby.
Baby.
>> [END predvajanje videa
>> LUCAS FREITAS: Torej obstajajo, mislim, 40 pesmi, tukaj, v katerem pravi,
Beseda "otroka". Torej v bistvu lahko uganiti da če vidiš pesem, ki ima
Beseda "baby," je neka visoka Verjetnost, da je Lady Gaga.
Ampak poskusimo to razviti nadalje bolj formalno.
>> Torej, to so pesmi skladbam Lady Gaga in Katy Perry.
Torej si poglej Lady Gaga, ki jih vidijo imajo veliko dogodkov za "dojenčka",
Veliko pojavov "način." In potem Katy Perry ima veliko pojavljanj
«,» Veliko pojavov "ogenj".
>> Torej v bistvu tisto, kar smo želeli storiti je, da si dobil posreduj besedilo.
Recimo, da ste dobili posreduj besedilo za Pesem, ki je "baby," samo "mlade". Če
ste pravkar dobili besedo »otroka« in to so vsi podatki, ki jih imajo od
Lady Gaga in Katy Perry, ki bi uganete je oseba
kdo poje pesem?
Lady Gaga in Katy Perry?
Lady Gaga, kajne?
Ker je edini, ki pravi: "Otrok". To se sliši neumno, kajne?
OK, to je res enostavno.
Jaz sem samo videti na dveh pesmih in Seveda, ona je edina, ki ima
"Otrok".
>> Toda kaj, če imate kup besed?
Če imate dejansko lirskega, nekaj kot, "ljubica, pravkar sem
obiskala [? RVK?]
Predavanje "ali nekaj takega, in potem boste dejansko morali ugotoviti -
na podlagi vseh teh besed -
kdo je umetnik, ki je verjetno pel to pesem?
Torej poskusimo razviti to malo naprej.
>> OK, tako da temelji le na podatkih, ki smo dobil, se zdi, da je Gaga verjetno
pevka.
Ampak kako lahko pišemo to bolj formalno?
In tam dogaja, da se malo malo statistike.
Torej, če ste izgubili, samo poskusite razumeti pojem.
Ni važno, če ste razumeli enačbe zelo dobro.
To je vse, bo na spletu.
>> Torej v bistvu tisto, kar sem izračunu je Verjetnost, da je ta pesem
Lady Gaga saj -
da to pomeni, bar saj -
Videl sem besedo "otroka". Ali to smiselno?
Torej, jaz sem poskušal izračunati da je verjetnost.
>> Tako da je ta izrek se imenuje Bayesov teorem, ki pravi, da
verjetnost danega B, je Verjetnost, B, A, saj časi
verjetnost, da bo, v verjetnosti B. Ta je dolga enačba.
Ampak kaj moraš razumeti iz to je, da je to tisto, kar želim
izračunati, kajne?
Tako da je verjetnost, da je ta pesem Lady Gaga saj sem videl besedo
"Otrok".
>> In kaj zdaj dobivam je Verjetnost besedo "otroške" dati
da imam Lady Gaga.
In kaj je to v bistvu?
Kaj to pomeni, je, kaj je Verjetnost, da bi videli besedo "otroka"
V Gaga lyrics?
Če hočem izračunati, da je v zelo preprost način, to je samo število
krat sem videl "dojenčka", glede na skupno število besed v Gaga lyrics, kajne?
Kakšna je frekvenca, ki jo vidim da beseda v delu Gaga je?
Smisla?
>> Drugi izraz verjetnost Gaga.
Kaj to pomeni?
To v bistvu pomeni, kaj je verjetnost razvrščanja
Nekatere pesmi so Gaga?
In to je nekako čudno, ampak Pomislimo na primer.
Torej, recimo, da je verjetnost imajo "otroka" v pesem je enak
Za Gaga in Britney Spears.
Ampak Britney Spears ima dvakrat več pesmi, kot so Lady Gaga.
Torej, če vam nekdo samo naključno daje lyrics "dojenčka", prvo stvar, ki jo
gledati je, kakšna je verjetnost, imajo "otroka" v Gaga pesem, "ljubica"
v Britney pesmi?
In to je ista stvar.
>> Torej, druga stvar, ki jo boste videli, je, no, kaj je verjetnost
ta pesem sama po sebi pa Gaga pesem, in kakšna je verjetnost
pri čemer je Britney pesem?
Zato, ker ima Britney toliko bolj lyrics kot Gaga, bi vam verjetno
recimo, dobro, to je verjetno Britney pesem.
Tako da je, zakaj imamo to imenujemo tukaj.
Verjetnost Gaga.
Smiselno?
To počne?
OK.
>> In zadnja je samo verjetnost za "dojenčka", ki ne
važno, da je veliko.
Vendar je verjetnost videnje "otroka" v angleškem jeziku.
Mi običajno ne skrbi, da toliko o tem obdobju.
Ali to smiselno?
Torej verjetnost Gaga je imenovana pred verjetnost
razrednega Gaga.
Ker to pomeni le, da je tisto, kar je Verjetnost, da ima njen razred -
ki je Gaga -
Samo na splošno, ravno brez pogojev.
>> In potem, ko sem imel verjetnost Gaga zaradi "mlade", ga imenujemo plus
teary verjetnost, ker je verjetnost ob
Gaga dal nekaj dokazov.
Torej, jaz ti dam dokaze da sem videl besedo otroka in
pesem smiselna?
OK.
>> Torej, če sem izračunal, da za vsako pesmi za Lady Gaga,
kaj bi bilo -
očitno je, da ne morem premakniti tega.
Verjetnost Gaga bo nekaj podobnega, 2. *** 24 krat 1/2,
več kot 2 *** 53.
Ni važno, če veš, kaj Te številke so prihajajo iz.
Ampak to je samo številka, ki se dogaja da bo več kot 0, kajne?
>> In potem, ko sem naredil Katy Perry, Verjetnost, "dojenčka", saj je Katy
že 0, kajne?
Ker ni "mlade" V Katy Perry.
Torej, potem to postane 0, in Gaga zmag, kar pomeni, da je Gaga
Verjetno pevka.
Ali to smiselno?
OK.
>> Torej, če želim, da bi to še uradni, Jaz lahko dejansko narediti model
več besed.
Torej, recimo, da imam nekaj kot, "baby, I am
na ogenj, "ali kaj podobnega.
Torej ima več besede.
In v tem primeru, si lahko ogledate da "mlade" je Gaga,
vendar to ni v Katy.
In "ogenj" je v Katy, vendar to ni v Gaga, kajne?
Torej, to je vse težje, kajne?
Ker se zdi, da si skoraj imajo vez med njima.
>> Torej, kaj morate storiti je, da prevzame Neodvisnost med besedami.
Torej v bistvu, kaj to pomeni, da Jaz sem samo izračun, kar je
Verjetnost, da bi videli "otroka", kar je verjetnost videnje "I" in
"Am" in "o" in "ogenj" vse ločeno.
Potem sem se pomnoži vse od njih.
In vidim, kaj je verjetnost videnje celotno kazen.
Smisla?
>> Torej v bistvu, če imam samo eno besedo, tisto, kar želim, da bi našli, je arg max,
kar pomeni, kaj je razred, ki je mi dali največ možnosti?
Torej, kaj je razred, ki se daje me največja verjetnost
verjetnost razreda dati besedo.
Torej, v tem primeru, saj Gaga "otroka". Ali Katy dana "otroka". Smisla?
>> In samo od Bayes, da Enačba, da sem pokazal,
smo ustvarili to frakcijo.
Edina stvar je, da boste videli, da verjetnost besede glede
razreda se spreminja glede v razredu, kajne?
Število "otroške" ih, ki sem jih V Gaga je drugačen od Katy.
Verjetnost razredu tudi spremembe, saj je samo številka
pesmi, vsaka od njih ima.
>> Ampak verjetnost je beseda sama se bo enaka za vse
umetniki, kajne?
Torej verjetnost besedo samo, kakšna je verjetnost,
vidim to besedo v Angleški jezik?
Torej je enaka za vse.
Zato ker je to konstanta, smo lahko samo spusti to ne briga.
Torej bo to dejansko Enačba iščemo.
>> In če imam več besed, da sem še vedno dogaja, da imajo pred
Verjetnost tukaj.
Edina stvar je, da sem se pomnoži verjetnost
Vse drugimi besedami.
Torej sem se pomnoži vse od njih.
Smisla?
To izgleda čudno, ampak v bistvu pomeni, izračunati pred razreda, in
nato pomnožimo z verjetnostjo, da je vsak besed, ki so v tem razredu.
>> In veš, da je verjetnost Beseda dana razred se bo
kolikokrat ste videli to besedo v da razred, deljeno s številom
Besede, ki jih imajo po tem, da razred na splošno.
Smisla?
To je samo, kako "mlade" je bil več kot 2 število besed, ki
Imel sem v besedilih.
Torej samo frekvenca.
>> Vendar pa obstaja ena stvar.
Spominjam se, kako sem pokazal, da Verjetnost, "otroške", ki se lyrics
od Katy Perry je 0 samo zato, ker Katy Perry ni imel "otroka" sploh?
Ampak to se sliši malo kruto, da samo preprosto reči, da pesmi ne more biti iz
umetnik samo zato, ker nimajo da beseda zlasti kadarkoli.
>> Torej bi lahko samo rekli, dobro, če nimajo te besede, se bom
vam manjšo verjetnost, ampak jaz samo ne bo
vam 0. takoj.
Saj morda je bilo nekaj podobnega, "Požar, ogenj, požar, ogenj", ki je
popolnoma Katy Perry.
In potem "mlade" in da gre samo za 0 desno stran, ker je bila ena
"Otrok".
>> Torej v bistvu tisto, kar počnemo, je nekaj imenovano Laplace glajenje.
In to samo pomeni, da dajem nekateri verjetnost celo besedami
da ne obstajajo.
Torej, kaj storiti, je, da ko sem izračun tega sem vedno dodamo 1 do
števec.
Torej, čeprav beseda ne obstaja, pri V tem primeru, če je to 0, še vedno sem
izračuna, da je to več kot 1 Skupno število besed.
Drugače pa sem dobil, koliko besed Imam in dodam 1.
Torej Štejem obeh primerih.
Smisla?
>> Torej, zdaj pa naredite nekaj kodiranja.
Jaz bom moral to storiti zelo hitro, ampak to je samo pomembno, da vam
Fantje razumejo koncepte.
Torej, kaj smo poskušali narediti je natančno izvajanje te
stvar, ki sem rekel -
Želim vam, da iz besedila Lady Gaga in Katy Perry.
In program se bo lahko reči, če so te nove pesmi iz Gaga
ali Katy Perry.
Smisla?
OK.
>> Torej imam ta program, vam bom poklicati classify.py.
Torej, to je Python.
To je nov programski jezik.
To je zelo podoben v nekaterih poti do C in PHP.
To je podobno, ker če hočeš naučiti Python ko vedo C, je
res, da ni kaj prida izziv samo zato, ker Python je veliko lažje
kot C, najprej.
In veliko stvari, ki so že izvaja za vas.
Torej, kako ima funkcije, kot so PHP, da razvrstiti seznam, ali pa dodajte nekaj
array, ali bla, bla, bla.
Python ima vse tiste, kot dobro.
>> Torej grem na hitro razloži kako bi lahko naredil z uvrstitvijo
problem tukaj.
Torej, recimo, da v tem primeru, moram Besedila iz Gaga in Katy Perry.
Tako, da imam te pesmi je, da prva beseda besedil je
ime izvajalca in ostalo je lyrics.
Torej, recimo, da imam ta seznam katerih prva je lyrics by Gaga.
Torej, tukaj sem na pravi poti.
In naslednjič je Katy, in ima tudi pesmi.
>> Torej, to je, kako se razglasi spremenljivka v Python.
Vam ni treba dati podatkovni tip.
Pravkar ste napisali "lyrics" Tako kot v PHP.
Smisla?
>> Torej, kaj so stvari, ki jih moram izračun, da se lahko izračuna
Verjetnosti?
Moram izračunati "pridigarji" za vsakega izmed različnih
razredi, ki jih imam.
Moram izračunati "ogrodje,," ali precej verjetnosti
vsako od različnih besed, ki Imam lahko za vsak umetnik.
Tako znotraj Gaga, na primer, bom da imajo seznam, kolikokrat sem videl
Vsaka od besed.
Smisla?
>> In končno, bom samo, da imajo Seznam imenovanih "besede", ki je pravkar dogaja
da ima koliko besed imeti za vsakega umetnika.
Torej za Gaga, na primer, ko pogledam do besedil, ki sem jih, mislim, 24
besede skupaj.
Torej je ta seznam le, da bo imel Gaga 24, in Katy drugo številko.
Smisla?
OK.
>> Torej sedaj, pravzaprav, dajmo pojdite na kodiranja.
Torej v Python, lahko dejansko vrnitev kup različnih
stvari iz funkcije.
Torej bom ustvariti to funkcijo imenovano "pogojno", ki se dogaja
vrniti vse te stvari, "pridigarji", za "Verjetnost," in
"besede". Torej "pogojno", in to je bodo vprašljive "besedil."
>> Torej, zdaj želim, da dejansko napisati to funkcijo.
Torej način, da sem lahko to napisati Funkcijo sem to opredeljeno
delovati v skladu z "def." Torej sem naredil "def pogojen, "in to je ob
"Lyrics." In kaj to bo naredil je, najprej, imam Pridigarji
da želim izračunati.
>> Torej način, da sem lahko to storiti, je ustvariti Slovar v Pythonu, ki
je precej ista stvar kot hašiš miza, ali je kot ponavljajoč
matrika v PHP.
To je, kako izjavljam slovar.
In v bistvu, kaj to pomeni, da pridigarji iz Gaga je 0,5, na primer, če
50% besedil so iz Gaga, 50% pa od Katy.
Smisla?
Tako da sem moral ugotoviti, kako za izračun pridigarjem.
>> Naslednji tisti, ki jih moram narediti, tudi, so verjetnosti in besede.
Torej je verjetnost Gaga je seznam vseh verjetnosti, da sem
ima za vsako od besed za Gaga.
Torej, če grem na verjetnosti Gaga "Baby," za primer, da bomo mi
nekaj takega kot 2 *** 24 v tem primeru.
Smisla?
Zato sem šel na "verjetnost", pojdite na "Gaga" bucket, ki ima seznam vseh
besede Gaga, potem pa sem šel na "otroka" in vidim verjetnost.
>> In končno imam to "Besede" ni v slovarju.
Torej, tukaj, "verjetnosti". In potem "besede". Torej, če naredim "besed," "Gaga"
kaj se bo zgodilo, je, da je dogaja, da mi 24, ki pravijo, da sem
imajo 24 besed v besedilih iz Gaga.
Smiselno?
Torej, tukaj, "besede" je enaka dah dah dah.
OK
>> Torej, kaj bom storiti, je, da bom Ponovil skozi vsako od besedil, tako
Vsaka od nizov, ki Imam na seznamu.
In jaz bom za izračun te stvari za vsakega od kandidatov.
Smiselno?
Tako da sem moral narediti zanko.
>> Torej, v Python, kaj lahko storim, je "za linijo V besedilih. "ista stvar kot
"Za vsako" izjavo v PHP.
Spomnim se, kako, če je bila PHP sem lahko pravijo "Za vsako besedil kot
vrstica. "Logično?
Tako da sem ob vsakem od linij, v tem primer, ta niz in dostavo
Niz tako za vsako od linij, kaj sem tekoč storiti, je, prvič, bom
razdeli to vrstico v seznamu besede ločene s presledki.
>> Tako kul stvar Python je, da si lahko samo Google, kot so "kako lahko
split niz v besede? "In to je dogaja, da vam povem, kako to storiti.
In način, kako to storiti, je le "linija = Line.split () ", in to je v bistvu
dogaja, da vam seznam z vsako od besed tukaj.
Smiselno?
Torej sedaj, da sem storil, da želim vedeti kdo je pevec te pesmi.
In za to, da sem moral dobiti Prvi element matrike, kajne?
Torej, jaz lahko samo rečem, da sem "pevec = Črta (0) "Ima smisel?
>> In kaj moram storiti, potem je v prvi vrsti vse, bom posodobiti, koliko
Besede imam pod "Gaga." tako da sem pravkar bo izračun, koliko besed sem
imajo na tem seznamu, kajne?
Ker je to, koliko besed sem V besedil in jaz bom samo
dodajte na "Gaga" matrike.
Ali to smiselno?
Ne osredotočajo preveč na sintakso.
Bolj misliti konceptov.
To je najpomembnejši del.
OK.
>> Torej, kaj lahko storite, je, če "Gaga" je že v tem seznamu, tako da "če je pevka v
besede "kar pomeni, da sem že imajo besede, ki jih Gaga.
Želim dodati dodatne besed na to.
Torej, kaj storiti, je "besede (pevka) + = Len (line) - 1 ".
In potem sem lahko samo naredi dolžina proge.
Torej, kako veliko elementov I imajo v matriki.
In moram narediti minus 1 samo zato, ker Prvi element matrike je le
pevka in to niso lyrics.
Smiselno?
OK.
>> "Else", to pomeni, da želim, da se dejansko vstaviti Gaga v seznamu.
Tako da sem naredil "besede (pevka) = Len (line) - 1: "Žal mi je.
Torej je edina razlika med obema linije je, da ta, da ne
obstajajo še ni, tako da sem samo inicializacijo.
Tole sem pravzaprav dodal.
OK.
Torej, to je tako, da besede.
>> Zdaj želim dodati, da pridigarjem.
Torej, kako izračunam pridigarjem?
Pridigarji se lahko izračuna s tem, koliko krat.
Torej, kolikokrat ste videli, da je pevka Med vsemi pevci, ki vas
imate, kajne?
Torej za Gaga in Katy Perry, V tem primeru vidim Gaga
enkrat, Katy Perry enkrat.
>> Tako rekoč pridigarji za Gaga in Katy Perry bi
samo ena, kajne?
Ti samo kolikokrat Vidim umetnika.
Torej, to je zelo težko izračunati.
Jaz lahko samo nekaj podobnega, kot je všeč ", če pevka v dosjeju, "grem
dodati 1 na njihovo Pridigarji polju.
Torej, "pridigarji (pojejo)" + = 1 "in nato" drugega " Jaz bom naredil "Pridigarji (pevka)
= 1. "Logično?
>> Torej, če to ne obstaja, sem dal kot 1, sicer sem dodati 1.
OK, tako da zdaj vse, kar mi je ostalo storiti je tudi dodamo vsaka od besed k
Verjetnosti.
Tako da sem moral prešteti, kolikokrat Vidim vsak besed.
Tako da sem moral narediti še en za zanke v liniji.
>> Torej prva stvar, ki jo bom naredil je, preveri, če že ima pevec
Verjetnosti matrika.
Torej sem preverjanje, če pevka ne imajo Verjetnost paleto, jaz sem samo
gre za inicializacijo enega za njih.
To ni niti matrika, žal, to je slovar.
Torej je verjetnost pevec se dogaja biti odprt slovar, tako da sem
samo inicializacijo slovar za to.
OK?
>> In zdaj sem lahko dejansko narediti zanko Za izračun vsako od besed "
Verjetnosti.
OK.
Torej, kaj lahko storim, je za zanko.
Torej, jaz bom samo Ponovil v matriki.
Torej način, da sem lahko naredil, da v Pythonu je "za i v območju." Od 1
ker želim, da začnete na sekundo element, ker prva je
Ime pevka.
Torej od enega do dolžina proge.
In ko sem se gibljejo v resnici gredo od kot sem od 1 do len od
vrstica minus 1.
Torej to že počne tisto stvar delaš n minus 1 za zaporedja, ki je zelo
priročno.
Smiselno?
>> Torej, za vsako od njih, kaj bom naredimo je, tako kot v drugega,
Grem preveriti, če je beseda v tem Položaj v liniji je že v
Verjetnosti.
In potem, ko sem rekel, tukaj, verjetnosti Besede, kot sem dal
"verjetnosti (pevec)".
Torej ime pevca.
Torej, če je to že v "Probabilit (pevec)", to pomeni, da sem
želite dodati 1 do njega, zato bom Do "verjetnosti (pevka)" in
Beseda se imenuje "linija (i)".
Jaz bom dodal 1 in "drugega" Jaz sem samo bo to inicializacijo za 1.
"Line (i)".
Smiselno?
>> Torej, sem se izračunajo vsi nizi.
Torej, zdaj vse, kar moram storiti za ta je samo "vrnili Pridigarji,
Verjetnosti in besede. "dajmo vidim, če obstajajo, v redu.
Zdi se, vse deluje tako daleč.
Tako, da je smiselno?
Na nek način?
OK.
Torej, zdaj imam vse verjetnosti.
Torej, zdaj edino, kar je ostalo je le, da so to stvar, ki
izračuna proizvod vseh Verjetnost, ko pridem lyrics.
>> Torej, recimo, da želim, da danes imenujemo Ta funkcija "razvrščanje ()" in
Stvar, ki funkcijo prevzame je le argument.
Recimo "Dragi, jaz sem na ogenj" in to je dogaja, da ugotovimo, kaj je
Verjetnost, da je ta Gaga?
Kakšna je verjetnost, Tega Katie?
Sliši se dobro?
Tako da sem le, da bo treba ustvariti Nova funkcija se imenuje "klasificirati ()" in
to se dogaja, da nekatere lyrics, kot dobro.
In poleg besedil tudi jaz poslati pridigarjem,
Verjetnosti in besede.
Tako da bom poslati lyrics, Pridigarji, Verjetnosti, besede.
>> Torej je ta ob lyrics, Pridigarji, Verjetnosti, besede.
Torej, kaj počne?
V bistvu se dogaja, da gredo skozi vse možne kandidate, ki jih
ima kot pevka.
In kje so tisti kandidati?
Oni V pridigarjem, kajne?
Torej imam vse tiste tam.
Tako bom imel slovar vseh možnih kandidatov.
In potem za vsakega kandidata v Pridigarji, tako da to pomeni, da se dogaja, da
biti Gaga, Katie, če bi imel bolj bi bilo.
Jaz bom za začetek izračun to verjetnost.
Verjetnost, kot smo videli v PowerPoint se predhodno krat
Produkt iz vsake od drugi verjetnosti.
>> Tako da sem lahko naredil isto tukaj.
Jaz lahko samo to verjetnost je, najprej tik pred tem.
Tako pridigarji kandidata.
Kajne?
In zdaj moram ponoviti čez vse Besede, ki sem jih v besedilih, da bi
lahko dodali verjetnost za vsakega od njih, v redu?
Torej, "za besedo v pesmi" kaj bom storiti, je, če je beseda v
"verjetnosti (kandidatke)", ki pomeni, da je beseda, ki
ima kandidat v svojih besedilih -
na primer, "ljubica" za Gaga -
kaj bom storiti, je, da verjetnost, da se bo treba pomnožiti
z 1 plus verjetnosti Kandidat za to besedo.
In se imenuje "beseda".
To deljeno s številom besed da imam za to kandidata.
Skupno število besed, ki sem za pevca, da gledam.
>> "Else". to pomeni, da je nova beseda Tako bi bilo, če bi na primer
"Ogenj" za Lady Gaga.
Torej, rad bi naredil več kot 1 "Beseda (kandidat)".
Tako da ne želite, da bi ta izraz tukaj.
>> Tako se dogaja, da je v bistvu kopiranje in lepljenje to.
Ampak bom izbrisati ta del.
Torej to je samo bo 1. *** tem.
Sliši se dobro?
In zdaj, na koncu sem le, da bo natisniti ime kandidata in
Verjetnost, da imate v ima S na svojih besedilih.
Smiselno?
In jaz pravzaprav sploh ne Potrebujem ta slovar.
Smiselno?
>> Torej, da vidimo, če je to dejansko deluje.
Torej, če sem teči to, da ni delovalo.
Počakajte eno sekundo.
"Besede (kandidatke)", "besede (kandidatke)", to je
ime matrike.
OK Torej, pravi, da je nekaj bug za kandidata v dosjeju.
Dovolite mi, da se umiri malo.
OK.
Poskusimo.
OK.
>> Tako daje Katy Perry je to Verjetnost tega 10-krat na
minus 7, in Gaga ima ta krat 10 na minus 6.
Torej vidite, da kaže, da je Gaga ima večjo verjetnost.
Torej "Dragi, jaz sem on Fire" je Verjetno Gaga pesem.
Smiselno?
Torej, to je tisto, kar smo storili.
>> Ta koda se bo objavljen na spletu, tako da lahko vi pogledat.
Morda uporabite nekaj pa za, če želite, da narediti projekt ali kaj podobnega.
OK.
To je bil samo pokazati kaj računska
jezikoslovje koda izgleda.
Ampak zdaj gremo k bolj Visoka raven stvari.
OK.
>> Torej drugi problemi I je govoril o tem -
problem segmentacije je prva od njih.
Torej imate tukaj Japonce.
In potem boste videli, da ni presledkov.
Torej je to v bistvu pomeni, da je to top stola, kajne?
Govoriš japonsko?
To je top stola, kajne?
>> Študent: Ne vem, kaj kanji tam je.
>> LUCAS FREITAS: To je [govori Japonsko]
OK.
Tako da v bistvu pomeni predsedovanje vrhu.
Torej, če si moral dati prostor da bi bilo tukaj.
In potem imaš [? Ueda-san. ?]
Kar v bistvu pomeni, gospod Ueda.
In boste videli, da je "Ueda" in imate prostor in nato "san". Torej vidite, da
Tukaj ste "UE" je kot, ki ga sama.
In tukaj ima značaj ob njej.
>> Torej to ni všeč v teh jezikih znakov, kar pomeni besedo, ki je, tako da boste
samo dal veliko prostorov.
Znaki med seboj povezane.
In so lahko skupaj kot dve, tri, ena.
Tako da boste dejansko morali ustvariti nekakšno za način dajanja te prostore.
>> In ta stvar je, da vsakič, ko prideš Podatki iz teh azijskih jezikov,
vse, kar prihaja unsegmented.
Saj nihče, ki piše v japonščini ali kitajski piše s presledki.
Kadarkoli pišete Kitajski, Japonci si napisati vse
brez presledkov.
To sploh ni smiselno postaviti prostore.
Potem, ko boste dobili podatke, nekateri Vzhodnoazijski jezik, če želite, da
dejansko pa s tem nekaj moraš segmentu prvi.
>> Razmišljati o tem zgledu lyrics brez presledkov.
Torej le lyrics, ki jih imajo bo stavka, kajne?
Ločene z obdobji.
Potem pa imajo samo stavka bo ne res pomagal na posredovanje informacij
kdo te pesmi so jih.
Kajne?
Torej bi morali najprej postavlja prostorov.
Torej, kako lahko to storite?
>> In potem pride ideja o jeziku model, ki je nekaj res
pomembno za računskih jezikoslovje.
Torej jezik model je v bistvu tabela verjetnosti, da kaže
Najprej, kar je verjetnost imajo besedo v jeziku?
Torej, ki prikazuje, kako pogosta beseda.
In potem tudi kaže na odnos med besedami v stavku.
>> Torej Glavna ideja je, če je tujec tebi in rekel stavek
ti, kaj je verjetnost, da je za Na primer, "to je moja sestra [? GTF"?]
je stavek, da je oseba, ki je rekel?
Torej, očitno nekateri stavki so bolj pogosto kot drugi.
Na primer, "dobro jutro" ali "dobro noč, "ali" Hej, "je veliko bolj
pogosti kot večina stavkov da imamo angleščino.
Torej, zakaj so ti stavki pogostejši?
>> First of all, je to zato, ker imate besede, ki so bolj pogoste.
Tako, na primer, če rečeš, da je pes velika, in pes je ogromen, si
ponavadi verjetno slišali pes je velik bolj pogosto, ker je "velik", je bolj
pogosta v angleškem jeziku kot "ogromen". Torej, eden
stvari, je frekvenca beseda.
>> Druga stvar, ki je res Pomembno je le
vrstni red besed.
Torej, to je skupno to, da rečeš "mačka znotraj škatle. "vendar pa običajno ne
glej v "polje v notranjosti je mačka." tako boste videli, da obstaja pomembna
v vrstnem redu besed.
Ne moreš kar reči, da ti dve stavki imajo enako verjetnost
samo zato, ker imajo enake besede.
Boste dejansko morali skrbeti O vrstnem redu, kot dobro.
Smisla?
>> Torej, kaj naj naredimo?
Torej, kaj lahko poskusite, boste dobili?
Poskušam, da bi dobili tisto, kar smo klic modele n-gram.
Torej n-gram modeli v bistvu prevzemajo da za vsako besedo, ki
imate v stavku.
To je verjetnost, da ima Beseda pa ni odvisna samo od
pogostost te besede v jeziku, , ampak tudi na besede, ki
so ga obkroža.
>> Tako na primer, po navadi, ko vidiš nekaj podobnega ali pri vas
verjetno bo videti samostalnik po njej, kajne?
Ker, ko imate preposition Ponavadi to traja samostalnik po njej.
Ali pa, če imate glagol, ki je prehodni navadi se dogaja, da
imajo samostalnik frazo.
Tako se dogaja, da imajo samostalnik nekje okoli njega.
>> Torej, v bistvu, kaj počne, je, da meni, da je verjetnost,
besede drug poleg drugega, ko si izračun
verjetnost, da bo stavka.
In to je tisto jezik Model je v bistvu.
Samo reči, kaj je verjetnost od ima specifično
stavek v jeziku?
Torej, zakaj je to koristno, v bistvu?
In najprej kar je Model n-gram, potem?
>> Torej Model n-gram pomeni, da vsaka beseda odvisen
Naslednja N minus 1 besed.
Torej, v bistvu, to pomeni, da če gledam, na primer, v CS50 TF ko
Jaz sem izračun verjetnosti stavek, boste všeč "
Verjetnost, da ima beseda "" krat verjetnost, da imajo "
CS50 "krat verjetnost, da ima "CS50 TF." Torej, v bistvu, jaz računam
vse možne načine za njeno raztezanje.
>> In potem ponavadi, ko delaš to, kot je v projektu, si dal N, da je
Nizka vrednost.
Torej, imajo običajno bigrams ali trigrams.
Tako, da si šteje dve besedi, skupina dveh besed ali tri besede,
samo za vprašanja o uspešnosti.
In tudi zato, ker morda, če imate nekaj podobnega "The CS50 TF." Ko ste
imajo "TF", to je zelo pomembno, da "CS50" je ob njem, kajne?
Ti dve stvari sta običajno drug poleg drugega.
>> Če menite, da "TF", je to verjetno dogaja, da imajo kaj
Razred pa je TF'ing za.
Tudi "" je res pomembno Za CS50 TF.
Toda, če imate nekaj podobnega "The CS50 TF odšel v razredu in dali svoje
študenti nekaj sladkarij. "" Candy "in" " imeti nobene zveze res, kajne?
Oni so tako oddaljena drug od drugega, da ni važno kaj
Besede, ki jih imajo.
>> Tako, da delaš bigram ali trigram, da pomeni le, da ste omejevanje
si, da nekaterih besed da so okoli.
Smisla?
Torej, če želite narediti segmentacijo, v bistvu, kaj želite storiti, je videti
kaj so vse možne načine, da se lahko segmentu kazni.
>> Takšna, da boste videli, kaj je verjetnost, da bo vsaka od teh stavkih
obstajajo v jeziku?
Torej, kaj morate storiti, je, kot, no, kaj me poskušali dati prostor tukaj.
Torej si dal prostor tam in boste videli, kaj je
Verjetnost tega stavka?
Potem ste kot, OK, morda da ni bil tako dober.
Zato sem dal prostor tam in presledek poleg tega pa si izračunajte
Verjetnost, zdaj, in boste videli, da je večja verjetnost.
>> Torej je to algoritem imenovan TANGO segmentacija algoritem, ki je
pravzaprav nekaj, kar bi bilo res kul za projekt, ki je
v bistvu traja unsegmented besedilo, ki lahko japonska ali kitajska ali morda
Angleščina brez presledkov in poskuša dati presledki med besedami in to počne
da z uporabo jezikovnega vzorca in poskuša videti, kaj je najvišja
Verjetnost lahko dobite.
OK.
Torej je ta delitev.
>> Zdaj sintaksa.
Torej, je sintaksa uporablja za Toliko stvari zdaj.
Torej za graf Search, za Siri za precej koli vrste naravnih
jezik za obdelavo imate.
Torej, kaj so pomembna stvari o skladnji?
Torej, stavki imajo na splošno kar imenujemo sestavine.
Ki so nekako kot skupin besed da imajo funkcijo v stavku.
In ne more biti res narazen.
>> Torej, če rečem, na primer, "Lauren ljubi Milo. "Vem, da je" Lauren "
Sestavni in nato "ljubezni Milo "je tudi še eden.
Ker ne morete reči, kot je "Lauren Milo rad "na enak pomen.
To se ne dogaja, da imajo enak pomen.
Ali pa ne morem reči, kot je "Milo Lauren ljubi. "Ni vse, kar je enako
kar pomeni, da delaš.
>> Torej, dve pomembni stvari o sintaksa so leksikalni vrste, ki je
v bistvu funkcija, ki jo imeti za besedami, ki jih sami.
Tako da boste morali vedeti, da "Lauren" in "Milo" so samostalniki.
"Ljubezen" je glagol.
In druga pomembna stvar je, da oni stavčni vrste.
Tako da boste vedeli, da je "ljubi Milo" je pravzaprav besedni stavek.
Torej, ko rečem "Lauren," Vem, da Lauren počne nekaj.
Kaj počne?
Ona je ljubeč Milo.
Tako da je cela stvar.
Vendar njegovi sestavni deli so samostalnik in glagol.
Ampak skupaj, dajo glagol frazo.
>> Torej, kaj lahko dejansko počnejo z računalniška lingvistika?
Torej, če imam kaj za primer "prijatelji Allison." Jaz vidim, če sem
ni skladenjsko drevo Rad bi vedel, da "Prijatelji" je samostalnik stavek je
samostalnik in nato "Allison" je predložne zveze, pri kateri "v" je
predlog in "Allison" je samostalnik.
Kaj lahko storim je naučil moj računalnik da ko imam samostalnik besedno eno in
potem predložne zveze.
Torej v tem primeru, "prijatelji" in nato "od Milo "Vem, da to pomeni, da
NP2, drugi pa ima v lasti NP1.
>> Tako da sem lahko ustvari neke vrste zvezi, nekakšen funkcije za to.
Torej, ko sem videl to strukturo, ki točno ujema s "prijatelji
Allison, "Vem, da je Allison lastnik prijatelje.
Torej, prijatelji so nekaj da ima Allison.
Smiselno?
Torej, to je v bistvu tisto, kar Graf Iskanje počne.
To samo ustvarja pravila Za veliko stvari.
Tako "prijatelji Allison", "Moji prijatelji ki živi v Cambridgeu, "" prijatelje
ki gredo na Harvard. "Ustvarja pravila za vse te stvari.
>> Zdaj strojno prevajanje.
Torej, strojno prevajanje, je prav tako Nekaj statističnih podatkov.
In dejansko, če se vključijo v računalniška lingvistika, veliko
vaše stvari se bo statistika.
Torej, kot sem delal na primer z veliko verjetnosti, da sem bil
izračun, nato pa dobiš za to zelo majhno število, ki je končni
Verjetnost, in to je tisto, vam daje odgovor.
Strojno prevajanje prav tako uporablja statističnega modela.
In če želite, da razmišljajo o stroju prevod v najpreprostejši možni
Mimogrede, kaj si lahko misliš, da je prav prevesti besedo za besedo, kajne?
>> Ko ste učenje jezika za prvič, da je običajno, kar
ti, kajne?
Če želite prevesti stavek v vašem jeziku, v jeziku
učiš, običajno najprej, ti prevesti vsaka od besed
posamično, nato pa poskusite dati besede v mestu.
>> Torej, če sem hotel prevesti, [GOVORJENJE PORTUGALSKA]
kar pomeni "bela mačka zbežala." Če bi želel prevesti iz
Portugalski v angleščino, kar sem lahko narediš je, prvič, sem
prevesti besedo za besedo.
Torej, "o" je "," "Gato", "mačka" "Branco", "bele" in nato "fugio" je
"Pobegnil".
>> Torej imam vse besede tukaj, ampak oni niso v redu.
To je kot "mačka bela pobegnil" ki je Negramatički.
Torej, potem pa lahko drugi korak, ki se bo našel idealno
Položaj za vsako od besed.
Tako da vem, da sem dejansko želijo imeti "Bela mačka" namesto "mačka beli barvi." Tako
kaj lahko storim, je, najbolj naivna metoda bi ustvariti vse
možne permutacije besede, iz pozicij.
In potem vidite, katera ima največja verjetnost, da po
po mojem jezikovnem modelu.
In potem, ko sem najti tisto, ki ima največja verjetnost je, ki je
verjetno "bela mačka zbežala," to je moj prevod.
>> In to je preprost način razložiti kako veliko strojno prevajanje
algoritmov.
Ali to smiselno?
To je tudi nekaj res razburljivo da lahko vi morda raziskovanje za
končni projekt, ja?
>> Študent: No, ste rekli, da je naiven način, da tisto, kar je
ni naiven način?
>> LUCAS FREITAS: ni naiven način?
OK.
Torej prva stvar, ki je slabo zaradi Ta metoda je, da sem prevedeni
besede, besedo za besedo.
Ampak včasih moraš besede, ki imajo lahko več prevodov.
Bom poskusil, da razmišljajo nečesa.
Na primer, "manga" v portugalski pločevinki bodisi "Komadati" ali "rokav." Tako
ko ste poskušali prevesti besedo z besedo, morda vam
nekaj, kar nima nobenega smisla.
>> Torej si dejansko želijo, da pogledaš na vse možni prevodi
besede in glej, najprej, kaj je red.
Govorila sva o permutating stvari?
Če si želite ogledati vse možne naloge za in izberejo eno z najvišjo
Verjetnost?
Izberete lahko tudi vse mogoče prevodi za vsako
Beseda in potem videli -
v kombinaciji z permutacije -
katera ima največjo verjetnost.
>> Plus, si lahko ogledate tudi ne samo besede, ampak besede.
tako da lahko analizira odnose med besede in nato dobil
boljši prevod.
Tudi kaj drugega, tako da je ta semester Jaz sem pravzaprav raziskovalno delo v
Kitajsko-angleški strojno prevajanje, tako prevajanju iz
Kitajci v angleščino.
>> In kaj moramo storiti, je, poleg uporabo statističnega modela, ki je le
videnje verjetnosti videli nekateri položaj v stavku, sem
dejansko tudi dodal nekaj sintakse my Model, rekoč, oh, če vidim te vrste
gradnje, to je tisto, kar hočem Za spremembo, ko sem prevajati.
Torej si lahko dodate tudi neke vrste element sintakse, da bi
Prevod učinkovitejše in natančnejše.
OK.
>> Torej, kako lahko začnem, če hočeš nekaj storiti v računskih
lingvistika?
>> Najprej morate izbrati projekt ki vključuje jezike.
Torej, tam je tudi veliko tam.
Tukaj je toliko stvari, ki jih lahko storite.
In potem lahko zamislite model ki jih lahko uporabite.
Ponavadi to pomeni razmišljanje predpostavke, kot je všeč, oh, ko sem bil
podobno razmišljanje besedil.
Bila sem kot, no, če želim, da ugotovimo ven, ki je to napisal, sem verjetno želeli
pogled na besedami oseba uporablja in glej, ki uporablja to besedo zelo pogosto.
Torej, poskusite narediti predpostavke in začeti razmišljati o modelih.
In potem si lahko tudi iskanje na spletu za vrste problem, ki ga imajo,
in to se dogaja, kažejo, da vas modele, ki morda
vzoru te stvari dobro.
>> In prav tako lahko vedno mi email.
me@lfreitas.com.
In lahko sem samo odgovoriti na vaša vprašanja.
Lahko bi celo lahko sestanejo, da bom lahko dajejo predloge o načinih
izvedbi projekta.
In mislim, če ste se ukvarjajo z računalniške lingvistike, da se dogaja
bi bilo super.
Boš videl tam je tako veliko potenciala.
In industrija želi zaposliti ti tako slabo zaradi tega.
Zato upam, da vama je to všeč.
Če imate kakršno koli vprašanje fantje, mi lahko vprašam po tem.
Ampak hvala.