Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Hey. Vabljeni vsi. Moje ime je Lucas Freitas. Sem junior na [neslišno] študiju računalništva s poudarkom na računalniškega jezikoslovja. Torej moj sekundarni v jeziku in teorija jezika. Res sem navdušena, da naučil fantje malo o tem področju. To je zelo zanimivo področje za študij. Tudi z veliko potenciala za prihodnost. Torej, jaz sem res navdušena, da vidva razmišljajo projekte računalniškega jezikoslovja. In jaz bom z veseljem svetoval kdo od vas, če se boste odločili za uresničujejo enega od teh. >> Torej, najprej, kaj je računalniška lingvistika? Torej, računalniška lingvistika, je presečišče med jezikoslovjem in računalništva. Torej, kaj je jezikoslovje? Kaj je računalništvo? No iz jezikoslovja, kaj vzamemo so jeziki. Torej jezikoslovje je dejansko študija naravnega jezika na splošno. Torej naravni jezik - govorimo o jezik, ki se dejansko uporabljajo za komunicirajo med seboj. Torej ne ravno govorimo o C ali Java. Govorimo več o angleškem in Kitajski in drugi jeziki, ki jih uporabljajo za komunikacijo med seboj. >> Zahtevna stvar, da je to Zdaj imamo skoraj 7.000 jezikov v svetu. Torej, obstaja precej visoka sorta jezikov, da lahko študirajo. In potem misliš, da je to verjetno zelo težko narediti, npr prevod iz enega jezika v drugo, če upoštevamo, da imate skoraj 7.000 od njih. Torej, če misliš, da delaš prevod iz enega jezika v drugi si imajo skoraj več kot milijon različnih kombinacij, ki jih lahko imajo od jezika do jezika. Torej, to je res izziv, da naredite nekaj vrsta primer prevajalskega sistema vsak jezik. >> Torej, jezikoslovje obravnava s sintakso, Semantika in pragmatika. Vi se natančno ne potrebujem vedeti, kaj so. Ampak zelo zanimiva stvar je, da kot native speaker, ko ste izvedeli, jezik kot otrok, ste dejansko učijo vse te stvari - skladnja semantika in pragmatika - sami. In nihče ne bo naučil sintakso , da bi razumeli, kako so kazni strukturirana. Torej, to je res zanimivo, ker to je nekaj, kar pride zelo intuitivno. >> In kaj ob od računalništvo? No, najbolj pomembna stvar, ki jo imajo v računalništvu je v prvi vrsti Vse, umetna inteligenca in strojno učenje. Torej, kaj smo poskušali delaš računalniška lingvistika je teach računalnik, kako narediti nekaj z jezikom. >> Tako, na primer, v stroju prevod. Poskušam se naučiti moj računalnik how vedeti, kako prehod iz ene jezik za drugo. Torej, v bistvu všeč poučevanje Računalniške dva jezika. Če naredim obdelavo naravnega jezika, ki je primer za Facebook Graf Search, učiš računalnik, kako razumeti poizvedbe dobro. >> Torej, če rečeš "fotografije mojega prijatelji. "Facebook ne zdravi, da kot cel niz, ki ima samo kup besed. To dejansko razume odnos med "fotografije" in "prijatelji" in razume, da se "fotografije", so lastnina "prijatelji". >> Torej, to je del, na primer, obdelava naravnega jezika. To se poskuša razumeti, kaj je razmerje med besede v stavku. In veliko vprašanje je, lahko naučiti računalnik, kako govoriti jezik na splošno? Kar je zelo zanimivo vprašanje mislim, kot če bi morda v prihodnosti, boste mogli pogovorite s svojim mobilnim telefonom. Nekako tako kot tisto, kar počnemo s Siri, vendar nekaj več kot, lahko dejansko reči karkoli hočeš, in telefon se dogaja, da razumejo vse. In ima lahko spremljala vprašanja in govorite. To je nekaj res razburljivo, po mojem mnenju. >> Torej, nekaj o naravnih jezikov. Nekaj res zanimivo naravnih jezikov je, da je, in to je kredit na moj profesor lingvistike, Maria Polinsky. Ona daje zgled in mislim, to je res zanimivo. Ker smo se naučili jezika, od kdaj rodimo in potem naš materni jezik vrsta raste na nas. >> In v bistvu se boste naučili jezika od minimalne vhod, mar ne? Ste pravkar dobili vhod iz vašega Starši, kaj je tvoj jezik sliši všeč in jo šele učijo. Torej, to je zanimivo, ker če pogledaš V teh stavkih, npr. Zgledaš, "Mary nadene plašč vsakem Čas zapusti hišo. " >> V tem primeru je mogoče imeti Beseda "ona" nanaša na Marijo, kajne? Lahko rečeš "Mary nadene plašč vsakič Mary zapusti hiša. ", tako da je v redu. Ampak potem, če pogledaš na stavka "Ona postavlja na plašč vsakič Mary zapusti hišo. "veš, da je mogoče reči, da je "ona" je ki se nanaša na Marijo. >> Ni šans, da bi rekel, da je "Marija postavlja na plašču vsakič Mary zapusti hiša. "Torej, to je zanimivo, ker to je nekako intuicijo da ima vsak naravni govorec. In nihče ni naučil, da je to Tako, da je sintaksa deluje. In da lahko le to "ona" sklicevanjem na Marije v tem prvem primeru in dejansko je to druga Tudi, vendar ne v tem. Toda vsi nekako dobi na isti odgovor. Vsakdo se strinja s tem. Tako da je res zanimivo, kako, čeprav ne veš vsa pravila v vašem jeziku, ki ga nekako razumem kako jezik deluje. >> Tako zanimiva stvar, o naravnih je jezik, ki ga ne bi bilo treba poznam nobenega sintakso, da vem, če stavek je slovnična ali Negramatički za večini primerov. , Ki misliš, da morda kaj se zgodi, da skozi svoje življenje, si samo vztrajati vse bolj in bolj stavki povedal za vas. In potem boste obdržali memoriranje vse kazni. In potem, ko ti nekdo pove, nekaj, slišiš ta stavek in pogledaš na svojega besednjaka stavkov in videli, če ta stavek je tam. In če je tam pravijo, da je slovnična. Če je ne boste rekli, da je Negramatički. >> Torej, v tem primeru, bi rekel, oh, tako da boste imeli ogromen seznam vseh možne kazni. In potem, ko slišiš stavek, veš, če je slovnična ali ne temelji na tem. Stvar je v tem, da če pogledaš na stavek, na primer, " pet vodil CS50 TFS kuhano slepe hobotnica z uporabo DAPA vrč. "To je definitivno ni stavek da si slišal. Vendar pa hkrati veš, da je precej slovničnih, kajne? Ni slovnične napake in lahko rečem, da to je možno kazen. >> Tako da nas mislijo, da dejansko Tako, da smo se naučili jezika ni samo ki ga imajo ogromno bazo mogoče besede ali stavke, vendar več razumevanje odnosa med besede v teh stavkih. Ali to smiselno? Je tako, potem je vprašanje, lahko računalniki učenje jezikov? Moremo naučiti jezika na računalnikih? >> Torej, kaj je razmišljati o razliki med rodni govorci jezika in računalnik. Torej, kaj se zgodi na zvočnik? No, naravni govorec nauči jezik izpostavljenosti do njega. Običajno svojih prvih letih otroštva. Torej, v bistvu, imate samo otroka, in kar naprej govoril z njim, in to Pravkar se nauči govoriti jezik, kajne? Torej, ste v bistvu daje vhod za otroka. Torej, potem lahko trdijo, da računalnik lahko storijo enako stvar, kajne? Si lahko samo dati JEZIKA kot izhodišče za računalnikom. >> Kot na primer kup datotek da so knjige v angleščini. Morda je to eden od načinov, ki vam bi morda lahko naučil Računalnik angleško, kajne? In v resnici, če mislite o tem, vas popelje morda nekaj dni, da berejo knjigo. Za računalnik, ki je potreben za trenutek, da poglej vse besede v knjigi. Torej si lahko mislite, da je lahko samo to Argument prispevkom okoli vas, da ni dovolj, da rečemo, da je to nekaj, kar lahko samo ljudje. Si lahko mislite računalnike Prav tako lahko dobite vhod. >> Druga stvar je, da govorci Imajo tudi možganov, ki ima učenje jezikov zmogljivosti. Ampak, če mislite o tem, možgani trdna stvar. Ko se rodiš, to je že določena - to je vaši možgani. In kot ste odraščali, ki ste jo pravkar dobili več vhod jezika in morda hranil in druge stvari. Ampak precej vaši možgani je trdna stvar. >> Tako da lahko rečem, no, morda lahko zgraditi računalnik, ki ima kup funkcije in metode, ki samo posnemajo učenje jezikov zmogljivosti. Torej, v tem smislu, da bi lahko rekli, dobro, sem lahko računalnik, ki ima vse Stvari se moram naučiti jezika. In zadnja stvar je, da je materni Govornik se uči iz poskusov in napak. Tako da v bistvu še ena pomembna stvar v Učenje jezikov je, da si nekako od učijo stvari, ki jih tako posploševati, kar slišite. >> Torej, kot ste odraščali ste izvedeli, da Nekatere besede so bolj kot samostalniki, nekateri drugi pa so pridevniki. In vam ni treba imeti vsaka znanje jezikoslovja razumeti, da. Vendar si vedel, da je nekaj besed je postavljenih v nekem delu stavek, in nekateri drugi v drugo deli stavka. >> In da ko narediš nekaj, kar je kot kazen, ki ni pravilna - Morda zaradi pretirano posploševanje npr. Mogoče, ko si odraščal, opazite da je množina običajno oblikovana z zaustavitvijo S na Konec besede. Nato pa poskusite narediti množina "jeleni" so jeleni "" ali "zob", kot je "tooths." Torej tvoji starši ali ti nekdo popravi in reče, ne, množina "jelena" je "jelena" in množina "zob" je "zob". In potem boste naučili te stvari. Torej, ste se naučili iz poskusov in napak. >> Lahko pa tudi to, da z računalnikom. Lahko imaš nekaj, kar ti okrepitev učenja. Ki je v bistvu tako, kot bi Računalnik nagrado vsakič, ko se to zgodi Nekaj pravilno. In ji daje nasprotje nagrado in ko se to zgodi nekaj narobe. Lahko dejansko videli, da če greš da Google Translate in poskusite prevesti stavek, da vas prosi za povratne informacije. Torej, če si rekel, oh, tam je bolje prevod tega stavka. Lahko ga vnesite in potem, če veliko Ljudje kar naprej govorijo, da je bolje prevod, samo izve, da je bi morali namesto uporabil ta prevod ena je bila daje. >> Torej, to je zelo filozofsko vprašanje da vidim, če računalnikov se bodo mogli govoriti ali ne v prihodnosti. Ampak imam veliko upanja, da jih lahko Samo na podlagi teh argumentov. Ampak to je samo bolj filozofsko vprašanje. >> Torej, medtem ko računalniki še vedno ne more govoriti, kaj so stvari, ki jih lahko storimo? Nekaj res kul stvari Razvrstitev podatkov. Tako, na primer, veste, da so e-poštne storitve storiti za Na primer, filtriranje spam. Torej, ko boste prejeli spam, je poskuša filtrirati na drugo polje. Torej, kako to storiti? To ni všeč računalnik samo ve kaj e-poštni naslovi so pošiljanje spam. Tako da je bolj temeljila na vsebino sporočilo, ali morda naslov ali Mogoče nek vzorec, ki ga imajo. >> Torej, v bistvu, kaj lahko naredite, je dobil Veliko podatkov, elektronskih sporočil, ki so spam, e-poštna sporočila, ki niso spam, in izvedeti, kaj vrsta vzorcev imate v Tiste, ki so spam. In to je del računskih jezikoslovje. Imenuje se razvrstitev podatkov. In smo dejansko videli Primer da bo v naslednjih diapozitivih. >> Druga stvar, ki je naravni jezik predelave, ki je stvar, ki Graf Iskanje počne od najemnin napišete kazen. In upa, da razumete, kaj je pomen in daje ste boljši rezultat. Pravzaprav, če greš na Google ali Bing in iščete nekaj podobnega Lady Višina Gaga je, da ste dejansko dogaja da bi dobili 5 '1 "namesto informacij od nje, ker je dejansko razume kaj govoriš. Torej, to je del naravnega jezik za obdelavo. >> Ali pa tudi, ko ste s pomočjo Siri, prvi imate algoritem, ki poskuša prevesti kaj govoriš v besede v besedilu. In potem je poskušal prevesti da v smislu. Tako, da je vse del naravnega jezik za obdelavo. >> Potem imate strojnega prevajanja - ki je pravzaprav ena od mojih favoritov - ki je pravkar prevajanju iz jezika v drugega. Torej si lahko mislite, da ko delaš strojno prevajanje, imate neskončne možnosti stavkov. Torej ni nobenega načina, da samo shranjevanje vsak prevod. Torej ste prišli do zanimivih algoritmi bi lahko prevesti vsak stavek na nek način. >> Vi imate kakršnakoli vprašanja doslej? Ne? OK. >> Torej, kaj smo videli danes? Najprej bom govoril o problem uvrstitev. Torej, tisti, ki me je govorijo o spam. Kaj bom storiti, je, glede na to lyrics skladbo, lahko poskusite ugotoviti, z veliko verjetnostjo kdo je pevec? Recimo, da imam pesmi Lady Gaga in Katy Perry, če ti dam Nova pesem, lahko ugotovimo, če to je Katy Perry ali Lady Gaga? >> Drugi pa, grem govoriti o problem segmentacije. Tako da ne vem, če veste, ampak Kitajski, japonski, drugi vzhodnoazijski jeziku ter v drugih jezikih V splošnem nimajo presledki med besedami. In potem, če mislite o tem, kako to računalnik nekako poskuša razumeti, obdelava naravnega jezika, je videti na besedami in poskuša razumeti odnose med njimi, kajne? Ampak potem, če imate kitajski, in ti imeti nič prostore, to je res težko izvedeti, kakšno je razmerje med besede, ker nimajo kateremkoli Besede na prvi. Tako da boste morali narediti nekaj, kar ti Segmentacija, ki samo pomeni, da se Razmiki med kaj bi klic besede v teh jezikih. Smisla? >> In potem bomo govorimo o skladnji. Torej samo malo o naravnih jezik za obdelavo. To se dogaja, da je samo pregled. Torej, danes, v bistvu tisto, kar želim storiti se vam fantje malo Notranjost kakšne so možnosti ki jih lahko naredite s računskih jezikoslovje. In potem lahko vidite, kaj si misliš je kul med temi stvarmi. In morda si lahko zamislite projekta in se pogovarjati z mano. In jaz lahko dam nasvet o tem, kako jo izvajati. >> Torej sintaksa se bo nekoliko O Graph Search in strojem prevod. Jaz bom samo dal primer, kako Lahko bi, na primer, prevesti nekaj iz portugalščine v angleščino. Sliši se dobro? >> Torej, najprej, problem uvrstitev. Jaz bom rekel, da je to del seminarja se bo najbolj zahtevna eno samo zato, ker se dogaja vsaj nekaj kodiranje. Ampak to se dogaja, da je Python. Vem, da vi ne veste, Python, tako Jaz sem samo, da pojasni, na visoki raven, kar delam. In ti ne bo treba res skrbi preveč toliko o skladnji, ker to je kaj vi lahko naučite. OK? Sliši se dobro. >> Torej, kaj je problem razvrstitev? Torej boš dal nekaj lyrics pesem, in želite, da uganiti ki jo poje. In to je lahko za kakršnokoli drugih težav. Torej je mogoče, na primer, da imate predsedniški kampanji in imate govor, in želite, da bi našli , če je bilo, na primer, Obama ali Mitt Romney. Ali lahko imate kup e-pošte in hočeš, da ugotovimo, če so spam ali ne. Torej, to je samo nekaj razvrščanje podatki, ki temeljijo na besede da ste tam. >> Torej za to, moraš narediti nekaj predpostavk. Torej, veliko približno računalniškega jezikoslovja je predpostavk, ponavadi pametne predpostavke, da lahko dobili dobre rezultate. Poskušajo ustvariti model za to. In potem jo preizkusite in poglejte, če deluje, če vam dobro natančnost. In če je temu tako, potem boste poskušali izboljšati. Če se ne, ti si kot, OK, morda sem naj bi drugačno predpostavko. >> Torej predpostavka, da bomo se je, da je umetnik ponavadi poje o temi večkrat, in morda uporablja besede, večkrat samo zato, ker so navajeni na to. Lahko samo pomislite na svojega prijatelja. Prepričan sem, da vama vse prijatelje ki pravijo, njihov podpis besedno zvezo, dobesedno za vsak stavek - kot neke določene besede ali nekaterih posebnih Stavek, ki pravijo, da za vsak stavek. >> In kaj lahko rečem je, da če vidite stavek, da je podpis Stavek, ki jih lahko uganiti, da je verjetno tvoj prijatelj eden je rekel, kajne? Torej si tako predvideval, nato pa to je, kako si ustvariti model. >> Primer, da bom dal, je na kako Lady Gaga, na primer, ljudje pravijo, da ona uporablja "otroka" za vsi njeni številka ena pesmi. In dejansko je ta video, ki prikazuje ji rekel besedo "otroka" za različne pesmi. >> [Predvajanje videa] >> - (PETJE) Baby. Baby. Baby. Baby. Baby. Babe. Baby. Baby. Baby. Baby. >> [END predvajanje videa >> LUCAS FREITAS: Torej obstajajo, mislim, 40 pesmi, tukaj, v katerem pravi, Beseda "otroka". Torej v bistvu lahko uganiti da če vidiš pesem, ki ima Beseda "baby," je neka visoka Verjetnost, da je Lady Gaga. Ampak poskusimo to razviti nadalje bolj formalno. >> Torej, to so pesmi skladbam Lady Gaga in Katy Perry. Torej si poglej Lady Gaga, ki jih vidijo imajo veliko dogodkov za "dojenčka", Veliko pojavov "način." In potem Katy Perry ima veliko pojavljanj «,» Veliko pojavov "ogenj". >> Torej v bistvu tisto, kar smo želeli storiti je, da si dobil posreduj besedilo. Recimo, da ste dobili posreduj besedilo za Pesem, ki je "baby," samo "mlade". Če ste pravkar dobili besedo »otroka« in to so vsi podatki, ki jih imajo od Lady Gaga in Katy Perry, ki bi uganete je oseba kdo poje pesem? Lady Gaga in Katy Perry? Lady Gaga, kajne? Ker je edini, ki pravi: "Otrok". To se sliši neumno, kajne? OK, to je res enostavno. Jaz sem samo videti na dveh pesmih in Seveda, ona je edina, ki ima "Otrok". >> Toda kaj, če imate kup besed? Če imate dejansko lirskega, nekaj kot, "ljubica, pravkar sem obiskala [? RVK?] Predavanje "ali nekaj takega, in potem boste dejansko morali ugotoviti - na podlagi vseh teh besed - kdo je umetnik, ki je verjetno pel to pesem? Torej poskusimo razviti to malo naprej. >> OK, tako da temelji le na podatkih, ki smo dobil, se zdi, da je Gaga verjetno pevka. Ampak kako lahko pišemo to bolj formalno? In tam dogaja, da se malo malo statistike. Torej, če ste izgubili, samo poskusite razumeti pojem. Ni važno, če ste razumeli enačbe zelo dobro. To je vse, bo na spletu. >> Torej v bistvu tisto, kar sem izračunu je Verjetnost, da je ta pesem Lady Gaga saj - da to pomeni, bar saj - Videl sem besedo "otroka". Ali to smiselno? Torej, jaz sem poskušal izračunati da je verjetnost. >> Tako da je ta izrek se imenuje Bayesov teorem, ki pravi, da verjetnost danega B, je Verjetnost, B, A, saj časi verjetnost, da bo, v verjetnosti B. Ta je dolga enačba. Ampak kaj moraš razumeti iz to je, da je to tisto, kar želim izračunati, kajne? Tako da je verjetnost, da je ta pesem Lady Gaga saj sem videl besedo "Otrok". >> In kaj zdaj dobivam je Verjetnost besedo "otroške" dati da imam Lady Gaga. In kaj je to v bistvu? Kaj to pomeni, je, kaj je Verjetnost, da bi videli besedo "otroka" V Gaga lyrics? Če hočem izračunati, da je v zelo preprost način, to je samo število krat sem videl "dojenčka", glede na skupno število besed v Gaga lyrics, kajne? Kakšna je frekvenca, ki jo vidim da beseda v delu Gaga je? Smisla? >> Drugi izraz verjetnost Gaga. Kaj to pomeni? To v bistvu pomeni, kaj je verjetnost razvrščanja Nekatere pesmi so Gaga? In to je nekako čudno, ampak Pomislimo na primer. Torej, recimo, da je verjetnost imajo "otroka" v pesem je enak Za Gaga in Britney Spears. Ampak Britney Spears ima dvakrat več pesmi, kot so Lady Gaga. Torej, če vam nekdo samo naključno daje lyrics "dojenčka", prvo stvar, ki jo gledati je, kakšna je verjetnost, imajo "otroka" v Gaga pesem, "ljubica" v Britney pesmi? In to je ista stvar. >> Torej, druga stvar, ki jo boste videli, je, no, kaj je verjetnost ta pesem sama po sebi pa Gaga pesem, in kakšna je verjetnost pri čemer je Britney pesem? Zato, ker ima Britney toliko bolj lyrics kot Gaga, bi vam verjetno recimo, dobro, to je verjetno Britney pesem. Tako da je, zakaj imamo to imenujemo tukaj. Verjetnost Gaga. Smiselno? To počne? OK. >> In zadnja je samo verjetnost za "dojenčka", ki ne važno, da je veliko. Vendar je verjetnost videnje "otroka" v angleškem jeziku. Mi običajno ne skrbi, da toliko o tem obdobju. Ali to smiselno? Torej verjetnost Gaga je imenovana pred verjetnost razrednega Gaga. Ker to pomeni le, da je tisto, kar je Verjetnost, da ima njen razred - ki je Gaga - Samo na splošno, ravno brez pogojev. >> In potem, ko sem imel verjetnost Gaga zaradi "mlade", ga imenujemo plus teary verjetnost, ker je verjetnost ob Gaga dal nekaj dokazov. Torej, jaz ti dam dokaze da sem videl besedo otroka in pesem smiselna? OK. >> Torej, če sem izračunal, da za vsako pesmi za Lady Gaga, kaj bi bilo - očitno je, da ne morem premakniti tega. Verjetnost Gaga bo nekaj podobnega, 2. *** 24 krat 1/2, več kot 2 *** 53. Ni važno, če veš, kaj Te številke so prihajajo iz. Ampak to je samo številka, ki se dogaja da bo več kot 0, kajne? >> In potem, ko sem naredil Katy Perry, Verjetnost, "dojenčka", saj je Katy že 0, kajne? Ker ni "mlade" V Katy Perry. Torej, potem to postane 0, in Gaga zmag, kar pomeni, da je Gaga Verjetno pevka. Ali to smiselno? OK. >> Torej, če želim, da bi to še uradni, Jaz lahko dejansko narediti model več besed. Torej, recimo, da imam nekaj kot, "baby, I am na ogenj, "ali kaj podobnega. Torej ima več besede. In v tem primeru, si lahko ogledate da "mlade" je Gaga, vendar to ni v Katy. In "ogenj" je v Katy, vendar to ni v Gaga, kajne? Torej, to je vse težje, kajne? Ker se zdi, da si skoraj imajo vez med njima. >> Torej, kaj morate storiti je, da prevzame Neodvisnost med besedami. Torej v bistvu, kaj to pomeni, da Jaz sem samo izračun, kar je Verjetnost, da bi videli "otroka", kar je verjetnost videnje "I" in "Am" in "o" in "ogenj" vse ločeno. Potem sem se pomnoži vse od njih. In vidim, kaj je verjetnost videnje celotno kazen. Smisla? >> Torej v bistvu, če imam samo eno besedo, tisto, kar želim, da bi našli, je arg max, kar pomeni, kaj je razred, ki je mi dali največ možnosti? Torej, kaj je razred, ki se daje me največja verjetnost verjetnost razreda dati besedo. Torej, v tem primeru, saj Gaga "otroka". Ali Katy dana "otroka". Smisla? >> In samo od Bayes, da Enačba, da sem pokazal, smo ustvarili to frakcijo. Edina stvar je, da boste videli, da verjetnost besede glede razreda se spreminja glede v razredu, kajne? Število "otroške" ih, ki sem jih V Gaga je drugačen od Katy. Verjetnost razredu tudi spremembe, saj je samo številka pesmi, vsaka od njih ima. >> Ampak verjetnost je beseda sama se bo enaka za vse umetniki, kajne? Torej verjetnost besedo samo, kakšna je verjetnost, vidim to besedo v Angleški jezik? Torej je enaka za vse. Zato ker je to konstanta, smo lahko samo spusti to ne briga. Torej bo to dejansko Enačba iščemo. >> In če imam več besed, da sem še vedno dogaja, da imajo pred Verjetnost tukaj. Edina stvar je, da sem se pomnoži verjetnost Vse drugimi besedami. Torej sem se pomnoži vse od njih. Smisla? To izgleda čudno, ampak v bistvu pomeni, izračunati pred razreda, in nato pomnožimo z verjetnostjo, da je vsak besed, ki so v tem razredu. >> In veš, da je verjetnost Beseda dana razred se bo kolikokrat ste videli to besedo v da razred, deljeno s številom Besede, ki jih imajo po tem, da razred na splošno. Smisla? To je samo, kako "mlade" je bil več kot 2 število besed, ki Imel sem v besedilih. Torej samo frekvenca. >> Vendar pa obstaja ena stvar. Spominjam se, kako sem pokazal, da Verjetnost, "otroške", ki se lyrics od Katy Perry je 0 samo zato, ker Katy Perry ni imel "otroka" sploh? Ampak to se sliši malo kruto, da samo preprosto reči, da pesmi ne more biti iz umetnik samo zato, ker nimajo da beseda zlasti kadarkoli. >> Torej bi lahko samo rekli, dobro, če nimajo te besede, se bom vam manjšo verjetnost, ampak jaz samo ne bo vam 0. takoj. Saj morda je bilo nekaj podobnega, "Požar, ogenj, požar, ogenj", ki je popolnoma Katy Perry. In potem "mlade" in da gre samo za 0 desno stran, ker je bila ena "Otrok". >> Torej v bistvu tisto, kar počnemo, je nekaj imenovano Laplace glajenje. In to samo pomeni, da dajem nekateri verjetnost celo besedami da ne obstajajo. Torej, kaj storiti, je, da ko sem izračun tega sem vedno dodamo 1 do števec. Torej, čeprav beseda ne obstaja, pri V tem primeru, če je to 0, še vedno sem izračuna, da je to več kot 1 Skupno število besed. Drugače pa sem dobil, koliko besed Imam in dodam 1. Torej Štejem obeh primerih. Smisla? >> Torej, zdaj pa naredite nekaj kodiranja. Jaz bom moral to storiti zelo hitro, ampak to je samo pomembno, da vam Fantje razumejo koncepte. Torej, kaj smo poskušali narediti je natančno izvajanje te stvar, ki sem rekel - Želim vam, da iz besedila Lady Gaga in Katy Perry. In program se bo lahko reči, če so te nove pesmi iz Gaga ali Katy Perry. Smisla? OK. >> Torej imam ta program, vam bom poklicati classify.py. Torej, to je Python. To je nov programski jezik. To je zelo podoben v nekaterih poti do C in PHP. To je podobno, ker če hočeš naučiti Python ko vedo C, je res, da ni kaj prida izziv samo zato, ker Python je veliko lažje kot C, najprej. In veliko stvari, ki so že izvaja za vas. Torej, kako ima funkcije, kot so PHP, da razvrstiti seznam, ali pa dodajte nekaj array, ali bla, bla, bla. Python ima vse tiste, kot dobro. >> Torej grem na hitro razloži kako bi lahko naredil z uvrstitvijo problem tukaj. Torej, recimo, da v tem primeru, moram Besedila iz Gaga in Katy Perry. Tako, da imam te pesmi je, da prva beseda besedil je ime izvajalca in ostalo je lyrics. Torej, recimo, da imam ta seznam katerih prva je lyrics by Gaga. Torej, tukaj sem na pravi poti. In naslednjič je Katy, in ima tudi pesmi. >> Torej, to je, kako se razglasi spremenljivka v Python. Vam ni treba dati podatkovni tip. Pravkar ste napisali "lyrics" Tako kot v PHP. Smisla? >> Torej, kaj so stvari, ki jih moram izračun, da se lahko izračuna Verjetnosti? Moram izračunati "pridigarji" za vsakega izmed različnih razredi, ki jih imam. Moram izračunati "ogrodje,," ali precej verjetnosti vsako od različnih besed, ki Imam lahko za vsak umetnik. Tako znotraj Gaga, na primer, bom da imajo seznam, kolikokrat sem videl Vsaka od besed. Smisla? >> In končno, bom samo, da imajo Seznam imenovanih "besede", ki je pravkar dogaja da ima koliko besed imeti za vsakega umetnika. Torej za Gaga, na primer, ko pogledam do besedil, ki sem jih, mislim, 24 besede skupaj. Torej je ta seznam le, da bo imel Gaga 24, in Katy drugo številko. Smisla? OK. >> Torej sedaj, pravzaprav, dajmo pojdite na kodiranja. Torej v Python, lahko dejansko vrnitev kup različnih stvari iz funkcije. Torej bom ustvariti to funkcijo imenovano "pogojno", ki se dogaja vrniti vse te stvari, "pridigarji", za "Verjetnost," in "besede". Torej "pogojno", in to je bodo vprašljive "besedil." >> Torej, zdaj želim, da dejansko napisati to funkcijo. Torej način, da sem lahko to napisati Funkcijo sem to opredeljeno delovati v skladu z "def." Torej sem naredil "def pogojen, "in to je ob "Lyrics." In kaj to bo naredil je, najprej, imam Pridigarji da želim izračunati. >> Torej način, da sem lahko to storiti, je ustvariti Slovar v Pythonu, ki je precej ista stvar kot hašiš miza, ali je kot ponavljajoč matrika v PHP. To je, kako izjavljam slovar. In v bistvu, kaj to pomeni, da pridigarji iz Gaga je 0,5, na primer, če 50% besedil so iz Gaga, 50% pa od Katy. Smisla? Tako da sem moral ugotoviti, kako za izračun pridigarjem. >> Naslednji tisti, ki jih moram narediti, tudi, so verjetnosti in besede. Torej je verjetnost Gaga je seznam vseh verjetnosti, da sem ima za vsako od besed za Gaga. Torej, če grem na verjetnosti Gaga "Baby," za primer, da bomo mi nekaj takega kot 2 *** 24 v tem primeru. Smisla? Zato sem šel na "verjetnost", pojdite na "Gaga" bucket, ki ima seznam vseh besede Gaga, potem pa sem šel na "otroka" in vidim verjetnost. >> In končno imam to "Besede" ni v slovarju. Torej, tukaj, "verjetnosti". In potem "besede". Torej, če naredim "besed," "Gaga" kaj se bo zgodilo, je, da je dogaja, da mi 24, ki pravijo, da sem imajo 24 besed v besedilih iz Gaga. Smiselno? Torej, tukaj, "besede" je enaka dah dah dah. OK >> Torej, kaj bom storiti, je, da bom Ponovil skozi vsako od besedil, tako Vsaka od nizov, ki Imam na seznamu. In jaz bom za izračun te stvari za vsakega od kandidatov. Smiselno? Tako da sem moral narediti zanko. >> Torej, v Python, kaj lahko storim, je "za linijo V besedilih. "ista stvar kot "Za vsako" izjavo v PHP. Spomnim se, kako, če je bila PHP sem lahko pravijo "Za vsako besedil kot vrstica. "Logično? Tako da sem ob vsakem od linij, v tem primer, ta niz in dostavo Niz tako za vsako od linij, kaj sem tekoč storiti, je, prvič, bom razdeli to vrstico v seznamu besede ločene s presledki. >> Tako kul stvar Python je, da si lahko samo Google, kot so "kako lahko split niz v besede? "In to je dogaja, da vam povem, kako to storiti. In način, kako to storiti, je le "linija = Line.split () ", in to je v bistvu dogaja, da vam seznam z vsako od besed tukaj. Smiselno? Torej sedaj, da sem storil, da želim vedeti kdo je pevec te pesmi. In za to, da sem moral dobiti Prvi element matrike, kajne? Torej, jaz lahko samo rečem, da sem "pevec = Črta (0) "Ima smisel? >> In kaj moram storiti, potem je v prvi vrsti vse, bom posodobiti, koliko Besede imam pod "Gaga." tako da sem pravkar bo izračun, koliko besed sem imajo na tem seznamu, kajne? Ker je to, koliko besed sem V besedil in jaz bom samo dodajte na "Gaga" matrike. Ali to smiselno? Ne osredotočajo preveč na sintakso. Bolj misliti konceptov. To je najpomembnejši del. OK. >> Torej, kaj lahko storite, je, če "Gaga" je že v tem seznamu, tako da "če je pevka v besede "kar pomeni, da sem že imajo besede, ki jih Gaga. Želim dodati dodatne besed na to. Torej, kaj storiti, je "besede (pevka) + = Len (line) - 1 ". In potem sem lahko samo naredi dolžina proge. Torej, kako veliko elementov I imajo v matriki. In moram narediti minus 1 samo zato, ker Prvi element matrike je le pevka in to niso lyrics. Smiselno? OK. >> "Else", to pomeni, da želim, da se dejansko vstaviti Gaga v seznamu. Tako da sem naredil "besede (pevka) = Len (line) - 1: "Žal mi je. Torej je edina razlika med obema linije je, da ta, da ne obstajajo še ni, tako da sem samo inicializacijo. Tole sem pravzaprav dodal. OK. Torej, to je tako, da besede. >> Zdaj želim dodati, da pridigarjem. Torej, kako izračunam pridigarjem? Pridigarji se lahko izračuna s tem, koliko krat. Torej, kolikokrat ste videli, da je pevka Med vsemi pevci, ki vas imate, kajne? Torej za Gaga in Katy Perry, V tem primeru vidim Gaga enkrat, Katy Perry enkrat. >> Tako rekoč pridigarji za Gaga in Katy Perry bi samo ena, kajne? Ti samo kolikokrat Vidim umetnika. Torej, to je zelo težko izračunati. Jaz lahko samo nekaj podobnega, kot je všeč ", če pevka v dosjeju, "grem dodati 1 na njihovo Pridigarji polju. Torej, "pridigarji (pojejo)" + = 1 "in nato" drugega " Jaz bom naredil "Pridigarji (pevka) = 1. "Logično? >> Torej, če to ne obstaja, sem dal kot 1, sicer sem dodati 1. OK, tako da zdaj vse, kar mi je ostalo storiti je tudi dodamo vsaka od besed k Verjetnosti. Tako da sem moral prešteti, kolikokrat Vidim vsak besed. Tako da sem moral narediti še en za zanke v liniji. >> Torej prva stvar, ki jo bom naredil je, preveri, če že ima pevec Verjetnosti matrika. Torej sem preverjanje, če pevka ne imajo Verjetnost paleto, jaz sem samo gre za inicializacijo enega za njih. To ni niti matrika, žal, to je slovar. Torej je verjetnost pevec se dogaja biti odprt slovar, tako da sem samo inicializacijo slovar za to. OK? >> In zdaj sem lahko dejansko narediti zanko Za izračun vsako od besed " Verjetnosti. OK. Torej, kaj lahko storim, je za zanko. Torej, jaz bom samo Ponovil v matriki. Torej način, da sem lahko naredil, da v Pythonu je "za i v območju." Od 1 ker želim, da začnete na sekundo element, ker prva je Ime pevka. Torej od enega do dolžina proge. In ko sem se gibljejo v resnici gredo od kot sem od 1 do len od vrstica minus 1. Torej to že počne tisto stvar delaš n minus 1 za zaporedja, ki je zelo priročno. Smiselno? >> Torej, za vsako od njih, kaj bom naredimo je, tako kot v drugega, Grem preveriti, če je beseda v tem Položaj v liniji je že v Verjetnosti. In potem, ko sem rekel, tukaj, verjetnosti Besede, kot sem dal "verjetnosti (pevec)". Torej ime pevca. Torej, če je to že v "Probabilit (pevec)", to pomeni, da sem želite dodati 1 do njega, zato bom Do "verjetnosti (pevka)" in Beseda se imenuje "linija (i)". Jaz bom dodal 1 in "drugega" Jaz sem samo bo to inicializacijo za 1. "Line (i)". Smiselno? >> Torej, sem se izračunajo vsi nizi. Torej, zdaj vse, kar moram storiti za ta je samo "vrnili Pridigarji, Verjetnosti in besede. "dajmo vidim, če obstajajo, v redu. Zdi se, vse deluje tako daleč. Tako, da je smiselno? Na nek način? OK. Torej, zdaj imam vse verjetnosti. Torej, zdaj edino, kar je ostalo je le, da so to stvar, ki izračuna proizvod vseh Verjetnost, ko pridem lyrics. >> Torej, recimo, da želim, da danes imenujemo Ta funkcija "razvrščanje ()" in Stvar, ki funkcijo prevzame je le argument. Recimo "Dragi, jaz sem na ogenj" in to je dogaja, da ugotovimo, kaj je Verjetnost, da je ta Gaga? Kakšna je verjetnost, Tega Katie? Sliši se dobro? Tako da sem le, da bo treba ustvariti Nova funkcija se imenuje "klasificirati ()" in to se dogaja, da nekatere lyrics, kot dobro. In poleg besedil tudi jaz poslati pridigarjem, Verjetnosti in besede. Tako da bom poslati lyrics, Pridigarji, Verjetnosti, besede. >> Torej je ta ob lyrics, Pridigarji, Verjetnosti, besede. Torej, kaj počne? V bistvu se dogaja, da gredo skozi vse možne kandidate, ki jih ima kot pevka. In kje so tisti kandidati? Oni V pridigarjem, kajne? Torej imam vse tiste tam. Tako bom imel slovar vseh možnih kandidatov. In potem za vsakega kandidata v Pridigarji, tako da to pomeni, da se dogaja, da biti Gaga, Katie, če bi imel bolj bi bilo. Jaz bom za začetek izračun to verjetnost. Verjetnost, kot smo videli v PowerPoint se predhodno krat Produkt iz vsake od drugi verjetnosti. >> Tako da sem lahko naredil isto tukaj. Jaz lahko samo to verjetnost je, najprej tik pred tem. Tako pridigarji kandidata. Kajne? In zdaj moram ponoviti čez vse Besede, ki sem jih v besedilih, da bi lahko dodali verjetnost za vsakega od njih, v redu? Torej, "za besedo v pesmi" kaj bom storiti, je, če je beseda v "verjetnosti (kandidatke)", ki pomeni, da je beseda, ki ima kandidat v svojih besedilih - na primer, "ljubica" za Gaga - kaj bom storiti, je, da verjetnost, da se bo treba pomnožiti z 1 plus verjetnosti Kandidat za to besedo. In se imenuje "beseda". To deljeno s številom besed da imam za to kandidata. Skupno število besed, ki sem za pevca, da gledam. >> "Else". to pomeni, da je nova beseda Tako bi bilo, če bi na primer "Ogenj" za Lady Gaga. Torej, rad bi naredil več kot 1 "Beseda (kandidat)". Tako da ne želite, da bi ta izraz tukaj. >> Tako se dogaja, da je v bistvu kopiranje in lepljenje to. Ampak bom izbrisati ta del. Torej to je samo bo 1. *** tem. Sliši se dobro? In zdaj, na koncu sem le, da bo natisniti ime kandidata in Verjetnost, da imate v ima S na svojih besedilih. Smiselno? In jaz pravzaprav sploh ne Potrebujem ta slovar. Smiselno? >> Torej, da vidimo, če je to dejansko deluje. Torej, če sem teči to, da ni delovalo. Počakajte eno sekundo. "Besede (kandidatke)", "besede (kandidatke)", to je ime matrike. OK Torej, pravi, da je nekaj bug za kandidata v dosjeju. Dovolite mi, da se umiri malo. OK. Poskusimo. OK. >> Tako daje Katy Perry je to Verjetnost tega 10-krat na minus 7, in Gaga ima ta krat 10 na minus 6. Torej vidite, da kaže, da je Gaga ima večjo verjetnost. Torej "Dragi, jaz sem on Fire" je Verjetno Gaga pesem. Smiselno? Torej, to je tisto, kar smo storili. >> Ta koda se bo objavljen na spletu, tako da lahko vi pogledat. Morda uporabite nekaj pa za, če želite, da narediti projekt ali kaj podobnega. OK. To je bil samo pokazati kaj računska jezikoslovje koda izgleda. Ampak zdaj gremo k bolj Visoka raven stvari. OK. >> Torej drugi problemi I je govoril o tem - problem segmentacije je prva od njih. Torej imate tukaj Japonce. In potem boste videli, da ni presledkov. Torej je to v bistvu pomeni, da je to top stola, kajne? Govoriš japonsko? To je top stola, kajne? >> Študent: Ne vem, kaj kanji tam je. >> LUCAS FREITAS: To je [govori Japonsko] OK. Tako da v bistvu pomeni predsedovanje vrhu. Torej, če si moral dati prostor da bi bilo tukaj. In potem imaš [? Ueda-san. ?] Kar v bistvu pomeni, gospod Ueda. In boste videli, da je "Ueda" in imate prostor in nato "san". Torej vidite, da Tukaj ste "UE" je kot, ki ga sama. In tukaj ima značaj ob njej. >> Torej to ni všeč v teh jezikih znakov, kar pomeni besedo, ki je, tako da boste samo dal veliko prostorov. Znaki med seboj povezane. In so lahko skupaj kot dve, tri, ena. Tako da boste dejansko morali ustvariti nekakšno za način dajanja te prostore. >> In ta stvar je, da vsakič, ko prideš Podatki iz teh azijskih jezikov, vse, kar prihaja unsegmented. Saj nihče, ki piše v japonščini ali kitajski piše s presledki. Kadarkoli pišete Kitajski, Japonci si napisati vse brez presledkov. To sploh ni smiselno postaviti prostore. Potem, ko boste dobili podatke, nekateri Vzhodnoazijski jezik, če želite, da dejansko pa s tem nekaj moraš segmentu prvi. >> Razmišljati o tem zgledu lyrics brez presledkov. Torej le lyrics, ki jih imajo bo stavka, kajne? Ločene z obdobji. Potem pa imajo samo stavka bo ne res pomagal na posredovanje informacij kdo te pesmi so jih. Kajne? Torej bi morali najprej postavlja prostorov. Torej, kako lahko to storite? >> In potem pride ideja o jeziku model, ki je nekaj res pomembno za računskih jezikoslovje. Torej jezik model je v bistvu tabela verjetnosti, da kaže Najprej, kar je verjetnost imajo besedo v jeziku? Torej, ki prikazuje, kako pogosta beseda. In potem tudi kaže na odnos med besedami v stavku. >> Torej Glavna ideja je, če je tujec tebi in rekel stavek ti, kaj je verjetnost, da je za Na primer, "to je moja sestra [? GTF"?] je stavek, da je oseba, ki je rekel? Torej, očitno nekateri stavki so bolj pogosto kot drugi. Na primer, "dobro jutro" ali "dobro noč, "ali" Hej, "je veliko bolj pogosti kot večina stavkov da imamo angleščino. Torej, zakaj so ti stavki pogostejši? >> First of all, je to zato, ker imate besede, ki so bolj pogoste. Tako, na primer, če rečeš, da je pes velika, in pes je ogromen, si ponavadi verjetno slišali pes je velik bolj pogosto, ker je "velik", je bolj pogosta v angleškem jeziku kot "ogromen". Torej, eden stvari, je frekvenca beseda. >> Druga stvar, ki je res Pomembno je le vrstni red besed. Torej, to je skupno to, da rečeš "mačka znotraj škatle. "vendar pa običajno ne glej v "polje v notranjosti je mačka." tako boste videli, da obstaja pomembna v vrstnem redu besed. Ne moreš kar reči, da ti dve stavki imajo enako verjetnost samo zato, ker imajo enake besede. Boste dejansko morali skrbeti O vrstnem redu, kot dobro. Smisla? >> Torej, kaj naj naredimo? Torej, kaj lahko poskusite, boste dobili? Poskušam, da bi dobili tisto, kar smo klic modele n-gram. Torej n-gram modeli v bistvu prevzemajo da za vsako besedo, ki imate v stavku. To je verjetnost, da ima Beseda pa ni odvisna samo od pogostost te besede v jeziku, , ampak tudi na besede, ki so ga obkroža. >> Tako na primer, po navadi, ko vidiš nekaj podobnega ali pri vas verjetno bo videti samostalnik po njej, kajne? Ker, ko imate preposition Ponavadi to traja samostalnik po njej. Ali pa, če imate glagol, ki je prehodni navadi se dogaja, da imajo samostalnik frazo. Tako se dogaja, da imajo samostalnik nekje okoli njega. >> Torej, v bistvu, kaj počne, je, da meni, da je verjetnost, besede drug poleg drugega, ko si izračun verjetnost, da bo stavka. In to je tisto jezik Model je v bistvu. Samo reči, kaj je verjetnost od ima specifično stavek v jeziku? Torej, zakaj je to koristno, v bistvu? In najprej kar je Model n-gram, potem? >> Torej Model n-gram pomeni, da vsaka beseda odvisen Naslednja N minus 1 besed. Torej, v bistvu, to pomeni, da če gledam, na primer, v CS50 TF ko Jaz sem izračun verjetnosti stavek, boste všeč " Verjetnost, da ima beseda "" krat verjetnost, da imajo " CS50 "krat verjetnost, da ima "CS50 TF." Torej, v bistvu, jaz računam vse možne načine za njeno raztezanje. >> In potem ponavadi, ko delaš to, kot je v projektu, si dal N, da je Nizka vrednost. Torej, imajo običajno bigrams ali trigrams. Tako, da si šteje dve besedi, skupina dveh besed ali tri besede, samo za vprašanja o uspešnosti. In tudi zato, ker morda, če imate nekaj podobnega "The CS50 TF." Ko ste imajo "TF", to je zelo pomembno, da "CS50" je ob njem, kajne? Ti dve stvari sta običajno drug poleg drugega. >> Če menite, da "TF", je to verjetno dogaja, da imajo kaj Razred pa je TF'ing za. Tudi "" je res pomembno Za CS50 TF. Toda, če imate nekaj podobnega "The CS50 TF odšel v razredu in dali svoje študenti nekaj sladkarij. "" Candy "in" " imeti nobene zveze res, kajne? Oni so tako oddaljena drug od drugega, da ni važno kaj Besede, ki jih imajo. >> Tako, da delaš bigram ali trigram, da pomeni le, da ste omejevanje si, da nekaterih besed da so okoli. Smisla? Torej, če želite narediti segmentacijo, v bistvu, kaj želite storiti, je videti kaj so vse možne načine, da se lahko segmentu kazni. >> Takšna, da boste videli, kaj je verjetnost, da bo vsaka od teh stavkih obstajajo v jeziku? Torej, kaj morate storiti, je, kot, no, kaj me poskušali dati prostor tukaj. Torej si dal prostor tam in boste videli, kaj je Verjetnost tega stavka? Potem ste kot, OK, morda da ni bil tako dober. Zato sem dal prostor tam in presledek poleg tega pa si izračunajte Verjetnost, zdaj, in boste videli, da je večja verjetnost. >> Torej je to algoritem imenovan TANGO segmentacija algoritem, ki je pravzaprav nekaj, kar bi bilo res kul za projekt, ki je v bistvu traja unsegmented besedilo, ki lahko japonska ali kitajska ali morda Angleščina brez presledkov in poskuša dati presledki med besedami in to počne da z uporabo jezikovnega vzorca in poskuša videti, kaj je najvišja Verjetnost lahko dobite. OK. Torej je ta delitev. >> Zdaj sintaksa. Torej, je sintaksa uporablja za Toliko stvari zdaj. Torej za graf Search, za Siri za precej koli vrste naravnih jezik za obdelavo imate. Torej, kaj so pomembna stvari o skladnji? Torej, stavki imajo na splošno kar imenujemo sestavine. Ki so nekako kot skupin besed da imajo funkcijo v stavku. In ne more biti res narazen. >> Torej, če rečem, na primer, "Lauren ljubi Milo. "Vem, da je" Lauren " Sestavni in nato "ljubezni Milo "je tudi še eden. Ker ne morete reči, kot je "Lauren Milo rad "na enak pomen. To se ne dogaja, da imajo enak pomen. Ali pa ne morem reči, kot je "Milo Lauren ljubi. "Ni vse, kar je enako kar pomeni, da delaš. >> Torej, dve pomembni stvari o sintaksa so leksikalni vrste, ki je v bistvu funkcija, ki jo imeti za besedami, ki jih sami. Tako da boste morali vedeti, da "Lauren" in "Milo" so samostalniki. "Ljubezen" je glagol. In druga pomembna stvar je, da oni stavčni vrste. Tako da boste vedeli, da je "ljubi Milo" je pravzaprav besedni stavek. Torej, ko rečem "Lauren," Vem, da Lauren počne nekaj. Kaj počne? Ona je ljubeč Milo. Tako da je cela stvar. Vendar njegovi sestavni deli so samostalnik in glagol. Ampak skupaj, dajo glagol frazo. >> Torej, kaj lahko dejansko počnejo z računalniška lingvistika? Torej, če imam kaj za primer "prijatelji Allison." Jaz vidim, če sem ni skladenjsko drevo Rad bi vedel, da "Prijatelji" je samostalnik stavek je samostalnik in nato "Allison" je predložne zveze, pri kateri "v" je predlog in "Allison" je samostalnik. Kaj lahko storim je naučil moj računalnik da ko imam samostalnik besedno eno in potem predložne zveze. Torej v tem primeru, "prijatelji" in nato "od Milo "Vem, da to pomeni, da NP2, drugi pa ima v lasti NP1. >> Tako da sem lahko ustvari neke vrste zvezi, nekakšen funkcije za to. Torej, ko sem videl to strukturo, ki točno ujema s "prijatelji Allison, "Vem, da je Allison lastnik prijatelje. Torej, prijatelji so nekaj da ima Allison. Smiselno? Torej, to je v bistvu tisto, kar Graf Iskanje počne. To samo ustvarja pravila Za veliko stvari. Tako "prijatelji Allison", "Moji prijatelji ki živi v Cambridgeu, "" prijatelje ki gredo na Harvard. "Ustvarja pravila za vse te stvari. >> Zdaj strojno prevajanje. Torej, strojno prevajanje, je prav tako Nekaj statističnih podatkov. In dejansko, če se vključijo v računalniška lingvistika, veliko vaše stvari se bo statistika. Torej, kot sem delal na primer z veliko verjetnosti, da sem bil izračun, nato pa dobiš za to zelo majhno število, ki je končni Verjetnost, in to je tisto, vam daje odgovor. Strojno prevajanje prav tako uporablja statističnega modela. In če želite, da razmišljajo o stroju prevod v najpreprostejši možni Mimogrede, kaj si lahko misliš, da je prav prevesti besedo za besedo, kajne? >> Ko ste učenje jezika za prvič, da je običajno, kar ti, kajne? Če želite prevesti stavek v vašem jeziku, v jeziku učiš, običajno najprej, ti prevesti vsaka od besed posamično, nato pa poskusite dati besede v mestu. >> Torej, če sem hotel prevesti, [GOVORJENJE PORTUGALSKA] kar pomeni "bela mačka zbežala." Če bi želel prevesti iz Portugalski v angleščino, kar sem lahko narediš je, prvič, sem prevesti besedo za besedo. Torej, "o" je "," "Gato", "mačka" "Branco", "bele" in nato "fugio" je "Pobegnil". >> Torej imam vse besede tukaj, ampak oni niso v redu. To je kot "mačka bela pobegnil" ki je Negramatički. Torej, potem pa lahko drugi korak, ki se bo našel idealno Položaj za vsako od besed. Tako da vem, da sem dejansko želijo imeti "Bela mačka" namesto "mačka beli barvi." Tako kaj lahko storim, je, najbolj naivna metoda bi ustvariti vse možne permutacije besede, iz pozicij. In potem vidite, katera ima največja verjetnost, da po po mojem jezikovnem modelu. In potem, ko sem najti tisto, ki ima največja verjetnost je, ki je verjetno "bela mačka zbežala," to je moj prevod. >> In to je preprost način razložiti kako veliko strojno prevajanje algoritmov. Ali to smiselno? To je tudi nekaj res razburljivo da lahko vi morda raziskovanje za končni projekt, ja? >> Študent: No, ste rekli, da je naiven način, da tisto, kar je ni naiven način? >> LUCAS FREITAS: ni naiven način? OK. Torej prva stvar, ki je slabo zaradi Ta metoda je, da sem prevedeni besede, besedo za besedo. Ampak včasih moraš besede, ki imajo lahko več prevodov. Bom poskusil, da razmišljajo nečesa. Na primer, "manga" v portugalski pločevinki bodisi "Komadati" ali "rokav." Tako ko ste poskušali prevesti besedo z besedo, morda vam nekaj, kar nima nobenega smisla. >> Torej si dejansko želijo, da pogledaš na vse možni prevodi besede in glej, najprej, kaj je red. Govorila sva o permutating stvari? Če si želite ogledati vse možne naloge za in izberejo eno z najvišjo Verjetnost? Izberete lahko tudi vse mogoče prevodi za vsako Beseda in potem videli - v kombinaciji z permutacije - katera ima največjo verjetnost. >> Plus, si lahko ogledate tudi ne samo besede, ampak besede. tako da lahko analizira odnose med besede in nato dobil boljši prevod. Tudi kaj drugega, tako da je ta semester Jaz sem pravzaprav raziskovalno delo v Kitajsko-angleški strojno prevajanje, tako prevajanju iz Kitajci v angleščino. >> In kaj moramo storiti, je, poleg uporabo statističnega modela, ki je le videnje verjetnosti videli nekateri položaj v stavku, sem dejansko tudi dodal nekaj sintakse my Model, rekoč, oh, če vidim te vrste gradnje, to je tisto, kar hočem Za spremembo, ko sem prevajati. Torej si lahko dodate tudi neke vrste element sintakse, da bi Prevod učinkovitejše in natančnejše. OK. >> Torej, kako lahko začnem, če hočeš nekaj storiti v računskih lingvistika? >> Najprej morate izbrati projekt ki vključuje jezike. Torej, tam je tudi veliko tam. Tukaj je toliko stvari, ki jih lahko storite. In potem lahko zamislite model ki jih lahko uporabite. Ponavadi to pomeni razmišljanje predpostavke, kot je všeč, oh, ko sem bil podobno razmišljanje besedil. Bila sem kot, no, če želim, da ugotovimo ven, ki je to napisal, sem verjetno želeli pogled na besedami oseba uporablja in glej, ki uporablja to besedo zelo pogosto. Torej, poskusite narediti predpostavke in začeti razmišljati o modelih. In potem si lahko tudi iskanje na spletu za vrste problem, ki ga imajo, in to se dogaja, kažejo, da vas modele, ki morda vzoru te stvari dobro. >> In prav tako lahko vedno mi email. me@lfreitas.com. In lahko sem samo odgovoriti na vaša vprašanja. Lahko bi celo lahko sestanejo, da bom lahko dajejo predloge o načinih izvedbi projekta. In mislim, če ste se ukvarjajo z računalniške lingvistike, da se dogaja bi bilo super. Boš videl tam je tako veliko potenciala. In industrija želi zaposliti ti tako slabo zaradi tega. Zato upam, da vama je to všeč. Če imate kakršno koli vprašanje fantje, mi lahko vprašam po tem. Ampak hvala.