nlp natural language processing natural other englision part one

Tarihsel Gelişim

Klasik Mimari Yaklaşımlar (1950-1980)

  • S → NP VP: Bir cümle (S), bir isim öbeği (NP) ve ardından bir fiil öbeğinden (VP) oluşur.
  • NP N: En temel biçimiyle bir isim öbeği (NP), yalnızca bir ad (isim) içerebilir. Ancak çoğu durumda belirleyiciler (Det), sıfatlar (Adj) veya sayılar (NUM) ile genişletilebilir:
    NP → (Det) (Adj) (NUM) N
  • N: Cümlede geçen temel isimleri temsil eder.
    Örneğin; Atatürk, saygı, başarı…
  • TO → \”to\”: Mastar yapılarında kullanılan bağlayıcıdır.
    Örneğin; başarmak için, gitmek.
  • PP → P NP: Bir edat öbeği (PP), bir edat (P) ve ardından gelen bir isim öbeğinden (NP) oluşur.
    Örneğin; ulus için…
  • P: [Edatlar] Türkçedeki yer-yön ve ilgi belirten sözcükleri kapsar.
    Örneğin; üzerine, hakkında, ile, gibi…
  • Det: [Belirleyiciler] Bir isimden önce gelen ve onun tanımlayıcısı olan sözcüklerdir.
    Örneğin; bir, bu, o…
  • NUM: [Sayılar] Cümlelerde sayı belirten/tanımlanan öğelerdir.
    Örneğin; sekizinci, üçüncü…

NP → N
N → “Mustafa Kemal Atatürk”

VP → V PP
V → “besliyoruz” (yüklem/fiil)
PP → P NP

P → “için”

NP → Det Adj N
Det → “bir”
Adj → “derin”
N → “saygı”

IF user_input CONTAINS "I am" THEN RESPOND "How long have you been $1?"
  • Eylem: besliyoruz
  • Fail (Gizli Özne): biz
  • Hedef: Mustafa Kemal Atatürk
  • Nesne: saygı
  • Sıfat: derin
  • Belirleyici: bir
  • Düğümler (Nodes): Dilsel kategorileri temsil eder.
    Örneğin; NP, VP vb.
  • Geçişler (Arrows): Girdi sözcüğüne veya kurala göre ilerlemeyi tanımlar.
  • Yinelemeli (Recursive) çağrılar: Alt kuralların işlenmesini sağlar.
    Örneğin; NP içerisinde farklı bir NP.

İstatistiksel Yaklaşımlar (1980-2000)

1.Brown Corpus* [Kaynak Dil: İngilizce]

  • İlk genel amaçlı bilgisayarla işlenebilir metin koleksiyonudur (1961).
  • Henry Kučera ve Winthrop Nelson Francis tarafından; Brown Üniversitesi’nde derlenen ve 500’den fazla ingilizce metin içeren, bir milyona yakın sözcükten oluşan bir derlem.
  • Yaklaşık; 1 milyon kelime içermektedir.
  • Computational Linguistics (Hesaplamalı Dilbilim) alanında yaygın olarak kullanılmaktadır.
  • Genel fihrist için; Brown Corpus – Wikipedia
    *Corpus: Kolleksiyon, Külliyat.

2.Penn Treebank [Kaynak Dil: İngilizce]

3.Türkçe Ulusal Derlemi (TUD) – Turkish National Corpus (TNC) [Türkçe]

  • Türçe Ulusal Derlemi – TUD olarakta ifade edilmektedir.
  • Türkiye Türkçesini temsil eden, dengeli ve temsili bir korpustur.
  • 50 milyon kelime içerir.
  • Açık erişim tam sürümü yoktur, ancak bilgi ve talep formu için:
  • Kullanım kaynağı için; TNC Web Sitesi

https://v3.tnc.org.tr/register

4.METU-Sabancı Treebank [Türkçe]

https://ii.metu.edu.tr/metu-corpora-research-group

https://web.itu.edu.tr/gulsenc/treebanks.html

5.Sözlü Türkçe Derlemi (STD) – Spoken Turkish Corpus (STC) [Türkçe]

  • Doğal, günlük konuşmalardan oluşan sözlü dil içerikleri içerir.
  • Yaklaşık 400.000 sözcük barındırı.
  • Sözdizimsel ve morfolojik etiketleme
    Transkripsiyon (uluslararası standartlara uygun)
    etiketleme yapıları içerir.
  • Genel fihrist; std-bilgileri.pdf

Erişim gerçekleştirildiğinde ise;

6.OpenSubtitles Corpus [Kaynak Dil: Çok Dilli]

  • Film altyazılarından alınmış, çok dilli paralel metinler sunar.
  • Özellikle çeviri modelleri için uygundur.
  • 1950’lerden günümüze kadar olan filmler/diziler ile; 22 milyardan fazla kelime, 400 milyondan fazla cümle çifti içerir.
  • Yapısı; Cümle hizalamalı (bilingual) ve Zaman damgalı altyazılardan oluşmaktadır.
  • 60+ dil desteği içermektedir. (İngilizce, Türkçe, Almanca, Japonca, vb.)
  • Genel fihrist; GitHub – The Open Parallel Corpus
  • 1.212 korpus/derlem,
  • Toplam 58.851.021.412 cümle çifti,
  • 747 dil
  • Naive Bayes Sınıflandırıcıları
  • Gizli Markov Modeli (HMM)
  • N-Gram Modelleri

, ,

İlgili Yazılar