Otomatik Metin Özeti – Lincoln, Otomatik Özete Giriş – Veri Blogu
Veri, yapay zeka ve projelerimle ilgili bir blog
Contents
Otomatik özet, uzun bir metin, hatta bir dizi metin almak ve bilginin çoğunu içeren çok daha kısa bir metin oluşturmaktır. Basit ? O kadar değil. İlk olarak, hangi bilgilerin gerçekten önemli olduğunu kabul etmelisiniz. Ardından, bunları düzgün bir şekilde çıkarabilmeliyiz, onları dilbilgisi metninde ve insan müdahalesi olmadan yeniden düzenleyebilmeliyiz. Ve bu, olası özetlerin çok sayıda varyantına güvenmeden !
Otomatik metin özeti
Doku toplama ve depolamanın patlaması ile, bu kütleden ilgili bilgileri analiz etme ve çıkarma ihtiyacı giderek daha fazla mevcuttur.
Ayrıca, Otomatik Doğal Dil İşleme (TALN) için derin öğrenme modellerindeki patlama, operasyonel konularda metinsel verilerin kullanımını kolaylaştırdı. Otomatik metin özeti, cevaplama sorusu, benzerlik analizi, belgenin sınıflandırılması ve Taln ile bağlantılı diğer görevler ile aynı şekilde.
Bu bağlamda Laboratuvar yeniliği De Lincoln, otomatik metin özeti üzerinde çalışmaya karar verdi. Bu çalışmalar, dil için mevcut otomatik özet modellerin bir ölçütünü oluşturmayı mümkün kıldı Fransızca, kendi modelimize neden olmak ve nihayet üretime koymak.
Model eğitimi
Veri
Çalışmamıza başlamadan önce, önce otomatik özet modelleri öğrenmek için bir veritabanı oluşturmak zorunda kaldık. Birkaç Fransız haber sitesinden basın öğelerini kurtardık. Bu taban ~ 60K makaleler içerir ve sürekli olarak güncellenir.
Teknoloji harikası
Otomatik özet algoritmaları iki kategoriye ayrılabilir: özetler çıkarma ve özetler soyutlayıcı. Çerçevede çıkarma, Özetler, özetlerken metinden çıkarılan cümlelerden oluşturulmuştur soyutlayıcı yeni cümlelerden üretildi.
Otomatik özet modeller İngilizce olarak oldukça yaygındır, ancak Fransızca’da çok daha azdır.
Metrikler
Modellerin değerlendirilmesi için aşağıdaki metrikleri kullandık:
KIRMIZI : Kuşkusuz en sık özet görevlerde bildirilen ölçüm, özlemi değerlendirme için geri çağırma yönelimli bir azalma (Lin, 2004), değerlendirilen özet ile insan referans özeti arasındaki benzer n-gram sayısını hesaplar.
Meteor: Açık sipariş ile çevirinin değerlendirilmesi için metrik (Banerjee ve Lavie, 2005) Otomatik çeviri sonuçlarının değerlendirilmesi için tasarlanmıştır. Unigramlarda hassasiyet ve hatırlamanın harmonik ortalamasına dayanır, geri çağırma hassasiyetten daha büyük bir ağırlığa sahiptir. Meteor genellikle otomatik özet yayınlarda kullanılır (bkz., 2017; Dong ve ark., 2019), kırmızıya ek olarak.
Yenilik: Bazı soyut modellerin ekstraksiyona çok fazla dayandığı fark edilmiştir (bkz., 2017; Krysci ‘Nski ve ark.‘, 2018). Bu nedenle, üretilen özetler içinde üretilen yeni N-gramların yüzdesini ölçmek yaygın hale geldi.
Kaynak: MLSUM Paper’dan Çeviri [2].
Modellerin konuşlandırılması
Model eğitimi için, modellerin eğitimi, izlenmesi ve dağıtılması için eksiksiz bir ortam sağlayan Cloud Azure ML hizmetini kullandık.
Tüm azureml ortamını programlı bir şekilde yönetmenizi sağlayan Python SDK’yı daha kesin bir şekilde kullandık, “işlerin” lansmanından modellerin konuşlandırılmasına kadar.
Ancak, son modelimizi kapsayıcı bir şişe uygulamasında kapsülledik, daha sonra bir Kubernetes kümesi üzerinde CI/CD boru hatları aracılığıyla dağıtıldık
Sonuçlar
Her şeyden önce, modellerin 10 bin makalede liderlik ettiği, modelin başlangıcında (512 veya 1024) ve farklı mimarilerin.
İlk Gözlem: Kırmızı ve Meteor metrikleri, modellerimizin performans değerlendirmesi için çok uygun görünmüyor. Bu nedenle karşılaştırmalarımızı sadece yenilik puanına dayandırmayı seçtik ve mimari Daha Soygun Özetleri tercih etmek.
Modelimizin eğitimini 700K öğelerinde ittikten sonra, sonuçları önemli ölçüde geliştirdik ve aşağıda bulacağınız bir ilk sürümü doğruladık.
Dikkat Noktaları
Performansın ötesinde, bu deney bazılarını vurgulamamızı sağladı sınır Otomatik Özet:
Şu anda, tür modellerin girişlerinde metnin boyutu Dönüşüm GPU’ların anısına kapasite ile sınırlıdır. Bellekteki maliyet, metnin boyutu ile kuadratik olarak, bu, özetlenecek metnin genellikle yeterince uzun olduğu otomatik özet görevleri için gerçek bir sorun oluşturur.
Metin oluşturma görevlerini değerlendirmek için ilgili metrikleri bulmak çok zor.
Dikkat olmak Çıkarımın ağırlığı : Kendi içlerinde verilerle ilgili birkaç sorunla karşılaştık. Temel sorun, makalenin makalesinin genellikle makalenin ilk cümlelerinin bir açıklaması veya hatta bir kopyası olmasıdır. Bu, makalenin ilk cümlelerini iade ederek modellerimizi soyutlayıcı olmaktan daha fazla çıkarmaya teşvik etmenin sonucu vardı. Bu nedenle, bu tür bir önyargıyı önlemek için sorunu ortaya koyan makaleleri silerek bir kürasyon çalışması yapmak gerekiyordu.
Veri, yapay zeka ve projelerimle ilgili bir blog.
Otomatik özet, uzun bir metin, hatta bir dizi metin almak ve bilginin çoğunu içeren çok daha kısa bir metin oluşturmaktır. Basit ? O kadar değil. İlk olarak, hangi bilgilerin gerçekten önemli olduğunu kabul etmelisiniz. Ardından, bunları düzgün bir şekilde çıkarabilmeliyiz, onları dilbilgisi metninde ve insan müdahalesi olmadan yeniden düzenleyebilmeliyiz. Ve bu, olası özetlerin çok sayıda varyantına güvenmeden !
Doktora derecemden hemen önce bu heyecan verici temada yaklaşık bir yıl boyunca çalışabildim, bu yazı bu konuda kendimi daldırmak ve alan adındaki en son yenilikleri stoklamak için bir fırsat.
Öyleyse, bu temaya genel bir bakış yapalım, iki tür sistem üzerinde hafifçe ayrıntılı olarak yer almadan önce, AI ve sinir ağlarından olanlar ve oldukça en uygun ekstraksiyona odaklananlar, var olan farklı özet türlerini açıklayarak oluşturarak. bilgi.
Farklı özet türleri
Özet hakkında konuştuğumuzda, genellikle bir kitabın arka kapağını veya bir filmin senaryosunun açıklamasını düşünüyoruz. Genel olarak, sonunu bozmaktan kaçınırlar, tam olarak bu, klasik otomatik özetin bir aracı isteyeceği zaman: entrikaları söylemek için özet, temelleri bilmek için yeterli olabilir. İşte hakkında Mono belge özetleri, Yani sadece tek bir belgeyi özetliyoruz (bir film, bir kitap, bir makale, …).
Aksine, bir Çok belgesel özet, Basın İncelemeleri bağlamında daha sık buluştuğumuzu: Çeşitli basın kuruluşları tarafından bildirilen en önemli bilgilerin bir özetine sahip olmak istiyoruz.
Özetlemeye çalıştığımız veri türü, mono veya çok belgesel olarak karar verdikten sonra, iki yaklaşım arasında seçimimiz var:çıkarma, bir özet oluşturmak için geri koymadan önce bilgilerin ne kadar çıkarılmasından oluşan ve yaklaşım üretken, daha akıcı ve daha özgür bir özete sahip olmak için orijinal olarak belgelerde görünmeyen yeni cümleler oluşturmaktan ibarettir.
Bu kriterlere ek olarak, buraya yaklaşmayacağımız çeşitli özet stilleri vardır: yeni bir belgede görünen ve şimdiye kadar listelenmemiş olan bilgileri özetlemeden oluşan özetleri güncelleyen özetler, kesin bir açı benimsemeden oluşan özetlenmiş yönlendirilmiş Kullanıcı tarafından verilen ..
Yapay zeka ve sinir ağları otomatik özette devrim yapar
-2010’ların ortalarına kadar, özetlerin çoğu çıkarıldı. Bununla birlikte, bu algoritmalarda, tüm cümlelerin seçilmesinden ve çıkarılmasından, yeniden çözülen kesin bilgilerin çıkarılmasına kadar, daha sonra önceden hazırlanan şablonlar olarak adlandırılan deliklerde değişen büyük çeşitlilik vardı. Sinir ağlarına dayanan yeni yaklaşımların gelişi durumu önemli ölçüde değiştirdi. Bu algoritmalar, bu GPT demosunda ne yapabileceği gibi, gramer ve akıcı metin oluşturmak için öncekilerden çok daha etkilidir.
Bununla birlikte, sinir ağları büyük miktarda verinin eğitilmesini gerektirir ve nispeten açılır. Doğruluğun çok az önemli olduğu yorumlar oluşturmak için mükemmel çalışırlar, ancak basın makaleleri özetleri bağlamında sorunlu olan çelişkili veya basitçe yanlış bilgiler üretebilirler. Birçok araştırma makalesi, sinir ağlarının bu “halüsinasyonları” ile ilgileniyor.
Hibrit bir araç örneği: Potara
Otomatik özet, ilgilendiğim ilk araştırma konusuydu ve ustamda çok belgesel bir yaklaşım için ekstraksiyon/nesil ile hibrit bir özet sistemini geliştirme fırsatım oldu, yani bir dizi belgeyi özetlemek gerekirse aynı konu.
Fikir, klasik bir çıkarmadan başlamak, yani en önemli cümleleri tanımlamak ve bir özet oluşturmak için bunları birleştirmekti. Bu yaklaşımla ilgili sorun, en önemli cümlelerin genellikle daha da geliştirilebilmesidir. Örneğin, bir başkanlık yerinden edilmesinden bahsedilen bir makalede, “Emmanuel Macron Amerikan meslektaşıyla tanıştı ve ekonomi tartışan” ifadesi “Emmanuel Macron Met Joe Biden ile” geliştirilebilir ve ekonomi tartıştı “. Gazeteciler Provalardan dikkatlice kaçınıyor, kendimizi sık sık bu tür bir fenomenle karşı karşıya buluyoruz.
Bu kusurun üstesinden gelmek için, farklı belgelerde bulunan benzer cümleleri belirleyebilir ve daha iyi bir cümle elde etmek için bunları birleştirmeye çalışabiliriz. ANSI, aşağıdaki iki cümleden:
- Emmanuel Macron Washington’daki Amerikan meslektaşıyla tanıştı ve ekonomi hakkında konuştu.
- Fransa Başkanı Joe Biden ile tanıştı ve ekonomiyi tartıştı.
Kısa ve bilgilendirici bir cümle oluşturabiliriz:
- Emmanuel Macron Washington’da Joe Biden ile tanıştı ve ekonomi tartıştı.
Bu sonucu elde etmek için birkaç adım gereklidir: benzer cümleler bulmak, en iyi füzyonu bulmak, füzyonun orijinal bir cümleden çok daha iyi olduğunu kontrol etmek. Birçok teknolojinin bir parçası olarak alıyorlar: benzer cümleler bulmak için sinir ağlarına sahip Word2, bunları birleştirmek için ortak ccccurence grafikleri, en iyi birleşmeleri seçmek için ILP optimizasyonu.
Daha fazlasını görmek istiyorsanız, Potara açık kaynaklıdır, ancak bir süredir korunmaz. Bu proje piyasaya sürüldüğümde özellikle bir vitrin olarak hizmet etmişti ve bu nedenle belgeler, testler, sürekli entegrasyon, pypi üzerine konuşlandırma, ..
İyi bir otomatik özet nedir ?
Belirli kriterlerin değerlendirilmesi açık ve nispeten basit görünüyorsa (örneğin cümlelerin dilbilgisi), diğerleri çok daha karmaşıktır. Bir metnin en önemli bilgilerinin ne olduğuna karar vermek zaten kendi içinde çok öznel bir görev. Akışkanlığı değerlendirin, kullanılan kelimelerin doğru seçimi, yayıncılık çalışmalarına geri döner ve bir özetin alabileceği siyasi yönelim hakkında konuşmayalım !
Sinir ağlarına dayanan yeni üretken modellerin, bir film eleştirmeni üretme konusunda aranan bir etki olan, ancak bir başkan adayı programı hakkında konuşurken çok daha az olan bir etki olan aşağılayıcı yargılar veya elemeler (veya kullanıcı dostu) tanıtması muhtemeldir !
Bu nedenle otomatik özet, araştırmada çok aktif bir konu olmaya devam etmektedir ve bir an için, özellikle algoritmanın sonucuna, tam olarak belirli bir duyguya, belirli bir stile, siyasi bir renklendirmeye yönelik olarak rehberlik etme yeteneği ile ilgili olarak olabilir. Sektörde, çok özel yöneticilere girmeye başlar (örneğin toplantıların özeti).
Başkanlık 2022: Verilerinize !
2022 Başkanlık Seçimleri için yapılacak 3 Veri Projesi Örnekleri.