ELFA-korpus (elfa)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoYhteyshenkilöSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

The recordings were made at the University of Tampere, the University of Helsinki, Tampere University of Technology, and Helsinki University of Technology.

The speech events in the corpus include both monologic events, such as lectures and presentations (33 % of data), and dialogic/polylogic events, such as seminars, thesis defences, and conference discussions, which have been given an emphasis in the data (67%).

As for the disciplinary domains, the ELFA corpus is composed of social sciences (29% of the recorded data), technology (19%), humanities (17%), natural sciences (13%), medicine (10%), behavioural sciences (7%), and economics and administration (5%).

Also the speakers in ELFA represent a wide range of first language backgrounds as the data comprises approximately 650 speakers with 51 different first languages ranging from African languages (e.g. Akan, Dagbani, Igbo, Kikuyu, Somali, Swahili), to Asian (e.g. Arabic, Bengali, Chinese, Hindi, Japanese, Persian, Turkish, Uzbek), and European languages (e.g. Czech, Danish, Dutch, French, German, Italian, Lithuanian, Polish, Portuguese, Russian, Romanian, Swedish etc.).The percentage of speech by native English speakers is 5%. Also, considering that the recordings were made in Finnish speaking universities, the percentage of speech by Finnish mother tongue speakers is relatively low at 28.5%.

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Aineiston aikaisempaa LAT-versiota vastaava sisältö löytyy nyt Kielipankin latauspalvelusta

Kielipankin LAT-alusta on poistettu käytöstä vuoden 2020 lopussa, eikä tätä aineistoa enää pääse käyttämään LAT-näkymän kautta. Vastaava sisältö on saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025101701

Viimeksi muokattu 2025-10-21