ELFA-korpus (elfa)

ELFA-korpus (elfa)

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The ELFA corpus (English as a Lingua Franca in Academic Settings) contains approximately 1 million words of transcribed spoken academic English as a Lingua Franca (approximately 131 hours of recorded speech).

The data consists of both recordings and their transcripts, which are available in several versions:

The transcripts can be queried via the Korp interface (The Helsinki Korp Version of the ELFA Corpus). The Korp version of the corpus is publicly available.
The transcripts can be downloaded in plain text and XML format (The Transcriptions of the ELFA Corpus, Downloadable Version). This version is also publicly available.
The audio files, corresponding to the transcript files, can be downloaded for research use (The Audio Files of the ELFA Corpus, Downloadable Version). Due to personal data, this part of the ELFA material requires individual access permissions for which you may apply in the Language Bank Rights system, see instructions.

The recordings were made at the University of Tampere, the University of Helsinki, Tampere University of Technology, and Helsinki University of Technology.

The speech events in the corpus include both monologic events, such as lectures and presentations (33 % of data), and dialogic/polylogic events, such as seminars, thesis defences, and conference discussions, which have been given an emphasis in the data (67%).

As for the disciplinary domains, the ELFA corpus is composed of social sciences (29% of the recorded data), technology (19%), humanities (17%), natural sciences (13%), medicine (10%), behavioural sciences (7%), and economics and administration (5%).

Also the speakers in ELFA represent a wide range of first language backgrounds as the data comprises approximately 650 speakers with 51 different first languages ranging from African languages (e.g. Akan, Dagbani, Igbo, Kikuyu, Somali, Swahili), to Asian (e.g. Arabic, Bengali, Chinese, Hindi, Japanese, Persian, Turkish, Uzbek), and European languages (e.g. Czech, Danish, Dutch, French, German, Italian, Lithuanian, Polish, Portuguese, Russian, Romanian, Swedish etc.).The percentage of speech by native English speakers is 5%. Also, considering that the recordings were made in Finnish speaking universities, the percentage of speech by Finnish mother tongue speakers is relatively low at 28.5%.

Please note that this corpus contains personal data. By using the material, you agree to follow the personal data guidelines given by the Language Bank of Finland.

Aineiston aikaisempaa LAT-versiota vastaava sisältö löytyy nyt Kielipankin latauspalvelusta

Kielipankin LAT-alusta on poistettu käytöstä vuoden 2020 lopussa, eikä tätä aineistoa enää pääse käyttämään LAT-näkymän kautta. Vastaava sisältö on saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN– ja Praat-ohjelmilla.

Lisenssi ja pääsy aineistoon

Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025101701

Viimeksi muokattu 2025-10-21